
11:08 - 23/08/2018
Thuật toán đánh bại con người trong phát hiện tin giả
Trong một nghiên cứu mới đây, hệ thống thuật toán đã phát hiện thành công tin giả lên đến 76% thời gian, so với một con người chỉ đạt mức thành công 70%.
Một hệ thống dựa trên thuật toán nhận diện nhanh những tín hiệu ngôn ngữ trong các tin bài giả có thể cung cấp cho các trang tin tổng hợp hoặc các trang mạng xã hội như Google News bằng một vũ khí mới trong cuộc chiến chống thông tin sai lệch, theo một nghiên cứu mới.
Các nhà nghiên cứu phát triển hệ thống thuật toán chứng minh rằng hệ thống có thể sánh ngang và đôi khi còn tốt hơn con người khi nhận diện một cách chính xác các tin tức giả.
Trong một nghiên cứu mới đây, hệ thống thuật toán đã phát hiện thành công tin giả lên đến 76% thời gian, so với một con người chỉ đạt mức thành công 70%.
Ngoài ra, cách tiếp cận phân tích ngôn ngữ của hệ thống thuật toán có thể được sử dụng để nhận diện tin bài giả quá mới để lật tẩy bằng cách tham chiếu chéo các sự kiện với các tin bài khác.
Rada Mihalcea, một giáo sư khoa học máy tính và kỹ thuật tại Đại học Michigan, người đứng đằng sau dự án, cho rằng một giải pháp tự động có thể là một công cụ quan trọng dành cho các trang web đang đấu tranh đối phó với một sự công kích dữ dội của các tin bài giả mà thiên hạ thường tạo ra để câu click hoặc thao túng dư luận.
Bắt được những tin bài giả trước khi chúng thực sự tạo ra các hậu quả thực có thể khó khăn, vì các trang tổng hợp và trang mạng xã hội đến nay lệ thuộc nặng nề vào các biên tập viên con người thường không theo kịp luồng tin tức.
Ngoài ra, các kỹ thuật lật tẩy thường phụ thuộc vào các xác minh sự kiện bên ngoài có thể gặp khó khăn với các tin tức mới nhất.
Thông thường, vào lúc một tin được chứng minh là giả, thiệt hại đã diễn ra nhãn tiền.
Thuật toán phân tích ngôn ngữ có cách tiếp cận khác, nó phân tích các thuộc tính định lượng như cấu trúc ngữ pháp, lựa chọn từ, dấu chấm câu, và độ phức tạp.
Thuật toán làm việc nhanh hơn con người và có thể được sử dụng để dò nhiều loại tin tức khác nhau.
“Bạn có thể tưởng tượng ra bất kỳ số lượng các ứng dụng đối với điều đó ở phía trước và phía sau cuối của một trang tin hoặc trang mạng xã hội,” Mihalcea nói.
“Thuật toán có thể cung cấp cho người dùng một ước tính về độ tin cậy của các tin tức cá nhân hoặc tin tức của toàn bộ trang tin. Hoặc có thể đó là một dòng phòng thủ đầu tiên trên phần cuối của một trang tin, “gắn cờ” những tin khả nghi để xem xét thêm. Một mức thành công 76% để lại một biên độ lỗi khá lớn, nhưng thuật toán còn có thể cung cấp các cái nhìn sâu đáng giá khi nó được sử dụng song song với con người.”
Các thuật toán ngôn ngữ phân tích bài phát biểu bằng văn bản đang khá phổ biến hiện nay, Mihalcea nói. Thách thức trong việc xây dựng một máy dò tin giả không nằm trong việc xây dựng bản thân thuật toán, nhưng nằm ở chỗ tìm thấy dữ liệu đúng, qua cách này đào tạo thuật toán đó.
Tin giả xuất hiện và biến mất nhanh chóng làm ta khó thu thập. Tin tức giả có thể có nhiều loại, làm phức tạp thêm tiến trình thu thập. Ví dụ, tin tức trào phúng dễ thu thập, nhưng công dụng mỉa mai và phi lý của nó làm cho nó ít hữu dụng hơn trong việc đào tạo một thuật toán phát hiện tin giả nhận ra đó là một sự đánh lừa.
Cuối cùng nhóm của Mihalcea tạo ra dữ liệu riêng của họ, thu hút một nhóm trực tuyến thiết kế đảo ngược các tin tức được xác minh thực thành giả. Đó là cách mà hầu hết các tin tức giả được tạo ra, bởi các cá nhân chuyên viết ngược chúng lại một cách nhanh chóng để kiếm tiền thưởng, Mihalcea nói.
Các nhà nghiên cứu tuyển dụng những người tham gia với sự giúp đỡ của Amazon Mechanical Turk và trả tiền cho họ để biến các tin tức thời sự ngắn thành tin tương tự nhưng giả mạo, bắt chước phong cách báo chí của các bài tin. Vào cuối quá trình, nhóm nghiên cứu thuật toán có một bộ dữ liệu gồm 500 bài tin thực và giả.
Sau đó họ cung cấp các cặp bài tin đã được dán nhãn cho một thuật toán thực hiện một phân tích ngôn ngữ, tự học để phân biệt giữa tin thực và tin giả. Cuối cùng nhóm biến các thuật toán thành một bộ dữ liệu gồm các tin thực và giả được kéo xuống trực tiếp từ trang web, và đạt được tỷ lệ thành công 76%.
Chi tiết của hệ thống thuật toán mới và bộ dữ liệu mà nhóm sử dụng để xây dựng hệ thống có sẵn miễn phí, và Mihalcea cho biết các trang tin hoặc các thực thể khác có thể sử dụng chúng để xây dựng hệ thống phát hiện tin giả riêng cho họ. Theo bà, việc kết hợp siêu dữ liệu như các liên kết và nhận xét phối hợp với các tin tức trực tuyến nhất định có thể cải tiến các hệ thống tương lai nhiều hơn nữa.
Các nhà nghiên cứu sẽ trình bày chi tiết hệ thống trên một bài báo và trình bày bài báo tại Hội nghị quốc tế lần thứ 27 về ngôn ngữ điện toán ở Santa Fe, bang New Mexico.
Trần Bích (theo TGTT)
Ý kiến của bạn về bài viết
Không có chức năng bình luận cho bài viết này