Công nghệ AI tạo “sóng thần” tin giả

Thứ Ba, 23/07/2019, 08:40

Trong năm qua, các hệ thống trí tuệ nhân tạo (AI) đã tiến bộ vượt bậc trong khả năng tạo ra các câu chữ có ý nghĩa thuyết phục, từ sáng tác nhạc cho tới viết truyện ngắn. Các chuyên gia đã cảnh báo rằng những công cụ AI này có thể được sử dụng để phát tán thông tin chính trị sai lệch, nhưng hiện có một mục tiêu khác có tiềm năng béo bở hơn nhiều: Google.

Thay vì được sử dụng để tạo tin giả, AI có thể sản xuất vô số blog, trang web và thư rác tiếp thị. Nội dung sẽ được sản xuất với giá rẻ và có đầy đủ các từ khóa liên quan. Tuy nhiên, như phần lớn văn bản do AI tạo ra, những blog và trang web này chỉ có ý nghĩa bề nổi, không được phản hồi nhiều trong thế giới thực. Đó sẽ là những thông tin không có giá trị nhưng vẫn gây khó khăn đáng kể cho công cụ tìm kiếm trong phân biệt với thông tin thực sự.

Những gì AI viết ra trên quy mô lớn có thể ảnh hưởng mạnh tới kết quả tìm kiếm Google.

Ví dụ với một đoạn đăng trên blog trả lời câu hỏi: "Bộ lọc ảnh nào tốt nhất cho tiếp thị trên Instagram?". Thoạt nhìn, câu trả lời có vẻ hợp lý khi có phần giới thiệu cùng với trích dẫn nhiều loại tiếp thị khác nhau.

Nhưng nếu đọc kỹ hơn, bạn nhận ra rằng câu trả lời đề cập tới những tạp chí, người và bộ lọc Instagram không hề tồn tại: "Bạn có thể nghĩ chổi mumford là bộ lọc tốt cho một câu chuyện trên Instagram. Amy Freeborn, giám đốc truyền thông tại tạp chí National Recording Technician, cho rằng không phải vậy. Lựa chọn của Freeborn gồm Finder (một vạch xanh khiến tài khoản của cô trông như một khối ảnh điểm cũ), Plus và Cartwheel (công cụ mà cô cho rằng sẽ khiến bức ảnh của bạn trông như một bản đồ địa hình thành phố)".

Phần còn lại của blog có rất nhiều bài viết tương tự, liên quan tới các chủ đề như "Cách viết tít hấp dẫn" và "Tại sao chiến lược nội dung lại quan trọng?". Tuy nhiên, các bài viết đều do AI tạo ra, kể cả ảnh đại diện của tác giả. Tất cả đều là sản phẩm của công ty tiếp thị nội dung Fractl. Công ty này cho biết đó là ví dụ về những ảnh hưởng lớn mà hệ thống AI tạo văn bản có thể gây ra với công việc tối ưu hóa công cụ tìm kiếm (SEO).

Đối tác của Fractl, bà Kristin Tynski, nhận định với tờ The Verge: "Vì các hệ thống AI có thể sản xuất nội dung với quy mô gần như là không giới hạn, nên sẽ gây khó khăn cho con người và công cụ tìm kiếm. Chúng tôi cho rằng đây là một chủ đề cực kỳ quan trọng mà hiện nay được bàn luận quá ít".

Để viết các bài đăng trên blog, Factl sử dụng một công cụ nguồn mở tên là Grover do Viện Trí tuệ Nhân tạo Allen thiết kế. Bà Tynski cho biết công ty Factl không dùng AI để viết bài cho khách hàng, nhưng điều đó không có nghĩa là những người khác sẽ không dùng.

Lịch sử ngành làm SEO chắc chắn sẽ chứng minh dự báo này đúng. Những người tham gia vô nguyên tắc sẽ thử mọi phương pháp có thể để thu hút càng nhiều người đọc càng tốt, trong khi những "người gác cổng" như Google phải tự phân biệt nội dung tốt và xấu.

Các đây 10-15 năm, tình trạng trên được thể hiện dưới dạng xu hướng "trộn nội dung". Những người làm nhiệm vụ trộn nội dung thường sử dụng công cụ tự động để viết lại nội dung có sẵn, tìm và thay thế các từ để cho ra bài viết có vẻ như mới từ bài viết cũ. Google và các công cụ tìm kiếm đã đối phó với tình trạng này bằng các bộ lọc và thước đo mới để quét sạch những blog trộn nội dung. Tuy nhiên, công việc này không hề đơn giản.

Với AI, việc trộn nội dung bài viết sẽ như trò trẻ con, gây ra một cơn sóng thần các nội dung do máy tính tạo ra trên quy mô khó tưởng tượng.

Ông Mike Blumenthal, một chuyên gia và cố vấn SEO, cho biết những công cụ này chắc chắn sẽ thu hút những người phát tán thư rác, đặc biệt là khi AI có khả năng tạo văn bản quy mô khổng lồ. Ông nói: "Vấn đề mà nội dung do AI viết đặt ra, ít nhất là với việc tìm kiếm web, là nó có thể làm giảm chi phí sản xuất nội dung".

Nếu mục đích của những người phát tán thư rác chỉ là tạo lưu lượng truy cập thì tin tức giả cũng có thể là công cụ hoàn hảo để thực hiện mục đích này. Mặc dù chúng ta thường lo ngại những kẻ phát tán tin giả có động cơ chính trị, nhưng phần lớn cuộc phỏng vấn với những người sản xuất và chia sẻ tin giả cho thấy họ phát tán tin tức giả vì doanh thu quảng cáo. Dù vậy, điều đó không có nghĩa là tin giả không gây tổn hại về mặt chính trị.

Câu hỏi quan trọng là liệu chúng ta có thể phát hiện văn bản do AI tạo ra hay không. Ông Rowan Zellers thuộc Viện Trí tuệ Nhân tạo Allen cho rằng câu trả lời là có, ít nhất là tại thời điểm này. Zellers và đồng nghiệp chịu trách nhiệm thiết kế Grover, công cụ mà công ty Fractl sử dụng để viết các bài đăng giả trên blog. Họ cũng có thể thiết kế một hệ thống có khả năng phát hiện văn bản do Grover tạo ra với độ chính xác 92%.

Ông Zellers nói: "Vẫn còn khá lâu cho tới khi AI có thể tạo ra các tin tức trọn vẹn mà không thể bị phát hiện. Theo tôi, ngay bây giờ là cơ hội hoàn hảo cho các nhà nghiên cứu nghiên cứu vấn đề này, vì hiện tại, nó chưa hẳn là hoàn toàn nguy hiểm".

Phát hiện văn bản giả do AI tạo ra không quá khó vì có một số dấu hiệu ngữ pháp và ngôn ngữ để nhận biết. AI có xu hướng sử dụng lại một số danh từ và cụm từ nhất định vì như vậy an toàn hơn là sáng tạo ra thực thể mới.

Tuy nhiên, chỉ vì chúng ta có thể phát triển công nghệ phát hiện nội dung giả mạo không có nghĩa là vấn đề đó không nguy hiểm. Tích hợp máy phát hiện vào cơ sở hạ tầng internet là một nhiệm vụ nặng nề. Quy mô của thế giới trực tuyến cho thấy ngay cả máy phát hiện có độ chính xác cao cũng sẽ mắc nhiều lỗi sai.

Google chưa bình luận về việc có đang phát triển hệ thống phát hiện văn bản do AI tạo hay không, mà chỉ cho biết đã chống nạn tin rác nhiều chục năm nay và luôn cập nhật những thủ đoạn phát tán mới nhất. Trong thực tế, Google từ lâu đã có thể phản ứng với môi trường kỹ thuật thay đổi.

Tuy nhiên, chuyên gia về SEO Mike Blumenthal cho rằng vấn đề AI phát tán thông tin giả sẽ không còn quá nghiêm trọng nữa nếu chúng ta thay đổi cách tìm kiếm thông tin trên mạng. Ngày nay, ngày càng nhiều lệnh tìm kiếm trên web được thực hiện qua các trợ lý ảo như Siri và Alexa. Dùng Siri và Alexa có nghĩa là những công cụ tìm kiếm như Google chỉ phải tìm một hoặc vài câu trả lời phù hợp chứ không đưa ra hàng chục đường dẫn liên quan. Điều này giúp giảm tối thiểu rủi ro tiếp cận một lượng lớn thông tin giả.

Trong tương lai không xa, AI sẽ tiến bộ vượt bậc trong tạo ra văn bản có chất lượng, thậm chí có thể đạt đột phá khó tin. Khi đó, nếu chúng ta có thể thiết kế một chương trình đọc và tạo văn bản với độ chính xác như con người thì chương trình đó có thể dựa vào thông tin trên internet và cuối cùng trở thành trợ lý AI.

Nhật Minh