Tranh cãi công nghệ nhân bản giọng nói

Thứ Tư, 21/07/2021, 08:44

Khi Tim Heller lần đầu tiên nghe thấy giọng nói nhân bản của mình, anh nói nó chính xác đến mức "đáng kinh ngạc". Nhân bản giọng nói được hiểu là sử dụng một chương trình máy tính để tạo ra một bản sao tổng hợp, có thể điều chỉnh được từ giọng nói của một người. Từ bản ghi âm của ai đó đang nói chuyện, phần mềm có thể sao chép giọng nói của người đó. Đó là tiến bộ gần đây trong công nghệ mà máy tính tạo ra âm thanh ngày nay được cho là chính xác đến khó tin.

Tăng cường ứng dụng khoa học, công nghệ trong đảm bảo an toàn giao thông

Diễn viên lồng tiếng quan tâm công nghệ nhân bản giọng nói

Khi nhân bản giọng nói ngày càng trở nên hiệu quả, công nghệ ngày càng được các diễn viên lồng tiếng và cả thế giới tội phạm mạng quan tâm. Phần mềm có thể nhận ra không chỉ giọng của bạn - mà còn cả âm sắc, cao độ, nhịp độ, cách nói và nhịp thở của bạn. Và giọng nói nhân bản có thể được điều chỉnh để khắc họa bất kỳ cảm xúc nào cần thiết - chẳng hạn như tức giận, sợ hãi, hạnh phúc, yêu thương hay buồn chán.

Tim Heller, nghệ sĩ và diễn viên lồng tiếng người Mỹ 29 tuổi, nói rằng công nghệ độc đáo giúp anh đảm bảo công việc hơn. Để có được giọng nói nhân bản của mình, Heller tìm đến doanh nghiệp có trụ sở tại Boston tên là VocaliD - một trong những công ty đang cung cấp dịch vụ ngày càng phổ biến này. VocaliD được thành lập bởi giám đốc điều hành Rupal Patel - giáo sư khoa học giao tiếp và rối loạn Đại học Northeastern.

Tim Heller, nghệ sĩ lồng tiếng và diễn viên người Mỹ.

Năm 2014, giáo sư Patel thành lập doanh nghiệp tạo ra giọng nói nhân tạo cho những bệnh nhân không thể nói chuyện mà không có sự trợ giúp, chẳng hạn như những người bị mất giọng nói sau phẫu thuật hoặc bệnh tật. Patel cho biết công nghệ - được dẫn dắt bởi trí tuệ nhân tạo (AI), phần mềm có thể tự "học" và thích ứng - đã phát triển vượt bậc trong vài năm qua. Điều này đã thu hút sự chú ý từ giới nghệ sĩ lồng tiếng.

Nhân bản giọng nói cũng có thể được sử dụng để dịch lời nói của một diễn viên sang các ngôn ngữ khác nhau, do đó có nghĩa là các công ty sản xuất phim của Mỹ sẽ không còn cần phải thuê thêm diễn viên để làm phiên bản lồng tiếng cho phim của họ để phân phối ở nước ngoài. Công ty Resemble AI của Canada cho biết giờ đây họ có thể biến giọng nói tiếng Anh nhân bản thành 15 ngôn ngữ khác. Giám đốc điều hành Zohaib Ahmed cho biết để tạo ra một bản sao chất lượng giọng nói của ai đó, phần mềm cần một bản ghi âm của một người đang nói trong vòng 10 phút: "Khi AI học giọng nói của bạn, nó sẽ học được nhiều đặc tính... như âm sắc, cao độ và cường độ".

Công cụ cho tội phạm mạng

Tuy nhiên, mặc dù sự tinh vi ngày càng tăng của nhân bản giọng nói có tiềm năng thương mại rõ ràng, điều đó cũng dẫn đến mối lo ngại ngày càng tăng rằng công nghệ có thể được sử dụng trong thế giới tội phạm mạng để lừa đảo. Cùng với các video giả do máy tính tạo ra, nhân bản giọng nói còn được gọi là "deepfake".

Chuyên gia an ninh mạng Eddy Bobritsky nhận định có một "nguy cơ bảo mật rất lớn" đi kèm với những tiếng nói tổng hợp. Bobritsky, ông chủ Công ty Minerva Labs của Israel, bình luận: "Khi nói đến email hoặc tin nhắn văn bản, chúng ta biết rằng việc mạo danh người khác trong nhiều năm là khá dễ dàng. Nhưng, cho đến nay, nói chuyện qua điện thoại với người mà bạn tin tưởng và biết rõ là một trong những cách phổ biến nhất để đảm bảo rằng bạn thực sự quen thuộc với người đó". Nhưng Bobritsky tuyên bố điều đó hiện đang thay đổi: "Ví dụ, nếu sếp gọi điện cho một nhân viên yêu cầu cung cấp thông tin nhạy cảm và nhân viên nhận ra giọng nói, phản ứng ngay lập tức là làm theo yêu cầu. Đó là lợi thế rất lớn cho nhiều tội phạm mạng".

Trên thực tế, một trường hợp như vậy được Wall Street Journal báo cáo năm 2019, với một nhà quản lý người Anh được cho là đã bị lừa chuyển 220.000 euro cho bọn tội phạm lừa đảo sử dụng bản sao giọng nói ông chủ người Đức của ông. Bobritsky cho biết thêm: "Cần phải thực hiện các bước để đối phó với công nghệ mới này và những mối đe dọa mà nó mang lại.

Giáo sư Patel, chuyên gia về nhân bản giọng nói.

Trên thực tế, các công ty trên khắp thế giới đã và đang làm điều này, như trang tin tức chuyên về trí tuệ nhân tạo Venture Beat đưa tin. Những công ty như vậy có thể giám sát âm thanh để xem liệu nó có phải là giả hay không, tìm kiếm các dấu hiệu nhận biết như sự lặp lại, tiếng ồn kỹ thuật số và việc sử dụng những cụm từ hoặc từ nhất định.

Trong khi đó, các chính phủ và cơ quan thực thi pháp luật cũng đang xem xét vấn đề. Năm 2020, cơ quan thực thi pháp luật Liên minh châu Âu (Europol), thúc giục những quốc gia thành viên thực hiện "đầu tư đáng kể" vào những công nghệ có thể phát hiện các vụ lừa đảo "deepfake". Và ở Mỹ, bang California đã cấm sử dụng những công nghệ loại này trong mọi chiến dịch chính trị.

Diên San (Tổng hợp)