編輯:林峰羽、金妍熙、黃可馨
在過去 50 年裡語音生成/合成系統已經變得如此出色,尤其是最近。以至於通常很難區分人工智慧生成的聲音和真實的聲音。但仍然有一些重要的線索可以幫助我們判斷我們正在與人類還是人工智慧交談。
令人驚訝的是,大約一半的人無法透過耳朵辨別哪個是我們播放的片段。值得指出的是,我們的實驗遠非科學,而這些剪輯並不是透過高階音訊設備收聽的,只是典型的筆記型電腦和智慧型手機揚聲器。
但當壞人用一些虛假音訊來操縱真實音訊時,這變得尤其具有挑戰性,他指著微軟聯合創始人比爾蓋茲兜售量子人工智慧股票交易工具的影片。對於人耳來說,音訊聽起來就像科技億萬富翁一樣,但透過詐騙分類器運行它,它被標記為深度偽造。
我們採訪的另一位網路安全專家——威脅分析平台 Check Point Software 的全球首席資訊安全長 Pete Nicoletti——也被我們的「愛麗絲夢遊仙境」挑戰難住了。他說,他通常會在播放音訊時聆聽不自然的語音模式,例如不規則的停頓和尷尬的措辭。扭曲和不匹配的背景噪音等奇怪的偽影也可能會洩露資訊。他還會聆聽音量、節奏和音調的有限變化,因為從幾秒鐘的音訊中克隆的聲音可能不具有人類聲音的全部音域。「我們生活在一個後現實社會,人工智慧生成的語音克隆甚至可以欺騙信用卡公司的語音驗證系統」尼科萊蒂說。 「圖靈現在會在墳墓裡翻身」,指的是二戰時期的英國密碼破譯者艾倫·圖靈,他設計了圖靈測試,作為一種通過與人工智能對話來識別人工智能的方法。HackerOne 是一個由漏洞賞金獵人組成的社區,致力於揭露世界上一些最大公司的安全漏洞,HackerOne 的新興技術創新架構師 Dane Sherrets 就是能夠正確識別人聲的人之一。他說,剪輯中自然的音調變化和呼吸就暴露了一切。哈林頓同意,聽句子中的重音或強調詞可能是識別電腦生成語音的好技巧。這是因為人類在對話的脈絡中使用重音來賦予句子更多的意義。「例如,像《 瑪麗安娜做了果醬 》這樣的句子,如果作為一個沒有上下文的單獨句子來閱讀,通常最強調第一個和最後一個單詞,」他說。但如果有人問瑪麗安娜是否買了果醬,重點可能會落在答案中的「製造」一詞上。音調——整個句子中聲音音高的變化——也可以將相同的單字從陳述瑪麗安做了果醬變成一個問題瑪麗安做了果醬。