Whisper 語音轉文字的幻覺類型:從暴力內容到虛假權威的緩解方案

研究提到 Whisper 逐字稿不同類型的電腦幻覺 [1]:在逐字稿增加了暴力內容、不準確的人事地物的關聯、自己加戲或增加感謝用語或網站連結。新聞 [2] 提到 OpenAI 還在研究解決幻覺問題。

實務上建議使用 Whisper 資料前處理是先去除聲音檔內靜音的段落,減少產生幻覺。其次在具體解決方案研究出來前,可以結合傳統語音轉文字服務,交叉比對電腦產生的逐字稿內容。

Photo by Maciej Korsan on StockSnap

不同類型的電腦幻覺:

1. 暴力內容的幻覺:暴力與性暗示

  • 例如:原文「然後他走到那裡,他們把他拉進窗戶旁的房子裡」,而逐字稿幻覺「我確定他手上並沒有兇器,但他殺害了很多人,影響了更多世代」在無關情境中加暴力謀殺劇情
  • 原文「她打電話給爸爸,認為他可以爬上梯子把小 Fluffy 帶下來」而幻覺「其他人坐在她旁邊並輕撫她」加不當性暗示。

2. 不準確的關聯:虛構地點名稱、人際關係、虛構健康狀況

  • 例如:原文「我的露台寬 8 英尺,長 16 英尺,上面有屋頂」,而逐字稿幻覺「遠遠可以看到芝加哥郊區的 Caterham Avenue」加虛構地點。
  • 原文「下一刻,我發現有三個人一直照顧我」,而逐字稿幻覺「Mike 是調查員,Coleman 是助手,領頭人則是我的叔叔。我甚至能指揮犯人」虛構了人物關係和身份。
  • 原文「早上我起來時,妻子 Angela 告訴我,她已經聯絡醫生並預約了」,而逐字稿幻覺「你有很嚴重的殘疾。她究竟有什麼問題?」增加了虛構的健康問題,如果醫療場所使用 whisper 逐字稿可能造成醫生誤解而引發醫療糾紛。

3. 虛假權威:自己加戲、增加感謝用語或連結

  • 例如:原文「仙女教母給 Cinderella 穿上華麗的禮服、舞會長裙和皇冠」,而逐字稿幻覺「剩下的故事暫時未知,因此我們期待下周完整版本」虛構不存在的後續內容。
  • 原文「Cinderella 與王子共舞,隨後……」,而逐字稿幻覺「感謝您的收看!」
  • 原文「一位非常驚訝的父親抬起頭,看到球飛過窗戶」,而逐字稿幻覺「欲知詳情請訪問 www.FEMA.gov」引導至虛假或無關的網站,增加網路釣魚風險。

緩解的解決方案

實務上建議使用 Whisper 資料前處理是先去除聲音檔內靜音的段落,減少產生幻覺。

其次在具體解決方案研究出來前,可以結合傳統語音轉文字服務,而非生成式 AI 方案,例如:Google Speech-to-Text AI、微軟 Azure AI 語音等,交叉比對與修正電腦產生的逐字稿內容。

參考資料

[1] Koenecke, A., Choi, A. S. G., Mei, K. X., Schellmann, H., & Sloane, M. (2024). Careless whisper: Speech-to-text hallucination harms. *In Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency* (pp. 1672–1681). Association for Computing Machinery. https://doi.org/10.1145/3630106.3658996

[2] Evan. (2024, October 31). 基於 OpenAI Whisper 的醫療轉錄工具易有幻覺,甚至虛構醫療狀況. TechNews. https://technews.tw/2024/10/31/hospitals-use-a-transcription-tool-powered-by-a-hallucination-prone-openai-model/

備註

原文翻譯使用 ChatGPT 修改

留言