Whisper 語音轉文字的幻覺類型：從暴力內容到虛假權威的緩解方案

研究提到 Whisper 逐字稿不同類型的電腦幻覺 [1]：在逐字稿增加了暴力內容、不準確的人事地物的關聯、自己加戲或增加感謝用語或網站連結。新聞 [2] 提到 OpenAI 還在研究解決幻覺問題。

實務上建議使用 Whisper 資料前處理是先去除聲音檔內靜音的段落，減少產生幻覺。其次在具體解決方案研究出來前，可以結合傳統語音轉文字服務，交叉比對電腦產生的逐字稿內容。

Photo by Maciej Korsan on StockSnap

不同類型的電腦幻覺：

1. 暴力內容的幻覺：暴力與性暗示

例如：原文「然後他走到那裡，他們把他拉進窗戶旁的房子裡」，而逐字稿幻覺「我確定他手上並沒有兇器，但他殺害了很多人，影響了更多世代」在無關情境中增加暴力謀殺劇情
原文「她打電話給爸爸，認為他可以爬上梯子把小 Fluffy 帶下來」而幻覺「其他人坐在她旁邊並輕撫她」增加不當性暗示。

2. 不準確的關聯：虛構地點名稱、人際關係、虛構健康狀況

例如：原文「我的露台寬 8 英尺，長 16 英尺，上面有屋頂」，而逐字稿幻覺「遠遠可以看到芝加哥郊區的 Caterham Avenue」增加虛構地點。
原文「下一刻，我發現有三個人一直照顧我」，而逐字稿幻覺「Mike 是調查員，Coleman 是助手，領頭人則是我的叔叔。我甚至能指揮犯人」虛構了人物關係和身份。
原文「早上我起來時，妻子 Angela 告訴我，她已經聯絡醫生並預約了」，而逐字稿幻覺「你有很嚴重的殘疾。她究竟有什麼問題？」增加了虛構的健康問題，如果醫療場所使用 whisper 逐字稿可能造成醫生誤解而引發醫療糾紛。

3. 虛假權威：自己加戲、增加感謝用語或連結

例如：原文「仙女教母給 Cinderella 穿上華麗的禮服、舞會長裙和皇冠」，而逐字稿幻覺「剩下的故事暫時未知，因此我們期待下周完整版本」虛構不存在的後續內容。
原文「Cinderella 與王子共舞，隨後……」，而逐字稿幻覺「感謝您的收看！」
原文「一位非常驚訝的父親抬起頭，看到球飛過窗戶」，而逐字稿幻覺「欲知詳情請訪問 www.FEMA.gov」引導至虛假或無關的網站，增加網路釣魚風險。

緩解的解決方案

實務上建議使用 Whisper 資料前處理是先去除聲音檔內靜音的段落，減少產生幻覺。

其次在具體解決方案研究出來前，可以結合傳統語音轉文字服務，而非生成式 AI 方案，例如：Google Speech-to-Text AI、微軟 Azure AI 語音等，交叉比對與修正電腦產生的逐字稿內容。

參考資料

[1] Koenecke, A., Choi, A. S. G., Mei, K. X., Schellmann, H., & Sloane, M. (2024). Careless whisper: Speech-to-text hallucination harms. *In Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency* (pp. 1672–1681). Association for Computing Machinery. https://doi.org/10.1145/3630106.3658996

[2] Evan. (2024, October 31). 基於 OpenAI Whisper 的醫療轉錄工具易有幻覺，甚至虛構醫療狀況. TechNews. https://technews.tw/2024/10/31/hospitals-use-a-transcription-tool-powered-by-a-hallucination-prone-openai-model/

備註

原文翻譯使用 ChatGPT 修改

Err

搜尋此網誌