Whisper 系列軟體能快速將影片或語音檔案轉成逐字稿,但產生的文字缺少標點符號,不易閱讀。本文將介紹如何運用 AI 模型(如 ChatGPT、Claude)為 Whisper 產出的逐字稿增加標點符號,讓文字更容易閱讀理解。適用於原始文章格式與包含時間戳記的字幕格式,並提供實用的 API 串接建議。
Photo by Suvan Chowdhury on StockSnap |
問題狀況
OpenAI Whisper 或衍生的 MacWhisper、WhisperDesktop、whisperX 等Whisper 軟體。可以方便與快速將影片或語音檔案,轉成逐字稿。逐字稿格式有原始文章或包含時間戳記的字幕等格式,都缺少標點符號,不容易閱讀。以「1116律師界守護憲法遊行」影片轉逐字稿為例:
(1) 原始文章格式
所以你先回答我 有哪一個國家讓憲法把你空窗那麼久的 你再來跟我說有哪一個國家沒有這樣制定 配套措施 配套措施 配套措施聽不懂嗎 行前我們要出發前的時候有記者 ...
(2) 包含時間戳記的字幕格式
1
00:00:00,001 --> 00:00:02,000
所以你先回答我
2
00:00:02,000 --> 00:00:06,000
有哪一個國家讓憲法把你空窗那麼久的
3
00:00:06,000 --> 00:00:10,000
你再來跟我說有哪一個國家沒有這樣制定
解決方式
(1) 原始文章格式逐字稿的整理
🤖 使用提示 (prompt)
這是關於 OO 主題的逐字稿檔案,請依照以下指引修改內容:
1. 適當添加標點符號
2. 確保修改後的段落與前後文連貫順暢
3. 維持原始語意與用意
4. 必要時重寫部分內容以提升可讀性
5. 使用台灣常用繁體中文字
✅ 適用模型:OpenAI ChatGPT 4o、Claude 3.5 Sonnet
📝 機器人編輯後的逐字稿部分內容:
「所以我要先反問你:有哪一個國家會讓憲政出現這麼長的空窗期?你再來跟我說哪個國家沒有這樣的配套措施。配套措施,配套措施,聽不懂嗎?」
(2) 包含時間戳記的字幕格式的整理
與原始文章格式逐字稿的整理的提示幾乎一樣,只是多了最後一點的格式要求。
🤖 使用提示 (prompt):
這是 OO 主題的逐字稿檔案,請依照以下指引修改內容:
1. 適當添加標點符號
2. 確保修改後的段落與前後文連貫順暢
3. 維持原始語意與用意
4. 必要時重寫部分內容以提升可讀性
5. 使用台灣常用繁體中文字
6. 維持原本時間戳記、逐字稿各自一行的格式
✅ 適用模型:OpenAI ChatGPT 4o、Claude 3.5 Sonnet
ChatGPT 4o 出現會偷懶的缺點,導致只有部分字幕格式的逐字稿有依照指示修改標點符號。所以只能適用比較勤奮的 Claude 模型,如果網友測試其他模型的機器人也可以使用,歡迎留言。
📝 機器人編輯後的逐字稿部分內容:
1
00:00:00,001 --> 00:00:02,000
所以,你先回答我!
2
00:00:02,000 --> 00:00:06,000
有哪一個國家讓憲法把你空窗那麼久的?
3
00:00:06,000 --> 00:00:10,000
你再來跟我說,有哪一個國家沒有這樣制定?
測試使用的是約半分鐘的影片,實際的影片或錄音檔經常會超過一小時,使用網頁版 ChatGPT 或 Claude 容易會超出可處理的文章長度限制。實務上會需要使用 OpenAI API 或 Claude API ,將逐字稿逐段地送入 API 處理編輯。
🤖 使用提示 (prompt):
你的任務是改善中文口語訪談的逐字稿段落。您需要增加標點符號、確保段落連貫、保持原意,並視需要重寫部分文字。請使用台灣常用的繁體中文。
這是前文段落:
<previous_paragraph>
{PREVIOUS_PARAGRAPH}
</previous_paragraph>
這是後文段落:
<next_paragraph>
{NEXT_PARAGRAPH}
</next_paragraph>
請依照以下指引修改內容:
1. 適當添加標點符號
2. 確保修改後的段落與前後文連貫順暢
3. 維持原始語意與用意
4. 必要時重寫部分內容以提升可讀性
5. 使用台灣常用繁體中文字
6. 修正明顯的語法錯誤或口語不順之處
7. 無需額外說明
請以下列JSON格式輸出結果:
```json
{"text": "您修改後的段落內容"}
```
留言
張貼留言