如何改善 Whisper 逐字稿可讀性：AI 標點符號教學

Whisper 系列軟體能快速將影片或語音檔案轉成逐字稿，但產生的文字缺少標點符號，不易閱讀。本文將介紹如何運用 AI 模型（如 ChatGPT、Claude）為 Whisper 產出的逐字稿增加標點符號，讓文字更容易閱讀理解。適用於原始文章格式與包含時間戳記的字幕格式，並提供實用的 API 串接建議。

Photo by Suvan Chowdhury on StockSnap

問題狀況

OpenAI Whisper 或衍生的 MacWhisper、WhisperDesktop、whisperX 等Whisper 軟體。可以方便與快速將影片或語音檔案，轉成逐字稿。逐字稿格式有原始文章或包含時間戳記的字幕等格式，都缺少標點符號，不容易閱讀。以「1116律師界守護憲法遊行」影片轉逐字稿為例：

(1) 原始文章格式

所以你先回答我有哪一個國家讓憲法把你空窗那麼久的你再來跟我說有哪一個國家沒有這樣制定配套措施配套措施配套措施聽不懂嗎行前我們要出發前的時候有記者 ...

(2) 包含時間戳記的字幕格式

1
00:00:00,001 --> 00:00:02,000
所以你先回答我

2
00:00:02,000 --> 00:00:06,000
有哪一個國家讓憲法把你空窗那麼久的

3
00:00:06,000 --> 00:00:10,000
你再來跟我說有哪一個國家沒有這樣制定

解決方式

(1) 原始文章格式逐字稿的整理

🤖 使用提示 (prompt)

這是關於 OO 主題的逐字稿檔案，請依照以下指引修改內容：
1. 適當添加標點符號
2. 確保修改後的段落與前後文連貫順暢
3. 維持原始語意與用意
4. 必要時重寫部分內容以提升可讀性
5. 使用台灣常用繁體中文字

✅ 適用模型：OpenAI ChatGPT 4o、Claude 3.5 Sonnet

📝 機器人編輯後的逐字稿部分內容：

「所以我要先反問你：有哪一個國家會讓憲政出現這麼長的空窗期？你再來跟我說哪個國家沒有這樣的配套措施。配套措施，配套措施，聽不懂嗎？」

(2) 包含時間戳記的字幕格式的整理

與原始文章格式逐字稿的整理的提示幾乎一樣，只是多了最後一點的格式要求。

🤖 使用提示 (prompt)：

這是 OO 主題的逐字稿檔案，請依照以下指引修改內容：
1. 適當添加標點符號
2. 確保修改後的段落與前後文連貫順暢
3. 維持原始語意與用意
4. 必要時重寫部分內容以提升可讀性
5. 使用台灣常用繁體中文字
6. 維持原本時間戳記、逐字稿各自一行的格式

✅ 適用模型：~~OpenAI ChatGPT 4o~~、Claude 3.5 Sonnet

ChatGPT 4o 出現會偷懶的缺點，導致只有部分字幕格式的逐字稿有依照指示修改標點符號。所以只能適用比較勤奮的 Claude 模型，如果網友測試其他模型的機器人也可以使用，歡迎留言。

📝 機器人編輯後的逐字稿部分內容：

1
00:00:00,001 --> 00:00:02,000
所以，你先回答我！
2
00:00:02,000 --> 00:00:06,000
有哪一個國家讓憲法把你空窗那麼久的？
3
00:00:06,000 --> 00:00:10,000
你再來跟我說，有哪一個國家沒有這樣制定？

測試使用的是約半分鐘的影片，實際的影片或錄音檔經常會超過一小時，使用網頁版 ChatGPT 或 Claude 容易會超出可處理的文章長度限制。實務上會需要使用 OpenAI API 或 Claude API ，將逐字稿逐段地送入 API 處理編輯。

🤖 使用提示 (prompt)：

你的任務是改善中文口語訪談的逐字稿段落。您需要增加標點符號、確保段落連貫、保持原意，並視需要重寫部分文字。請使用台灣常用的繁體中文。
這是前文段落：
<previous_paragraph>
{PREVIOUS_PARAGRAPH}
</previous_paragraph>

這是後文段落：
<next_paragraph>
{NEXT_PARAGRAPH}
</next_paragraph>

請依照以下指引修改內容：
1. 適當添加標點符號
2. 確保修改後的段落與前後文連貫順暢
3. 維持原始語意與用意
4. 必要時重寫部分內容以提升可讀性
5. 使用台灣常用繁體中文字
6. 修正明顯的語法錯誤或口語不順之處
7. 無需額外說明

請以下列JSON格式輸出結果：
```json
{"text": "您修改後的段落內容"}
```

Err

搜尋此網誌