如何改善 Whisper 逐字稿可讀性:AI 標點符號教學

Whisper 系列軟體能快速將影片或語音檔案轉成逐字稿,但產生的文字缺少標點符號,不易閱讀。本文將介紹如何運用 AI 模型(如 ChatGPT、Claude)為 Whisper 產出的逐字稿增加標點符號,讓文字更容易閱讀理解。適用於原始文章格式與包含時間戳記的字幕格式,並提供實用的 API 串接建議。

Photo by Suvan Chowdhury on StockSnap


問題狀況

OpenAI Whisper 或衍生的 MacWhisperWhisperDesktopwhisperX 等Whisper 軟體。可以方便與快速將影片或語音檔案,轉成逐字稿。逐字稿格式有原始文章或包含時間戳記的字幕等格式,都缺少標點符號,不容易閱讀。以「1116律師界守護憲法遊行」影片轉逐字稿為例:

(1) 原始文章格式

所以你先回答我 有哪一個國家讓憲法把你空窗那麼久的 你再來跟我說有哪一個國家沒有這樣制定 配套措施 配套措施 配套措施聽不懂嗎 行前我們要出發前的時候有記者 ...

(2) 包含時間戳記的字幕格式

1

00:00:00,001 --> 00:00:02,000

所以你先回答我


2

00:00:02,000 --> 00:00:06,000

有哪一個國家讓憲法把你空窗那麼久的


3

00:00:06,000 --> 00:00:10,000

你再來跟我說有哪一個國家沒有這樣制定

解決方式

 (1) 原始文章格式逐字稿的整理

🤖 使用提示 (prompt)

這是關於 OO 主題的逐字稿檔案,請依照以下指引修改內容:

1. 適當添加標點符號

2. 確保修改後的段落與前後文連貫順暢

3. 維持原始語意與用意

4. 必要時重寫部分內容以提升可讀性

5. 使用台灣常用繁體中文字

✅ 適用模型:OpenAI ChatGPT 4o、Claude 3.5 Sonnet

📝 機器人編輯後的逐字稿部分內容:

「所以我要先反問你:有哪一個國家會讓憲政出現這麼長的空窗期?你再來跟我說哪個國家沒有這樣的配套措施。配套措施,配套措施,聽不懂嗎?」

(2) 包含時間戳記的字幕格式的整理

與原始文章格式逐字稿的整理的提示幾乎一樣,只是多了最後一點的格式要求。

🤖 使用提示 (prompt):

這是 OO 主題的逐字稿檔案,請依照以下指引修改內容:

1. 適當添加標點符號

2. 確保修改後的段落與前後文連貫順暢

3. 維持原始語意與用意

4. 必要時重寫部分內容以提升可讀性

5. 使用台灣常用繁體中文字

6. 維持原本時間戳記、逐字稿各自一行的格式

✅ 適用模型:OpenAI ChatGPT 4o、Claude 3.5 Sonnet

ChatGPT 4o 出現會偷懶的缺點,導致只有部分字幕格式的逐字稿有依照指示修改標點符號。所以只能適用比較勤奮的 Claude 模型,如果網友測試其他模型的機器人也可以使用,歡迎留言。

📝 機器人編輯後的逐字稿部分內容:

1

00:00:00,001 --> 00:00:02,000

所以,你先回答我!

2

00:00:02,000 --> 00:00:06,000

有哪一個國家讓憲法把你空窗那麼久的?

3

00:00:06,000 --> 00:00:10,000

你再來跟我說,有哪一個國家沒有這樣制定?

測試使用的是約半分鐘的影片,實際的影片或錄音檔經常會超過一小時,使用網頁版 ChatGPT 或 Claude 容易會超出可處理的文章長度限制。實務上會需要使用 OpenAI API 或 Claude API ,將逐字稿逐段地送入 API 處理編輯。

🤖 使用提示 (prompt):

你的任務是改善中文口語訪談的逐字稿段落。您需要增加標點符號、確保段落連貫、保持原意,並視需要重寫部分文字。請使用台灣常用的繁體中文。

這是前文段落:

<previous_paragraph>

{PREVIOUS_PARAGRAPH}

</previous_paragraph>


這是後文段落:

<next_paragraph>

{NEXT_PARAGRAPH}

</next_paragraph>


請依照以下指引修改內容:

1. 適當添加標點符號

2. 確保修改後的段落與前後文連貫順暢

3. 維持原始語意與用意

4. 必要時重寫部分內容以提升可讀性

5. 使用台灣常用繁體中文字

6. 修正明顯的語法錯誤或口語不順之處

7. 無需額外說明


請以下列JSON格式輸出結果:

```json

{"text": "您修改後的段落內容"}

```

參考文章

留言