這幾天全台灣最大的讀書會活動是閱讀長達 190 頁的起訴書。嘗試運用各種 AI 工具來協助摘要,卻遭遇到不同的技術錯誤。使用不同方案,成功將全文轉換為可供 AI 讀取的格式,並透過 ChatGPT 與 NotebookLM 後續分析。
Made with DALL-E |
問題狀況
因為起訴書長達 190 頁,第一個想法是用 AI 工具摘要重點。試用不同大型語言模型,卻遭遇問題。
- ChatGPT 4o:上傳 PDF 檔案「發生未知錯誤」
- ChatGPT o1-mini:不支援上傳任何檔案
- ChatGPT o1:不支援上傳 PDF 檔案,根據錯誤訊息「File type must be image/png,.png,image/jpeg,.jpg,.jpeg,image/webp,.webp,image/gif,.gif」看起來只支援常見的圖檔。而且一次只能上傳 4 個檔案。
- Claude 3.5 Sonnet:可以上傳 PDF 檔案,但是對話時,遇到錯誤「抱歉,這份文件似乎是空白的,沒有包含任何實際內容。」
- Google Gemini 2.0 Flash Experimental:免費版一次只能上傳 1 個圖檔,如果要上傳 PDF 檔案,需要訂閱 Gemini Advanced。
- Google NotebookLM:上傳 PDF 後,遇到「檔案讀取錯誤」。補充:有朋友說他上傳到 NotebookLM 後是可以正常交談的文字,就請自行確認。
Claude 錯誤畫面 |
NotebookLM 錯誤畫面 |
解決方法
我習慣使用 Google 雲端硬碟將 PDF 轉成 Word,發現轉成 Word 後是一頁一頁的圖檔。推測 PDF 檔製作方式是將圖片掃描製作而成,導致 AI 機器人無法直接讀取文字。
方法1:免費、但是文字辨識品質較差
使用開放原始碼的光學字元辨識引擎 (OCR、Optical Character Recognition) 方案「Tesseract Open Source OCR Engine」刻了文件辨識工具網站。可以上傳圖檔或 PDF 檔案,再將圖片轉成文字。但是辨識結果的品質較差。
方法2:有頁數限制、文字辨識品質較好
在 Threads 上看到有網友推薦 PDF Candy 可以線上將 PDF 轉文字,同時是免費線上OCR轉換工具。但是免費版有頁數限制。
臉書上看到網友一次上傳 5 張圖檔,請 Claude 3.5 Sonnet (API 文件) 將圖檔轉成文字。
方法3:需要花錢、沒有頁數限制、文字辨識品質較好
使用 PDF-XChange Editor Plus 的加強版 OCR 功能 (Enhanced OCR Engine) 轉換 PDF 檔案,詳細使用教學「如何啟用PDF-XChange Editor的Enhanced OCR Plugin增強版文字辨識功能 - v8.0.339.0 - 阿榮技術學院」。
最後我採用方法 3 將 190 頁全文轉換成文字版的 PDF,就可以順利使用 AI 協助閱讀起訴書。
(1) ChatGPT 「使用 mermaid 語法畫出重要事件時間軸:人、事、物與金錢」再使用 excalidraw 畫圖
(2) 使用 NotebookLM 「幫我讀起訴書,用白話文給我檢方認定的犯罪事實和證據」- ChatGPT 4o:上傳 OCR 後的 PDF 檔案「發生未知錯誤」,轉換成 TXT 檔案才能使用。
- Claude 3.5 Sonnet:上傳 OCR 後的 PDF 或 TXT 檔案,都顯示超過 token 長度限制。錯誤訊息「Conversation is 54% over the length limit. Try replacing the attached file with smaller excerpts.」
- Google NotebookLM:可以使用 OCR 後的 PDF 對話。
留言
張貼留言