可在命令提示字元使用的 DOCX 轉 TXT 軟體比較

比較 DOCX 轉 TXT 的轉檔軟體,並且需要可以使用「命令提示字元」(Command Prompt) 方式執行。分別使用不同檔案大小 1 MB、2 MB、4 MB、9 MB 比較轉檔所需時間。建議如果檔案較小 (2 MB 以下) 可以使用 Pandoc 或 Apache Tika,如果檔案較大 (4 MB 以上) 則建議使用 Apache Tika



候選方案選擇

DOCX 轉 TXT 的轉檔軟體,並且需要可以使用「命令提示字元」(Command Prompt) 方式執行。所以不考慮需要透過圖形化使用者介面 (Graphical User Interface, GUI) 操作的軟體、也不考慮常見的轉檔工具網站。

因為時間關係,比較的 DOCX 轉 TXT 的轉檔軟體有三款:

Pandoc v. 12.1、

LibreOffice (soffice) v. 6.3.4.2 (x64) 和 

Apache Tika v. 1.24.1

比較方式

準備不同檔案大小 1 MB、2 MB、4 MB、9 MB,如果時間太誇張會額外再執行一次

比較結果

測試檔案的字數 測試檔案大小 (MB) Pandoc
執行所需時間 (秒)
LibreOffice 
執行所需時間 (秒)
Apache Tika 
執行所需時間 (秒)
25399 1.07 4.396870136 35.96195006 9.429663897
95147 2.39 27.40566111 290.2933881  7.883637905
190295 4.65 60.29140496  837.8451748  11.16180587
380591 9.18 518.632391 3204.57426 15.61542296

Pandoc 在處理 9 MB 檔案時,相較於 LibreOffice 或 Apache Tika 會消耗大量系統 CPU。

建議

如果檔案較小 (2 MB 以下) 可以使用 Pandoc 或 Apache Tika

如果檔案較大 (4 MB 以上) 則建議使用 Apache Tika

參考資料

  1. Is there a command line tool to convert documents to plain text files? [closed] - Ask LibreOffice
  2. unix - How to extract just plain text from .doc & .docx files? - Stack Overflow

圖片素材

留言