比較 DOCX 轉 TXT 的轉檔軟體,並且需要可以使用「命令提示字元」(Command Prompt) 方式執行。分別使用不同檔案大小 1 MB、2 MB、4 MB、9 MB 比較轉檔所需時間。建議如果檔案較小 (2 MB 以下) 可以使用 Pandoc 或 Apache Tika,如果檔案較大 (4 MB 以上) 則建議使用 Apache Tika。
候選方案選擇
DOCX 轉 TXT 的轉檔軟體,並且需要可以使用「命令提示字元」(Command Prompt) 方式執行。所以不考慮需要透過圖形化使用者介面 (Graphical User Interface, GUI) 操作的軟體、也不考慮常見的轉檔工具網站。
因為時間關係,比較的 DOCX 轉 TXT 的轉檔軟體有三款:
Pandoc v. 12.1、
LibreOffice (soffice) v. 6.3.4.2 (x64) 和
Apache Tika v. 1.24.1
比較方式
準備不同檔案大小 1 MB、2 MB、4 MB、9 MB,如果時間太誇張會額外再執行一次
比較結果
測試檔案的字數 | 測試檔案大小 (MB) | Pandoc 執行所需時間 (秒) |
LibreOffice 執行所需時間 (秒) |
Apache Tika 執行所需時間 (秒) |
---|---|---|---|---|
25399 | 1.07 | 4.396870136 | 35.96195006 | 9.429663897 |
95147 | 2.39 | 27.40566111 | 290.2933881 | 7.883637905 |
190295 | 4.65 | 60.29140496 | 837.8451748 | 11.16180587 |
380591 | 9.18 | 518.632391 | 3204.57426 | 15.61542296 |
建議
如果檔案較小 (2 MB 以下) 可以使用 Pandoc 或 Apache Tika,
如果檔案較大 (4 MB 以上) 則建議使用 Apache Tika。
參考資料
- Is there a command line tool to convert documents to plain text files? [closed] - Ask LibreOffice
- unix - How to extract just plain text from .doc & .docx files? - Stack Overflow
留言
張貼留言