中文亂碼文字的常見原因對照表,可以根據亂碼的特色 (1) 黑色菱形問號、(2) 不相關中文字、(3) 歪七扭八的形狀特色,嘗試還原正確的文字編碼。
Made with DALL-E 3 & Photo by Aaron Burden on StockSnap |
常見亂碼原因
受到 X 上有推友整理簡體字亂碼原因的啟發,我做了繁體中文亂碼文字的常見原因對 照表:
- 將 Big5 編碼的文字,以 UTF-8 編碼讀取:中文變成「黑色菱形框的問號」(簡稱「黑色問號」)
- 將 UTF-8 編碼的文字,以 Big5 編碼讀取:中文變成「黑色問號」或不相關的中文字、
- 將簡體字 (GBK) 編碼的文字,以 Big5 編碼讀取:中文變成不相關中文字、偶而夾雜部首
- 將 Big5 編碼的文字,以簡體字 (GBK) 編碼讀取:中文變成不相關中文字、偶而夾雜日文
- 將 Big5 編碼的文字,以西歐字元編碼 (ISO-8859-2) 讀取:中文變成歪七扭八
- 將 UTF-8 編碼的文字,以西歐字元編碼 (ISO-8859-2) 讀取:中文變成歪七扭八,但是文字長度較長
問題解決
之前我收到網友來信,Email 附上亂碼文字,希望我能幫忙。直接複製貼上的亂碼文字,其實資訊已經遺失,建議提供原始檔案再嘗試轉換成正確的字元編碼。
簡體字亂碼的處理方式可以參考:解決用記事本(notepad)開啟簡體字txt檔,出現亂碼的問題
測試方式
分別製作 Big5、GBK、Unicode (UTF-8) 編碼的文字檔案,拖曳到瀏覽器,再使用擴充套件 Set Character Encoding 選擇錯誤的編碼讀取文字內容。
參考資料
- X (前推特) 的 Linimi「字符乱码说明,适合开发者也适合文字工作者。」推文
- 大五碼 - 維基百科,自由的百科全書
- Unicode - 維基百科,自由的百科全書
- 漢字內碼擴展規範 - 維基百科,自由的百科全書
- ISO/IEC 8859-1 - 維基百科,自由的百科全書
- ISO/IEC 8859-2 - 維基百科,自由的百科全書
- 字元編碼 - 維基百科,自由的百科全書
留言
張貼留言