常見中文亂碼的原因對照

中文亂碼文字的常見原因對照表，可以根據亂碼的特色 (1) 黑色菱形問號、(2) 不相關中文字、(3) 歪七扭八的形狀特色，嘗試還原正確的文字編碼。

Made with DALL-E 3 & Photo by Aaron Burden on StockSnap

常見亂碼原因

受到 X 上有推友整理簡體字亂碼原因的啟發，我做了繁體中文亂碼文字的常見原因對照表：

早期台灣電腦使用大五碼 (Big5) 處理漢字，但是因為會缺字，所以改用 Unicode 編碼。加上網路世界流傳中國簡體字 (GBK)、或者西歐文字 (ISO/IEC 8859-1、ISO/IEC 8859-2) 等宣告成錯誤的字元編碼 (Character encoding) 是造成中文字亂碼的常見原因、但是英文則正常顯示。

將 Big5 編碼的文字，以 UTF-8 編碼讀取：中文變成「黑色菱形框的問號」(簡稱「黑色問號」)
將 UTF-8 編碼的文字，以 Big5 編碼讀取：中文變成「黑色問號」或不相關的中文字、
將簡體字 (GBK) 編碼的文字，以 Big5 編碼讀取：中文變成不相關中文字、偶而夾雜部首
將 Big5 編碼的文字，以簡體字 (GBK) 編碼讀取：中文變成不相關中文字、偶而夾雜日文
將 Big5 編碼的文字，以西歐字元編碼 (ISO-8859-2) 讀取：中文變成歪七扭八
將 UTF-8 編碼的文字，以西歐字元編碼 (ISO-8859-2) 讀取：中文變成歪七扭八，但是文字長度較長

問題解決

之前我收到網友來信，Email 附上亂碼文字，希望我能幫忙。直接複製貼上的亂碼文字，其實資訊已經遺失，建議提供原始檔案再嘗試轉換成正確的字元編碼。

簡體字亂碼的處理方式可以參考：解決用記事本(notepad)開啟簡體字txt檔，出現亂碼的問題

測試方式

分別製作 Big5、GBK、Unicode (UTF-8) 編碼的文字檔案，拖曳到瀏覽器，再使用擴充套件 Set Character Encoding 選擇錯誤的編碼讀取文字內容。

參考資料

X (前推特) 的 Linimi「字符乱码说明，适合开发者也适合文字工作者。」推文
大五碼 - 維基百科，自由的百科全書
Unicode - 維基百科，自由的百科全書
漢字內碼擴展規範 - 維基百科，自由的百科全書
ISO/IEC 8859-1 - 維基百科，自由的百科全書
ISO/IEC 8859-2 - 維基百科，自由的百科全書
字元編碼 - 維基百科，自由的百科全書

Err

搜尋此網誌

常見中文亂碼的原因對照

常見亂碼原因

問題解決

測試方式

參考資料

留言

張貼留言