常見中文亂碼的原因對照

中文亂碼文字的常見原因對照表,可以根據亂碼的特色 (1) 黑色菱形問號、(2) 不相關中文字、(3) 歪七扭八的形狀特色,嘗試還原正確的文字編碼。

Made with DALL-E 3 & Photo by Aaron Burden on StockSnap

常見亂碼原因

受到 X 上有推友整理簡體字亂碼原因的啟發,我做了繁體中文亂碼文字的常見原因對    照表:


早期台灣電腦使用大五碼 (Big5) 處理漢字,但是因為會缺字,所以改用 Unicode 編碼。加上網路世界流傳中國簡體字 (GBK)、或者西歐文字 (ISO/IEC 8859-1ISO/IEC 8859-2) 等宣告成錯誤的字元編碼 (Character encoding) 是造成中文字亂碼的常見原因、但是英文則正常顯示。

  1. 將 Big5 編碼的文字,以 UTF-8 編碼讀取:中文變成「黑色菱形框的問號」(簡稱「黑色問號」)
  2. 將 UTF-8 編碼的文字,以 Big5 編碼讀取:中文變成「黑色問號」或不相關的中文字、
  3. 將簡體字 (GBK) 編碼的文字,以 Big5 編碼讀取:中文變成不相關中文字、偶而夾雜部首
  4. 將 Big5 編碼的文字,以簡體字 (GBK) 編碼讀取:中文變成不相關中文字、偶而夾雜日文
  5. 將 Big5 編碼的文字,以西歐字元編碼 (ISO-8859-2) 讀取:中文變成歪七扭八
  6. 將 UTF-8 編碼的文字,以西歐字元編碼 (ISO-8859-2) 讀取:中文變成歪七扭八,但是文字長度較長

問題解決

之前我收到網友來信,Email 附上亂碼文字,希望我能幫忙。直接複製貼上的亂碼文字,其實資訊已經遺失,建議提供原始檔案再嘗試轉換成正確的字元編碼。


測試方式

分別製作 Big5、GBK、Unicode (UTF-8) 編碼的文字檔案,拖曳到瀏覽器,再使用擴充套件 Set Character Encoding 選擇錯誤的編碼讀取文字內容。

留言