GeditEncodingAutoDetectDocument

これは何？

日本語環境でgeditを使う場合の、エンコーディング自動判別の優先順位を決めるための資料です。

エンコーディングリスト

自動判別のデフォルト
- UTF-8
- CURRENT(localeに従う:通常はUTF-8）
- ISO-8859-15
- UTF-16
ファイルを開く/保存時のデフォルト
- CURRENT
- ISO-8859-15
日本語
- EUC-JP
- SHIFT_JIS
- ISO-2022-JP
- CP932
- EUC-JP-MS

サンプルファイル

このページの添付ファイル
geditで生成
OpenOffice.org Writerのダミーテキストを使用
日本語、英語、スペイン語の順
特定の言語を除いている場合は「no_ja」などとファイル名に付加

必要条件

（例）文字コード名

順位
- 上記順位でないと開けないファイル

UTF-8

UTF-8 > CP932
- sample_UTF-8_no_ja.txt
UTF-8 > SHIFT_JIS
- sample_UTF-8_no_ja.txt
UTF-8 > EUC-JP
- sample_UTF-8_no_ja.txt
UTF-8 > EUC-JP-MS
- sample_UTF-8_no_ja.txt
UTF-8 > ISO-8859-15
- sample_UTF-8.txt
UTF-8 > UTF-16
- sample_UTF-8_no_ja.txt

弊害

UTF-16を除いて、ASCII文字だけの場合UTF-8だと認識されてしまう

ISO-2022-JP

ISO-2022-JP > UTF-8
- sample_ISO-2022-JP_no_es.txt

弊害

UTF-16を除いて、ASCII文字だけの場合ISO-2022-JPだと認識されてしまう
- => 日本語等を追記して保存すると、もれなくISO-2022-JPになる

ISO-8859-15

ISO-8859-15 > UTF-16
- sample_ISO-8859-15_no_ja.txt
日本語文字コード > ISO-8859-15
- ASCII以外の文字を含む日本語文字コードファイル

まとめ

弊害が大きいのでISO-2022-JPの自動判別はあきらめる
[UTF-8,CURRENT,CP932,SHIFT_JIS,ISO-2022-JP,EUC-JP-MS,EUC-JP,ISO-8859-15,UTF-16]
- => IRCMeeting/20091006 参照

UbuntuJapaneseWiki: GeditEncodingAutoDetectDocument (最終更新日時 2012-01-10 11:49:10 更新者匿名)