これは何?
- 日本語環境でgeditを使う場合の、エンコーディング自動判別の優先順位を決めるための資料です。
エンコーディングリスト
- 自動判別のデフォルト
- UTF-8
- CURRENT(localeに従う:通常はUTF-8)
- ISO-8859-15
- UTF-16
- ファイルを開く/保存時のデフォルト
- CURRENT
- ISO-8859-15
- 日本語
- EUC-JP
- SHIFT_JIS
- ISO-2022-JP
- CP932
- EUC-JP-MS
サンプルファイル
- このページの添付ファイル
- geditで生成
OpenOffice.org Writerのダミーテキストを使用
- 日本語、英語、スペイン語の順
- 特定の言語を除いている場合は「no_ja」などとファイル名に付加
必要条件
(例)文字コード名
- 順位
- 上記順位でないと開けないファイル
UTF-8
UTF-8 > CP932
- sample_UTF-8_no_ja.txt
UTF-8 > SHIFT_JIS
- sample_UTF-8_no_ja.txt
UTF-8 > EUC-JP
- sample_UTF-8_no_ja.txt
UTF-8 > EUC-JP-MS
- sample_UTF-8_no_ja.txt
UTF-8 > ISO-8859-15
- sample_UTF-8.txt
UTF-8 > UTF-16
- sample_UTF-8_no_ja.txt
弊害
- UTF-16を除いて、ASCII文字だけの場合UTF-8だと認識されてしまう
ISO-2022-JP
ISO-2022-JP > UTF-8
- sample_ISO-2022-JP_no_es.txt
弊害
- UTF-16を除いて、ASCII文字だけの場合ISO-2022-JPだと認識されてしまう
=> 日本語等を追記して保存すると、もれなくISO-2022-JPになる
ISO-8859-15
ISO-8859-15 > UTF-16
- sample_ISO-8859-15_no_ja.txt
日本語文字コード > ISO-8859-15
- ASCII以外の文字を含む日本語文字コードファイル
まとめ
- 弊害が大きいのでISO-2022-JPの自動判別はあきらめる
- [UTF-8,CURRENT,CP932,SHIFT_JIS,ISO-2022-JP,EUC-JP-MS,EUC-JP,ISO-8859-15,UTF-16]
=> IRCMeeting/20091006 参照