これは何?

  • 日本語環境でgeditを使う場合の、エンコーディング自動判別の優先順位を決めるための資料です。

エンコーディングリスト

  • 自動判別のデフォルト
    • UTF-8
    • CURRENT(localeに従う:通常はUTF-8)
    • ISO-8859-15
    • UTF-16
  • ファイルを開く/保存時のデフォルト
    • CURRENT
    • ISO-8859-15
  • 日本語
    • EUC-JP
    • SHIFT_JIS
    • ISO-2022-JP
    • CP932
    • EUC-JP-MS

サンプルファイル

  • このページの添付ファイル
  • geditで生成
  • OpenOffice.org Writerのダミーテキストを使用

  • 日本語、英語、スペイン語の順
  • 特定の言語を除いている場合は「no_ja」などとファイル名に付加

必要条件

(例)文字コード名

  • 順位
    • 上記順位でないと開けないファイル

UTF-8

  • UTF-8 > CP932

    • sample_UTF-8_no_ja.txt
  • UTF-8 > SHIFT_JIS

    • sample_UTF-8_no_ja.txt
  • UTF-8 > EUC-JP

    • sample_UTF-8_no_ja.txt
  • UTF-8 > EUC-JP-MS

    • sample_UTF-8_no_ja.txt
  • UTF-8 > ISO-8859-15

    • sample_UTF-8.txt
  • UTF-8 > UTF-16

    • sample_UTF-8_no_ja.txt

弊害

  • UTF-16を除いて、ASCII文字だけの場合UTF-8だと認識されてしまう

ISO-2022-JP

  • ISO-2022-JP > UTF-8

    • sample_ISO-2022-JP_no_es.txt

弊害

  • UTF-16を除いて、ASCII文字だけの場合ISO-2022-JPだと認識されてしまう
    • => 日本語等を追記して保存すると、もれなくISO-2022-JPになる

ISO-8859-15

  • ISO-8859-15 > UTF-16

    • sample_ISO-8859-15_no_ja.txt
  • 日本語文字コード > ISO-8859-15

    • ASCII以外の文字を含む日本語文字コードファイル

まとめ

  • 弊害が大きいのでISO-2022-JPの自動判別はあきらめる
  • [UTF-8,CURRENT,CP932,SHIFT_JIS,ISO-2022-JP,EUC-JP-MS,EUC-JP,ISO-8859-15,UTF-16]

UbuntuJapaneseWiki: GeditEncodingAutoDetectDocument (last edited 2012-01-10 11:49:10 by anonymous)