文字コードあるある

最近はutf8も使えた方がいい機会が多い気がする。
「何故utf8なのか?」の理由を自分なりに調査。
歴史も知れてなんとなくスッキリ^^

文字コードの略歴

  • コンピュータの発展に伴い文字コードも多様化。
  • 現在では100種類以上の代表的な文字コードが存在する。
  • アルファベット圏では文字コードの発展が早かったが、漢字圏は言語固有で発展。
    • これらは基本的に互換性がない場合がほとんど。
  • 互換性問題を回避するために考えだされた文字コードがUnicode。

用語定義

  • 文字符号化方式:Ascii表など、bit列を文字に変換するルール。
  • 符号化文字集合:文字を重複なく集めたもの。全アルファベット(a-zA-Z)、全ひらかな(あ-ん)みたいな感じ。
  • キャラクタセット:文字符号化方式と符号化文字集合とを合わせた高級概念。主にMIMEを主眼にできた様子。

代表的な文字コード

  • 1バイト文字コード
    • 1バイト系文字コードは「半角文字」と呼ばれたりする
    • Ascii
  • 2バイト文字コード
    • 2バイト系文字コードは「全角文字」と呼ばれたりする
    • ISO-2022-JP (俗称JISコード)
    • EUC (-JP, -KR, -etc)
    • Shift-JIS
    • Unicode(多言語文字集合)

まとめ

  • 文字コードに関してはあまりはっきりした定義がない。
    • ちゃんとした定義があるのかもだが理解には時間がかかりそう。
    • 見るページによってバラバラ。「バラバラです」って説明も多いw
  • 今後のことを考えると当面はutf8を使用するのがよさげ。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です