概要
Unicode(UTF-8)のエンコーディングについての一覧をまとめました。
特殊文字を扱う際や、文字化けの原因を特定する際に役立ちます。
Unicode(UTF-8)とは
Unicodeは、世界中の文字を統一して扱うための文字コード規格です。
UTF-8(8-bit Unicode Transformation Format)は、Unicodeを可変長のバイト列で表現する方式で、**1~4バイト** の組み合わせで文字を表現します。
Unicode(UTF-8)エンコーディング一覧
以下に、主要なUnicode文字とそのUTF-8エンコード表を示します。
文字 | Unicode(U+) | UTF-8(16進) | 説明 |
A | U+0041 | 41 | ラテン大文字 A |
あ | U+3042 | E3 81 82 | ひらがな「あ」 |
ア | U+30A2 | E3 82 A2 | カタカナ「ア」 |
中 | U+4E2D | E4 B8 AD | 漢字「中」 |
€ | U+20AC | E2 82 AC | ユーロ記号 |
😀 | U+1F600 | F0 9F 98 80 | 絵文字「グリニングフェイス」 |
✓ | U+2713 | E2 9C 93 | チェックマーク |
❤️ | U+2764 U+FE0F | E2 9D A4 EF B8 8F | 赤いハート(絵文字) |
𠮷 | U+20BB7 | F0 A0 AE B7 | 「吉」の異体字 |
🔍 | U+1F50D | F0 9F 94 8D | 虫眼鏡の絵文字 |
UTF-8のエンコードルール
UTF-8は、Unicodeのコードポイントに応じて以下のようにエンコードされます。
コードポイント範囲(U+) | バイト数 | UTF-8エンコード形式 |
U+0000 ~ U+007F | 1バイト | 0xxxxxxx |
U+0080 ~ U+07FF | 2バイト | 110xxxxx 10xxxxxx |
U+0800 ~ U+FFFF | 3バイト | 1110xxxx 10xxxxxx 10xxxxxx |
U+10000 ~ U+10FFFF | 4バイト | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
Unicodeの活用例
- UTF-8を使用することで、異なる言語の文字を一つの文書やデータベースで統一して扱うことができる。
- Web開発では、HTMLやJavaScriptでの国際化対応に使用される。
- プログラムで特殊記号や絵文字を扱う際に、エンコードとデコードを適切に行う必要がある。
参考リンク
Unicode公式チャート
Unicode ひらがな
Unicode カタカナ
かなりいっぱいあるのでここまで…
ありがとうございます
コメント