Unicode(UTF-8)エンコーディング一覧 参考

Blog
スポンサーリンク

概要

Unicode(UTF-8)のエンコーディングについての一覧をまとめました。
特殊文字を扱う際や、文字化けの原因を特定する際に役立ちます。

Unicode(UTF-8)とは

Unicodeは、世界中の文字を統一して扱うための文字コード規格です。
UTF-8(8-bit Unicode Transformation Format)は、Unicodeを可変長のバイト列で表現する方式で、**1~4バイト** の組み合わせで文字を表現します。

Unicode(UTF-8)エンコーディング一覧

以下に、主要なUnicode文字とそのUTF-8エンコード表を示します。

文字 Unicode(U+) UTF-8(16進) 説明
A U+0041 41 ラテン大文字 A
U+3042 E3 81 82 ひらがな「あ」
U+30A2 E3 82 A2 カタカナ「ア」
U+4E2D E4 B8 AD 漢字「中」
U+20AC E2 82 AC ユーロ記号
😀 U+1F600 F0 9F 98 80 絵文字「グリニングフェイス」
U+2713 E2 9C 93 チェックマーク
❤️ U+2764 U+FE0F E2 9D A4 EF B8 8F 赤いハート(絵文字)
𠮷 U+20BB7 F0 A0 AE B7 「吉」の異体字
🔍 U+1F50D F0 9F 94 8D 虫眼鏡の絵文字

UTF-8のエンコードルール

UTF-8は、Unicodeのコードポイントに応じて以下のようにエンコードされます。

コードポイント範囲(U+) バイト数 UTF-8エンコード形式
U+0000 ~ U+007F 1バイト 0xxxxxxx
U+0080 ~ U+07FF 2バイト 110xxxxx 10xxxxxx
U+0800 ~ U+FFFF 3バイト 1110xxxx 10xxxxxx 10xxxxxx
U+10000 ~ U+10FFFF 4バイト 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Unicodeの活用例

  • UTF-8を使用することで、異なる言語の文字を一つの文書やデータベースで統一して扱うことができる。
  • Web開発では、HTMLやJavaScriptでの国際化対応に使用される。
  • プログラムで特殊記号や絵文字を扱う際に、エンコードとデコードを適切に行う必要がある。

参考リンク

Unicode公式チャート
Unicode ひらがな
Unicode カタカナ
かなりいっぱいあるのでここまで…

ありがとうございます

Blog文字コード
スポンサーリンク
インフラエンジニア|パイナップル星人 ブログ

コメント

タイトルとURLをコピーしました