- 全角/半角
- East_Asian_Width属性に定まらないこともない
- East_Asian_Widthが曖昧なものもあるため、絶対に定まるとは言い切れない
- https://ja.wikipedia.org/wiki/%E6%9D%B1%E3%82%A2%E3%82%B8%E3%82%A2%E3%81%AE%E6%96%87%E5%AD%97%E5%B9%85
- 文字とは?
- バイト
- オクテット=8bitに概ね等しい
- コードユニット(code unit)
- 特定のエンコーディングにおける基本単位。コードポイントは1つかそれ以上のコードユニットの列で表される。
- UTF-8では1コードユニットは1バイト, UTF-16では2バイト, UTF-32では4バイト
- コードポイント(code point)
U+なんとかかんとかで表されるのがコードポイント
- 書記素クラスタ(grapheme cluster)
- エンドユーザが思う「1文字」はこれ
- 1つかそれ以上のコードポイントによって表される
- バイト
- BOM
- UTF-8にBOMがついているとうまく処理できない処理系がある
Created
December 22, 2022 06:01
-
-
Save acevif/b42f9bb6c542e9273d3f1277546ca163 to your computer and use it in GitHub Desktop.
Unicode memo
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment