文字ときどきRuby / Character and Ruby (NSEG)

文字ときどきRuby NSEG 2024-01-27 とみたまさひろ 1

自己紹介 • とみたまさひろ • • https://twitter.com/tmtms https://blog.tmtms.net 2

これは同じ文字？直直 3

フォントが違うだけで同じ文字直 U+76F4 日本語フォント直 U+76F4 中国語フォント 4

これの違いと同じ直直 5

コンピュータで扱う文字は文字ごとに番号(コードポイント) が振られていてプログラムから見たときは同じコードポイントであれば同じ文字 6

Rubyでコードポイントを知る > '直'.ord.to_s(16) "76f4" > 'ほげ'.chars.map{_1.ord.to_s(16)} ["307b", "3052"] > 'ほげ'.unpack('U*').map{_1.to_s(16)}
["307b", "3052"] 7

これは同じ文字？令令 8

違う文字令 U+4EE4 CJK統合漢字令 U+F9A8 CJK互換漢字 9

正規化すれば同じ文字 String#unicode_normalize > '令'=='令' false > '令'=='令'.unicode_normalize true 10

正規化でこんなことも使いようによっては便利 '０'.unicode_normalize(:nfkc) => '0' '①'.unicode_normalize(:nfkc) => '1' 'ｱ'.unicode_normalize(:nfkc) =>
'ア' 'ﾊﾟ'.unicode_normalize(:nfkc) => 'パ' '㌖'.unicode_normalize(:nfkc) => 'キロメートル' 11

これは同じ文字？令 � 12

異体字令 U+4EE4 � U+4EE4 U+E0102 13

基底文字に異体字セレクタを追加することでプレーンテキストでも文字の見た目を指定することができる 14

異体字セレクタ � U+4EE4 U+E0102 ←これ U+E0100〜U+E01EF が異体字セレクタ対応システムと対応フォントが必要 15

異体字セレクタ異体字セレクタセレクタが便利 https://747.github.io/vsselector/#!/ja/908a 16

異体字セレクタ unicode_normalize では消えないので U+E0100〜U+E01EF を消す "\u4ee4\u{e0102}".gsub(/[\u{e0100}-\u{e01ef}]/, '') 17

「髙」と「﨑」 > '高' == '髙' false > '崎' == '﨑'
false 18

「髙」 Unicode では「髙」は「高」の異体字ではなく別の文字別の文字なので異体字セレクタにもない SJIS(Windows-31J)でも別の文字でも JIS では「髙」という文字は存在しない「高」の異体字扱い 19

「髙」 > '髙'.encode('Windows-31J') "\x{FBFC}" > '髙'.encode('SJIS') # SJIS は Windows-31J
の別名 "\x{FBFC}" > '髙'.encode('Shift_JIS') # Shift_JIS と SJIS は異なる # `encode': U+9AD9 from UTF-8 to Shift_JIS # (Encoding::UndefinedConversionError) 20

「髙」 Unicode 上は別の文字なので同一文字として扱わなければいいんだけど、人名検索とかだと同一文字として扱いたいこともあるかもしれないのでむずかしい 21

「﨑」 CJK互換漢字「令」と同じだけど unicode_normalize では「崎」にならない > '﨑'.unicode_normalize "﨑" #
CJK互換漢字は普通は正規化できる > '福'.unicode_normalize "福" 22

「﨑」これも「髙」と同じく変換するには個別対応が必要そう U+FA11（﨑）はU+5D0E（崎）に統合漢字ブロックの異体字を持つが、字体差が大きいとみなされ統合の範疇とされていない。 CJK互換漢字 - Wikipedia 23

これは同じ文字？へヘ 24

別の文字だけど日本語のバグへ平仮名ヘ片仮名 25

この文字数は？ � � � � � � � � �
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 26

国旗は２文字 � � U+1F1EF U+1F1F5 � � + � �
国コードを国旗用文字２文字で書くと国旗になる � � + � � = � � � � 27

３人家族は１文字 � � � � � � � � �
� � � � � � � � � U+1F46A 「FAMILY」という絵文字 28

４人家族は７文字 � � � � � � � � �
� � � � � � � � � � � � � U+1F468 � � � � � MAN U+200D ゼロ幅接合子 U+1F469 � � � � � � WOMAN U+200D ゼロ幅接合子 U+1F467 � � � � � � � � � GIRL U+200D ゼロ幅接合子 U+1F466 � � � � � BOY 29

濁点つき文字ぱ U+3071 ぱ U+306F U+309A 「は」＋合成用半濁点文字 (これは unicode_normalize(:nfc) で1文字の「ぱ」になる)
30

囲み文字 a⃝ U+0041 U+20DD a⃤ U+0041 U+20E4 a⃞ U+0041 U+20DE
a ⃣ U+0041 U+20E3 31

人間の肌色と髪型 � � � � U+1F9D1(大人) � � � �
+ U+1F3FB(明るい肌色) � � � � + U+1F3FC(やや明るい肌色) U+200D U+1F9B0(赤毛) � � � � + U+1F3FE(やや濃い肌色) U+200D U+1F9B2(坊主頭) 32

文字数とは？ � � � � 33

プログラム的に自然なのはコードポイントの数でも人にはわかりにくい > '� ��
� � � � � � � � � � � � �� '.size 10 34

書記素より「人が１文字として見える文字」みたいな書記素（しょきそ、英: grapheme）とは、書記言語において意味上の区別を可能にする最小の図形単位をいう書記素 - Wikipedia
35

Ruby で書記素を扱う String#grapheme_clusters > '� ��
� � � � � � � � � � � � �� '.size 10 > '� �� '.grapheme_clusters ["� �", "� � � � � � � � � � � � � � � � � �", "� � � � � � � � � � � � � � � � � � � � � �"] > '� �� '.grapheme_clusters.size 3 36

Ruby で書記素を扱う正規表現 \X > '� ��
� � � � � � � � � � � � � �� '.scan(/./) ["� �", "� �", "� � � � � � � � � � � � � � � � � �", "� � � � �", "", "� � � � � �", "", "� � � � � � � � �", "", "� � � � �"] > '� �� '.scan(/\X/) ["� �", "� � � � � � � � � � � � � � � � � �", "� � � � � � � � � � � � � � � � � � � � � �"] 37

まとめ • ユニコードはカオス • 文字列を比較するときは正規化 • 文字数はコードポイントなのか書記素なのかを考える 38

文字ときどきRuby / Character and Ruby (NSEG)

文字ときどきRuby / Character and Ruby (NSEG)

More Decks by とみたまさひろ

Featured

Transcript