Upgrade to Pro — share decks privately, control downloads, hide ads and more …

絵文字は構文解析できるのか

puripuri2100
September 15, 2024

 絵文字は構文解析できるのか

情報科学若手の会2024 [https://wakate.org] でのLT発表
使用した絵文字はすべてTwemoji [https://github.com/twitter/twemoji] より使用しました

puripuri2100

September 15, 2024
Tweet

More Decks by puripuri2100

Other Decks in Technology

Transcript

  1. 1/6 絵文字っていいよね 皆さん絵文字好きですか?    絵文字は Unicode に収録され、年々新しいものが増えている 9 月 10

    日に新しい Unicode 16.0 がリリースされました このままだと確保されている範囲が枯渇してしまう 世界にはまだ収録されていない文字がたくさん なんとかして節約しなければ
  2. 4/6 「構文解析」できるのか? 「肌の色」や「職業にかかわる絵文字」などの prefix・ suffix になりがちな絵 文字は存在する → 規則性を見つけてグループ化して k

    個先読みの解析器が作れそう しかし Unicode は「毎年絵文字が追加される」 頑張って作った規則が容易に、予測不可能な形で破壊される
  3. 4/6 「構文解析」できるのか? 「肌の色」や「職業にかかわる絵文字」などの prefix・ suffix になりがちな絵 文字は存在する → 規則性を見つけてグループ化して k

    個先読みの解析器が作れそう しかし Unicode は「毎年絵文字が追加される」 頑張って作った規則が容易に、予測不可能な形で破壊される 例:色を変える規則をまとめていたら 「黒猫」 の結合が実装され、 例外が 早速発生