外国人が日本語の検索機能をElasticsearchで作ってみた

 外国人が日本語の検索機能をElasticsearchで作ってみた

外国人だから日本語検索は難しいの?
実は日本語検索自体が大変なんじゃない?
じゃどう作っていくの?

をElasticsearchで解決してみました

4791b0ca671724dfbd666ffa83e4191c?s=128

Sunggyu 'KEI' Rhie

December 19, 2018
Tweet

Transcript

  1. 1 外国人が日本語の検索機能を Elasticsearchで実装してみました 李 晟圭

  2. 自己紹介 李 晟圭(イ・ソンギュ) 韓国出身 2016年からRetty在籍中 WEB/Search Team Engineering Manager 最近は事業成長に貢献(のつもり) しながら

    技術的挑戦や組織作り・育成 などを主に
  3. 日本最大級の実名グルメサービス「Retty」 実名制 オススメの口コミ 友人との「つながり」 口コミ内容はポジティブな“おすすめ”で きるお店を投稿。 点数評価ではありません。 Rettyのサービス内で“友人”や“食の 嗜好が合う同士”がフォロー機能でつ ながっているSNS型です。

    実名制口コミの信頼度が非常に高いグ ルメサービスです。 2011年6月にサービスを開始した実名グルメサービス「 Retty」は、 グルメに強いこだわりを持つ方々を中心に、 「オススメ」したいお店の情報を実名ベースでご 投稿いただく形で運営しています。 「自分にベストなお店が見つかる」グルメサービスとして、 20~40代の男女を中心に、 幅広い年代にご利用いただいていま す。
  4. スマホ時代の実名グルメサービス「Retty」 月間利用者数4,000万人突破(2018年11月時点)

  5. ユーザーさんのニーズに合わせた 良いお店を発見できることが 究極的な価値である グルメサービスには検索は必須

  6. エリア ✕ ジャンル ✕ 目的 恵比寿 ✕ 焼き鳥 ✕ デート よくある検索

  7. 店名 鳥はな 焼き鳥屋佐藤 炭火焼き鳥江戸屋 よくある検索 ※全ての店名はこのスライドのために適当に作った架空の店名です。 実在する店舗の名前とかぶることがあってもそれは偶然なので、特定お店を取り上げてるつもりはございませんのでご容赦ください。

  8. 内容が膨らみすぎて店名にしぼりました ここでお詫び

  9. Lサイズ靴下3足でなんと500円! 日本語では普通の表現

  10. Lサイズ靴下3足でなんと500円! ひらがな、カタカナ、 漢字(よみがな、ふりがな)、 ローマ字、アラビア数字が 字空きなく書かれている 外国人からすると

  11. Lサイズ靴下3足でなんと500円! でもこれでも意味がわかる

  12. L サイズ 靴下 3 足 で なんと 500 円 !

    脳内形態素解析発動 でもこれでも意味がわかる
  13. 単純に日本語に慣れてないから? 脳内形態素解析用辞書がまだまだだから? 結局外国人として難しいのは

  14. 「店名」なので 店主が好きなように決められる 日本語もその範囲を狭めて店名にすると

  15. やきとん はなまる 鮨一 ラ・グランベリー・ルージュー The Farmer’s Cuisine ラーメン234 店名の例 ※全ての店名はこのスライドのために適当に作った架空の店名です。

    実在する店舗の名前とかぶることがあってもそれは偶然なので、特定お店を取り上げてるつもりはございませんのでご容赦ください。
  16. 博多らぁめん屋ウマウマTONKOTSU〜豚骨〜246 沿い店 店名の例 ※全ての店名はこのスライドのために適当に作った架空の店名です。 実在する店舗の名前とかぶることがあってもそれは偶然なので、特定お店を取り上げてるつもりはございませんのでご容赦ください。

  17. 友達 店名の例

  18. 友達 店名の例 フレンド

  19. 外来語や固有名詞のなどは分かち書きや 固有名詞の漢字の読み方は 日本人もわからないことがよくある 結局外国人だからとかじゃない

  20. 脳内形態素解析に対応できる辞書はない 検索機能として作るには

  21. ユーザさんは必ずしも 形態素解析や分かち書きのとおりに 検索するとは限らない 検索機能として作るには

  22. ngramでいいのでは? 検索機能として作るには

  23. 適合率と再現率 つまり質か量か 検索機能として作るには

  24. 課題1:分かち書きできない固有名詞 課題2:想定できない読み仮名 課題3:一定レベルの質担保 課題4:ユーザーさんは店名を覚えていない 課題

  25. なんでElasticsearchでやるの? は省略します! Elasticsearchで解決してみましょう

  26. Analyzerは、新語・造語に強い mecab-ipadic-NEologdを使うので Kuromoji-NEologd with 自家製辞書 + ICU analysis を基本に Elasticsearchで解決してみましょう

  27. Normalizeは ICU Normalizerに 任せるとして Elasticsearchで解決してみましょう

  28. まずは「正式店名」 お店さんが公式とする店名 課題1:分かち書きできない固有名詞

  29. やきとん はなまる 鮨一 ラ・グランベリー・ルージュー The Farmer’s Cuisine ラーメン123 正式名称の例

  30. 空白文字 記号(・、’〜など)で 区切ってみる 正式名称のTokenize

  31. 「やきとん」 「はなまる」 「鮨一」 「ラ」「グランベリー」「ルージュー」 「The」「Farmer」「s」「Cuisine」 「ラーメン」「123」 正式名称のTokenize

  32. ラ・グランベリー・ルージュー →「ラ」「グランベリー」「ルージュー」 これでは「ラグランベリー」というクエリではヒットしな くなる 正式名称のTokenize

  33. ラ・グランベリー・ルージュー →「ラ」「グランベリー」「ルージュー」 →「ラグランベリールージュー」 の2パターンを用意する 正式名称のTokenize

  34. ラ・グランベリー・ルージュー →「ラ」「グランベリー」「ルージュー」 →「ラグランベリールージュー」 の2パターンを用意する 正式名称のTokenize 各Token毎の 完全一致と前方部分一致で検索できる

  35. ラ・グランベリー・ルージュー →「ラ」「グランベリー」「ルージュー」 →「ラグランベリールージュー」 の2パターンを用意する 正式名称のTokenize なんか「ランベリー」とかのお店だったよね? →はい、これはngramで

  36. 正式名称のAnalyze ラ・グランベリー・ルージュー 全部つなげた前方一致用Analyzer TokenizeしたToken毎前方一致用Analyzer 部分一致用Analyzer の3種を用意する

  37. 全部つなげた前方一致Analyzerは Char Filter:記号削除 Tokenizer:edge ngram

  38. 課題2:想定できない読み仮名 次は読み仮名

  39. やきとん はなまる 鮨一 ラ・グランベリー・ルージュー The Farmer’s Cuisine ラーメン123 友達 内房

    正式名称の例
  40. やきとん はなまる:やきとん はなまる 鮨一:すしいち ラ・グランベリー・ルージュー:ら ぐらんべりー るーじゅー The Farmer’s Cuisine:ふぁーまーず

    くいじん ラーメン123:らーめん ひふみ 友達:ふろんど 内房:あんぱん 読み仮名の例 ※全ての店名はこのスライドのために適当に作った架空の店名です。 実在する店舗の名前とかぶることがあってもそれは偶然なので、 特定お店を取り上げてるつもりはございませんのでご容赦ください。
  41. そんなのはない 読み仮名の解決策

  42. データを確保し 正式名称と同じ形で Analyzerを配置する 課題2:想定できない読み仮名

  43. できたと思ったら ラ・グランベリー・ルージューって 英語表記もあるらしい La Grandberry Rouge

  44. 課題追加:英語名称 La Grandberry Rouge ユーザさんは投げます、berry

  45. 課題1と2+αを解決するには Analyzerの数=Fieldの数 正式名称×3 読み仮名×3 英語名称×3 を用意して基本はできた

  46. 課題3:一定レベルの質担保 質とは クエリに対して 探している店舗が 表示されること

  47. 課題3:一定レベルの質担保 質と量はトレードオフ しかし表示されないお店があってはならない

  48. 課題3:一定レベルの質担保 より合致しそうなお店を ユーザーさんに早く届ければいい つまりスコアリングで表示順を上にする

  49. 課題3:一定レベルの質担保 1. 完全一致 2. 前方一致 3. Token毎前方一致 4. 部分一致

  50. 課題3:一定レベルの質担保 クエリによるスコアリングは 実際はたくさんの変数の中の一つである ユーザさんが求めるものに 近づけるための最低限の担保

  51. 課題4:ユーザさんは店名を覚えていない 「ユーザさんが求めるものに 近づけるための最低限の担保」 店名がはっきりわからないからこそ 検索がある

  52. 課題4:ユーザさんは店名を覚えていない 激辛ラーメン鳳の爪 激辛ラーメン凰の爪

  53. 課題4:ユーザさんは店名を覚えていない Fuzziness

  54. Fuzziness レーベンシュタイン距離を用いて 文字数によって数文字ぐらいの 誤差は許す

  55. Fuzziness 激辛ラーメン鳳の爪 激辛ラーメン凰の爪 どっちもヒットする!

  56. Fuzziness 鳳の爪 凰の爪 1文字違うけど1/3なので

  57. Fuzzinessは質を落とす あのね そのね このね どのね 1文字違うけど1/3なので

  58. Fuzzinessは質を落とす 質への影響が激しいので 使うときには アプリケーションでの調整などで 制限的に使う

  59. すべての課題がElasticsearchで解決! ここまでやって やっと「探してる店舗が表示されない」 という問い合わせが来なくなりました 一応成功

  60. すべての課題がElasticsearchで解決! ここで余談

  61. すべての課題がElasticsearchで解決! Rettyはグローバル展開してます 香港とタイ

  62. タイのユーザさんに言われました まだまだだね

  63. 一緒にやってくれる方、ぜひ 助けてください

  64. 終わり ご清聴ありがとうございました