第3回AI王YAMALEXソリューション

Copyright © Acroquest Technology Co., Ltd. All rights reserved. AI王~クイズAI日本一決定戦~
第3回コンペティション開発システム紹介 Acroquest Technology株式会社 YAMALEXチーム佐々木峻 1

「働きがいのある会社(GPTW)」ランキング(従業員25～99人部門) １位を 3回受賞１位１位１位

若手中心のデータサイエンティストチーム “YAMALEX” Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 3 Acroquest社内で発足したKaggleGMの山本率いるデータサイエンスチーム“YAMALEX”（ヤマレックス）プロジェクトの高度な問題解決に取り組んでいます。チームメンバが切磋琢磨して、コンペティションへの参加や勉強会を開催し、スキルアップに繋げています。主な活動内容多種多様な課題をAIで解決するデータサイエンティストチーム ①AL/MLを利用した課題解決 ②データサイエンスコンペティションへの参加 ③自社サービス開発の支援様々な分野でのお客様が抱える課題解決に向けて、AI／MLの導入支援を行っています。 Kaggleをはじめとしたデータサイエンスコンペティションに参加し、日々、スキルアップを図っています。 Acroquestでは、映像解析ソリューションTorrentioVideoや日本語検索のENdoSnipeを開発しています。それらの新機能の検証・開発を行っています

目次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
4 1. 参加のモチベーション 2. システム概要 3. システム詳細 4. 試したけど改善しなかったこと 5. やりたかったけどできなかったこと 6. 感想

1. 参加のモチベーション Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 5 ①QAの経験を積みたい ⚫ QAシステム自体は、チームメンバがほぼ扱ったことが無かったのでこのコンペを知った際に、チャレンジしたくなった（今回、初参加です）。 ②日本のNLPコンペに参加したい ⚫ Kaggleなどには参加したことはあるが、問題のほとんどが英語の文章なので日本のコンペにチームとして出たかった。 ③チームとしてコンペに参加してみたい ⚫ YAMALEXチームはまだ個人参加はあれど、チームでコンペに取り組んだことがなかったので、チームで取り組んでみたかった。

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6
2. システム概要 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6 Sparse Retriever Elasticsearch Dense Retriever（BPR） FAISS 上位100件 50件ずつマージ Generator（FiD） FiD ベクトル化インデクシング基本はベースラインを使い、Sparse Retriever・データの拡張で精度を伸ばしていく作戦を取った Q コンテキストコンテキスト約1100万件 Q 上位100件コンテキストコンテキスト A

3-1. Retriever Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 7 Sparse Retriever ⚫ ElasticsearchのBM25を使用 ⚫ クイズ文章で検索してスコア高いコンテキスト上位100件を抽出 ⚫ Elasticsearchのtokenizerにはsudachiを使用 ⚫ 名詞のみを残して検索 Dense Retriever ⚫ ベースライン実装のBPRを使用 ⚫ 一度学習した結果のHard Negativeを学習データに加えてもう一度再学習異なる特徴を捉えるため2種類のRetrieverを使用 Sparse Retriever Elasticsearch Dense Retriever（BPR） FAISS 上位100件ベクトル化インデクシング Q コンテキストコンテキスト約1100万件 Q 上位100件コンテキスト

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 8
3-2. FiD Copyright © Acroquest Technology Co., Ltd. All rights reserved. 8 Generator（FiD） encoder encoder concat FiD FiD(Fusion in Decoder) ⚫ ベースライン実装のFiDを使用 ⚫ 複数モデルをアンサンブル ① Model: sonoisa/t5-base-japanese n_context: 60 ② Model: megagonlabs/t5-base-japanese-web n_context: 60 ③ Model: sonoisa/t5-base-japanese n_context: 80 ④ Model: megagonlabs/t5-base-japanese-web n_context: 80 ⚫ アンサンブルはシンプルなVotingを使用出力を安定させるため複数モデルを使用 A Q コンテキスト Q コンテキスト Q コンテキスト encoder

3-3. 取り組みの流れ Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 9 ベースラインの動作確認 FiDのContextのパラメータ確認 ExternalData投入 SPR利用 Wikipedia頁追加 Dev/Testの相関が合わなくなるアンサンブルの結果を提出 11月初旬頭から本格開始し、以下のスコアの遷移で進んだ LB Score 主要な提出回数

4. 試したけど改善しなかったこと Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 10 ①Wikipediaのコンテキスト追加 ⚫ Wikipediaデータを追加した際に、DevのEMは増加したが、Testに相関しなかったこと。 ⚫ ただし、未知の問題に頑強になる可能性があるので、最終投稿には適用した。 ②BPRの出力をHard Negative ContextとPositive Contextに複数回追加 ⚫ BPRの出力を学習データのHard Negativeに追加することで精度に改善は見られた。 ⚫ ただし、Positive Contextへの追加と2回目・3回目の追加はDevの精度は改善したが、 Testでの精度はむしろ下がった。 ③Retrieverのモデルを日本語RobertaやSentence BERTに変更 ⚫ bert-japanese-v2を使用したバージョンとほとんど精度が変わらなかったため、適用を見送った。

5. やりたかったけどできなかったこと Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 11 ①Retrievalの正解データ改善 ⚫ RetrievalのPositiveデータに対するアノテーションの再考。 a. 単語が含まれているからといって正解ではない（例：鳥の「トキ」は単語が含まれやすい）。 b. そのため、複数のPositiveデータを利用する場合ノイズが含まれるデータも現行のアノテーション方式だと多く存在する。 c. 例えば、BERTとElasticsearchの組み合わせによる再アノテーションも検討できるが、時間が足りなかった。 ②様々なモデルの検討 ⚫ megagonlabs/t5-base-japanese-webとsonoisa/t5-base-japaneseでのFiDでの回答生成を実施した。 ⚫ さらに大きなモデルの精度向上を期待できるので他も検討したかったが、時間が足りず、試せなかった（例： https://huggingface.co/abeja/gpt-neox-japanese-2.7b）。

6. 感想 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 12 ①日本語を使ったコンペは滅多にないので楽しい ⚫ たいてい世の中のNLPコンペは英語なので、日本語を機械学習をコンペで競えるのはとてもありがたい。 ②QAシステムの奥深さを知れた ⚫ QAモデルを作ったのはこのコンペが初めてだったので、どうすれば精度が上がるかやモデルの論文読んだりなどOpen Domain QAに詳しくなれた。 ③データ・ベースライン・サポートなど運営が充実しており取り組みやすかった ⚫ ベースラインが充実しているので、参加時期が遅くても一定の精度はすぐに出せるようになった。 ⚫ 提出の際には多大なサポートをありがとうございました。

第3回AI王YAMALEXソリューション

第3回AI王YAMALEXソリューション

Takashi Sasaki

More Decks by Takashi Sasaki

Other Decks in Programming

Featured

Transcript

Copyright © Acroquest Technology Co., Ltd. All rights reserved. AI王~クイズAI日本一決定戦~

「働きがいのある会社(GPTW)」ランキング(従業員25～99人部門) １位を 3回受賞１位１位１位

若手中心のデータサイエンティストチーム “YAMALEX” Copyright © Acroquest Technology Co., Ltd. All rights

目次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

1. 参加のモチベーション Copyright © Acroquest Technology Co., Ltd. All rights

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6

3-1. Retriever Copyright © Acroquest Technology Co., Ltd. All rights

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 8

3-3. 取り組みの流れ Copyright © Acroquest Technology Co., Ltd. All rights

4. 試したけど改善しなかったこと Copyright © Acroquest Technology Co., Ltd. All rights

5. やりたかったけどできなかったこと Copyright © Acroquest Technology Co., Ltd. All rights

6. 感想 Copyright © Acroquest Technology Co., Ltd. All rights

13 運営委員会の皆様コンペの開催ありがとうございました。私たちとしても学びが多く、非常に面白いものでした！ Copyright © Acroquest Technology Co.,