Upgrade to Pro — share decks privately, control downloads, hide ads and more …

eccoによる言語モデルの可視化 (2022-01-28 NLP Hacks#1)

Akira Sasaki
February 04, 2022

eccoによる言語モデルの可視化 (2022-01-28 NLP Hacks#1)

2022-01-28に開催されたNLP Hacks#1での発表資料です。

Akira Sasaki

February 04, 2022
Tweet

Other Decks in Research

Transcript

  1. 自己紹介 • 佐々木 彬 (ささき あきら) • 株式会社ELYZA所属 • 経歴

    ◦ 2018年3月: 東北大学乾・岡崎研究室 (現: 乾研究室) 博士後期課程修了 ◦ 2018年4月〜2021年12月: 株式会社リクルート ◦ 2022年1月〜: 株式会社ELYZA • 専門 ◦ 賛否分類 (Stance Detection) • 趣味 ◦ Kaggle (Master) ◦ ルービックキューブ (平均13秒、最速8秒くらい) ◦ DTM (勉強中) ◦ MCバトル鑑賞 (勉強中) 2
  2. eccoとは? • ニューラル言語モデルの可視化に特化したOSS [repo] ◦ 今回の検証ではバージョン 0.1.2を利用 • 昨年のACL2021 demo

    trackにも採択 [paper] • 開発者は以下のような可視化で有名なJay Alammarさんら ◦ The Illustrated Word2vec ◦ The Illustrated Transformer ◦ The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning) ◦ The Illustrated GPT-2 (Visualizing Transformer Language Models) ◦ How GPT3 Works - Visualizations and Animations • PyDataでもチュートリアルを開催 ◦ Jay Alammar - Take A Look Inside Language Models With Ecco | PyData Khobar • 開発者が英語テキストを対象に各種可視化をしている記事 ◦ Interfaces for Explaining Transformer Language Models ◦ Finding the Words to Say: Hidden State Visualizations for Language Models 3
  3. 本LTで可視化する言語モデル • rinna/japanese-gpt2-medium (Hugging Face上でpublic) ◦ 以降便宜上、このモデル自体を rinnaと呼称 • 日本語データで学習されたGPT-2ベースのモデル

    ◦ GPT-2自体の説明は以下を参照 ◦ (Radford+, 2018) Language Models are Unsupervised Multitask Learners (PDF) ◦ The Illustrated GPT-2 (Visualizing Transformer Language Models) • 学習用スクリプト: rinnakk/japanese-pretrained-models • 学習データとしては以下が利用されている ◦ Japanese CC-100 (2022/01/26 現在503…) ◦ 日本語Wikipedia 4
  4. まとめ • eccoによる言語モデル可視化を実施 ◦ 手軽に言語モデルの性質を確認し、言語モデルの「クセ」を解釈できる ◦ 入力事例ごとに可視化できるため、予想外の出力のデバッグなどにも有用そう • 今後の展望 ◦

    モデル改善のサイクルに eccoを取り入れ、研究開発のイテレーションを早められるかも? ◦ まだまだ開発途中のようで、気になる方は contributeチャンス 16