Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語研究から見たChatGPT

 日本語研究から見たChatGPT

日本語学会2023年度春季大会(2023年5月20・21日)会長企画講演
「日本語研究から見たChatGPT」
青山学院大学名誉教授・近藤泰弘

Avatar for Yasuhiro Kondo

Yasuhiro Kondo

May 13, 2023
Tweet

More Decks by Yasuhiro Kondo

Other Decks in Education

Transcript

  1. 大規模言語モデルのパ ラメータ数の増大 ・2018年 GPT  1億 ・2019年 GPT-2  15億(ソースコード等公開) ・2020年 GPT-3  1750億 ・2022年 GPT-3.5 3550億

    (対話を学習させたも のがいわゆるChatGPT) ・2023年 GPT-4 非公開(1兆を超えるとも。対 話型として公開) (パソコンで動く言語モデル) Vicuna 130億 (MetaのLLaMAの派生) RWKV 150億 (RNNで作って、対話で調整したも の。中国で開発) パラメータとは、多層ネットワークをつなぐ 時に y = wx + b のような計算をするが、 そのw(重み)や、b(バイアス)のこと。 あみだくじの横棒のように行き先を左右する
  2. 大規模言語モデルのデ ータ量 ChatGPTの学習データには、Common Crawl(数PB)やThe Pile (825GB)などが使われていると思われる。 この中にはWikipediaなども含まれているが、Wikipediaが全文そ のまま入っていて、それを「切り貼り」しているわけではない。学 習データのパラメータの「重み」などとして「圧縮」されている。 (ローカルPCで動作する類似モデルの例)

    上記のCommon Crawlなどで学習していると思われるLLaMAから 派生したVicuna 13B(130億パラメータ)では、学習データ(重 み)のファイルは26GB程度で、やや大容量のGPUを持つパソコン で動作する(講演者は、日常的に自宅のPCで起動して動かしてい る)。世界中の知識が、たった26GB程度になって机の横にあるの は驚きである。
  3. 文の生成 文芸創作・教材・英語添削・試験 問題・議事録・シラバス・研究計 画書・要約 翻訳 Q&A プログラミ ング 文体変換(敬 語・役割語等)

    フォーマット変 換 XML・TeX 罫線の表形式 学問上のアシス タント 日常問題 問題発見 手法の探索 ホームページ作 成 大規模言語モデルが できること (苦手なこと) 複雑な計算・複雑な論理解釈・多重埋め込み文 日本語の〈字〉単位の処理 (汎化)
  4. 大規模言語モデルの 能力を発揮させる 対話という形の中で、言語生成のための材料を提供 「プロンプト」または incontex-learning OpenAIのプロンプトガイドが、非常に参考になる。 質問者(あるいは回答者)の立場を明確にする 明確に回答のフォーマットを規定する 具体例をあげる 指示と素材を明確に分離する

    「step by stepで(段階を追って)考えてください」 https://www.promptingguide.ai/jp などが重要。また、思考の段階(Chain-of-Thought)を追って文を生成 させるための例示が重要で、段階的な例を示せない場合は などの指示だけでも効果がある(小島武・Large language models are zero-shot reasoners・2022年・5月)
  5. 言語モデルの多言語 対応能力 翻訳したり、文体を変換したりするのは、 ある「意味」に沿って、別の「乗り物」で 言語を生成することと比喩的に言える 日本語     おはようございます。 英語    Good morning.

    役割語     おはようだっちゃ TeX      \begin{conversation} おはよう…… GPT-4 絵文字  ☀️ 😃✨🌅👋🏻🌞🌇🙌🏼🌼 この乗り物(言語)は同じ道筋(意味)を共有してお り、独立した別別の言語の世界があるわけではない。
  6. 言語モデルの多言語 生成能力の仕組み 大規模言語モデル等の深層学習では、単語や文の意 味を「埋め込みベクトル」(数百から数千次元のベ クトル)として表現する。単語の共起分布などをも とに算出する。 日本語   おはようございます。 英語 Good morning.

    役割語  おはようだっちゃ TeX   \begin{conversation} おはよう・・・ 絵文字  ☀️ 😃✨🌅👋🏻🌞🌇🙌🏼🌼 文ベクトルが近似していて、そのベクトルに整合す る単語列が順に生成されていると推定できる
  7. 多言語能力を応用し た、日本語学文献向け のアプリの開発 LlamaIndex 0.6.1による問い合わせシステム 質問文 回答 分割してベク トル化 LlamaIndex

    + LangChain 分割してベクト ル化 分割してベク トル化 プロンプト 汎用言語モデ ル OpenAI completions API OpenAI embeddings API LlamaIndex + LangChain 原テキスト 推 敲
  8. 大唐國語。可言成就 藏矣。言 悉曇者。 統綜五天之本文。言矩&T049271;者。牢籠三國之 異釋。總作八篇。別成八 卷。言八篇者。 梵文本源 第一。 悉曇韻紐二章藻具 闕第

    三。編録正字第四。字母翻音第五。字入 門第六。字義解釋第七。正録章段第八 摭 八篇以成八 卷。各 搜三義同作三評。乃 有三八二十四門。第一 梵文本源有三評 曰。一定本源則述。昔有三兄弟議作三行 書。大 梵天王造左行 梵書。 佉婁仙人造行 伽書。最弟蒼 頡造下行 篆書。又成劫初造 書天造四十七字。光音天説四十二字。故 古代漢文への問い合わせシステム(安然・悉曇蔵) 汎用言語モデ ル 多言語能力を応用し た、日本語学文献向け のアプリの開発 この 悉曇蔵という漢文による書物は何について書かれたものです か。内容を要約して説明してください。また、最後にこの漢文は いつ頃書かれたものかをその文体から推定してください。