Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語研究から見たChatGPT

 日本語研究から見たChatGPT

日本語学会2023年度春季大会(2023年5月20・21日)会長企画講演
「日本語研究から見たChatGPT」
青山学院大学名誉教授・近藤泰弘

Yasuhiro Kondo

May 13, 2023
Tweet

More Decks by Yasuhiro Kondo

Other Decks in Education

Transcript

  1. 大規模言語モデルのパ ラメータ数の増大 ・2018年 GPT  1億 ・2019年 GPT-2  15億(ソースコード等公開) ・2020年 GPT-3  1750億 ・2022年 GPT-3.5 3550億

    (対話を学習させたも のがいわゆるChatGPT) ・2023年 GPT-4 非公開(1兆を超えるとも。対 話型として公開) (パソコンで動く言語モデル) Vicuna 130億 (MetaのLLaMAの派生) RWKV 150億 (RNNで作って、対話で調整したも の。中国で開発) パラメータとは、多層ネットワークをつなぐ 時に y = wx + b のような計算をするが、 そのw(重み)や、b(バイアス)のこと。 あみだくじの横棒のように行き先を左右する
  2. 大規模言語モデルのデ ータ量 ChatGPTの学習データには、Common Crawl(数PB)やThe Pile (825GB)などが使われていると思われる。 この中にはWikipediaなども含まれているが、Wikipediaが全文そ のまま入っていて、それを「切り貼り」しているわけではない。学 習データのパラメータの「重み」などとして「圧縮」されている。 (ローカルPCで動作する類似モデルの例)

    上記のCommon Crawlなどで学習していると思われるLLaMAから 派生したVicuna 13B(130億パラメータ)では、学習データ(重 み)のファイルは26GB程度で、やや大容量のGPUを持つパソコン で動作する(講演者は、日常的に自宅のPCで起動して動かしてい る)。世界中の知識が、たった26GB程度になって机の横にあるの は驚きである。
  3. 文の生成 文芸創作・教材・英語添削・試験 問題・議事録・シラバス・研究計 画書・要約 翻訳 Q&A プログラミ ング 文体変換(敬 語・役割語等)

    フォーマット変 換 XML・TeX 罫線の表形式 学問上のアシス タント 日常問題 問題発見 手法の探索 ホームページ作 成 大規模言語モデルが できること (苦手なこと) 複雑な計算・複雑な論理解釈・多重埋め込み文 日本語の〈字〉単位の処理 (汎化)
  4. 大規模言語モデルの 能力を発揮させる 対話という形の中で、言語生成のための材料を提供 「プロンプト」または incontex-learning OpenAIのプロンプトガイドが、非常に参考になる。 質問者(あるいは回答者)の立場を明確にする 明確に回答のフォーマットを規定する 具体例をあげる 指示と素材を明確に分離する

    「step by stepで(段階を追って)考えてください」 https://www.promptingguide.ai/jp などが重要。また、思考の段階(Chain-of-Thought)を追って文を生成 させるための例示が重要で、段階的な例を示せない場合は などの指示だけでも効果がある(小島武・Large language models are zero-shot reasoners・2022年・5月)
  5. 言語モデルの多言語 対応能力 翻訳したり、文体を変換したりするのは、 ある「意味」に沿って、別の「乗り物」で 言語を生成することと比喩的に言える 日本語     おはようございます。 英語    Good morning.

    役割語     おはようだっちゃ TeX      \begin{conversation} おはよう…… GPT-4 絵文字  ☀️ 😃✨🌅👋🏻🌞🌇🙌🏼🌼 この乗り物(言語)は同じ道筋(意味)を共有してお り、独立した別別の言語の世界があるわけではない。
  6. 言語モデルの多言語 生成能力の仕組み 大規模言語モデル等の深層学習では、単語や文の意 味を「埋め込みベクトル」(数百から数千次元のベ クトル)として表現する。単語の共起分布などをも とに算出する。 日本語   おはようございます。 英語 Good morning.

    役割語  おはようだっちゃ TeX   \begin{conversation} おはよう・・・ 絵文字  ☀️ 😃✨🌅👋🏻🌞🌇🙌🏼🌼 文ベクトルが近似していて、そのベクトルに整合す る単語列が順に生成されていると推定できる
  7. 多言語能力を応用し た、日本語学文献向け のアプリの開発 LlamaIndex 0.6.1による問い合わせシステム 質問文 回答 分割してベク トル化 LlamaIndex

    + LangChain 分割してベクト ル化 分割してベク トル化 プロンプト 汎用言語モデ ル OpenAI completions API OpenAI embeddings API LlamaIndex + LangChain 原テキスト 推 敲
  8. 大唐國語。可言成就 藏矣。言 悉曇者。 統綜五天之本文。言矩&T049271;者。牢籠三國之 異釋。總作八篇。別成八 卷。言八篇者。 梵文本源 第一。 悉曇韻紐二章藻具 闕第

    三。編録正字第四。字母翻音第五。字入 門第六。字義解釋第七。正録章段第八 摭 八篇以成八 卷。各 搜三義同作三評。乃 有三八二十四門。第一 梵文本源有三評 曰。一定本源則述。昔有三兄弟議作三行 書。大 梵天王造左行 梵書。 佉婁仙人造行 伽書。最弟蒼 頡造下行 篆書。又成劫初造 書天造四十七字。光音天説四十二字。故 古代漢文への問い合わせシステム(安然・悉曇蔵) 汎用言語モデ ル 多言語能力を応用し た、日本語学文献向け のアプリの開発 この 悉曇蔵という漢文による書物は何について書かれたものです か。内容を要約して説明してください。また、最後にこの漢文は いつ頃書かれたものかをその文体から推定してください。