日本語学会2023年度春季大会(2023年5月20・21日)会長企画講演 「日本語研究から見たChatGPT」 青山学院大学名誉教授・近藤泰弘
日本語研究から見たChatGPT近藤泰弘(日本語学会会長企画講演・青山学院大学名誉教授)日本語学会春季大会(2023年5月20・21日)Ver.1.0
View Slide
1 ChatGPTの類の紹介と歴史2 大規模言語モデルのできること3 「常識」と「感情」と「作話」4 文の意味と多言語モデル5 多言語応用アプリケーション6 今後の課題
ChatGPT
Bing(Microsoft)
Bard ( Google )
ChatGPTこのページから,Try ChatGPTを選択して、メールアドレスで登録する(無料)。GPT-4を使いたい場合は、月額$20が必要になる。https://openai.com/blog/chatgpt
大規模言語モデルのパラメータ数の増大・2018年 GPT 1億・2019年 GPT-2 15億(ソースコード等公開)・2020年 GPT-3 1750億・2022年 GPT-3.5 3550億 (対話を学習させたものがいわゆるChatGPT)・2023年 GPT-4 非公開(1兆を超えるとも。対話型として公開)(パソコンで動く言語モデル)Vicuna 130億 (MetaのLLaMAの派生)RWKV 150億 (RNNで作って、対話で調整したもの。中国で開発)パラメータとは、多層ネットワークをつなぐ時に y = wx + b のような計算をするが、そのw(重み)や、b(バイアス)のこと。あみだくじの横棒のように行き先を左右する
大規模言語モデルのパラメータ数の増大次に何が来るかを学習させていくうちに、ネットワークの中にその情報が「重み」として蓄積される。多層なほどパラメータは増え,扱える情報量も豊富になる大規模言語モデル(次の単語を学習している) おじいさん(確率最大)(イメージ図)むかしむかしあるところに
大規模言語モデルのデータ量ChatGPTの学習データには、Common Crawl(数PB)やThe Pile(825GB)などが使われていると思われる。この中にはWikipediaなども含まれているが、Wikipediaが全文そのまま入っていて、それを「切り貼り」しているわけではない。学習データのパラメータの「重み」などとして「圧縮」されている。(ローカルPCで動作する類似モデルの例)上記のCommon Crawlなどで学習していると思われるLLaMAから派生したVicuna 13B(130億パラメータ)では、学習データ(重み)のファイルは26GB程度で、やや大容量のGPUを持つパソコンで動作する(講演者は、日常的に自宅のPCで起動して動かしている)。世界中の知識が、たった26GB程度になって机の横にあるのは驚きである。
知識がそのまま入っているわけではない学習データはいわば「圧縮」されているので、データを索引化して参照できる検索エンジンとは異なる。
大規模言語モデルの能力基本的には文の「続き」の生成をするだけである。少し前のGPT-2 (rinna gpt-2 small) だと、その「文の生成」もややぎこちなかった。(Colaboratory上で実行)
大規模言語モデルの能力ChatGPTに至って、対話の形で、能力があがった感がある。
大規模言語モデルの能力古典の解釈の例(解釈が分かれる問題)
大規模言語モデルの能力言語が入り組んだ翻訳(不完全)
大規模言語モデルの能力形態素解析してからXML出力
大規模言語モデルの能力問題の発見
文の生成文芸創作・教材・英語添削・試験問題・議事録・シラバス・研究計画書・要約翻訳Q&Aプログラミング文体変換(敬語・役割語等)フォーマット変換XML・TeX罫線の表形式学問上のアシスタント日常問題問題発見手法の探索ホームページ作成大規模言語モデルができること(苦手なこと)複雑な計算・複雑な論理解釈・多重埋め込み文日本語の〈字〉単位の処理(汎化)
大規模言語モデルの苦手部分順番に単語を並べるのが基本なので、入れ子構造では前を覚えておく必要がある主語A 主語B 述語B 述語A入れ子が多重になると依存関係が把握できなくなる。学習データよりも1階層深いレベルまでしか認識できない。(谷中瞳「日経サイエンス」2023・5月号)(従属節)
大規模言語モデルの能力を発揮させる対話という形の中で、言語生成のための材料を提供「プロンプト」または incontex-learningOpenAIのプロンプトガイドが、非常に参考になる。質問者(あるいは回答者)の立場を明確にする明確に回答のフォーマットを規定する具体例をあげる指示と素材を明確に分離する「step by stepで(段階を追って)考えてください」https://www.promptingguide.ai/jpなどが重要。また、思考の段階(Chain-of-Thought)を追って文を生成させるための例示が重要で、段階的な例を示せない場合はなどの指示だけでも効果がある(小島武・Large language modelsare zero-shot reasoners・2022年・5月)
「常識」の獲得AIが弱いとされた「常識」も、言語の中の文脈の生成として、ある程度「獲得」している
「感情」の獲得AIが弱いとされた「感情」も、言語の中の文脈として、ある程度論理的には「獲得」している。(ネガポジ分類などの延長線上にある)
「作話」の発生時々、ありえない発話「幻覚」hallucinationを産出する。近時、「作話」confabulationという心理学用語も使われるが、この方が、実態に合っているように思われる。言語モデルは正しい記憶であると理解している模様。
言語モデルの多言語対応能力 翻訳したり、文体を変換したりするのは、ある「意味」に沿って、別の「乗り物」で言語を生成することと比喩的に言える日本語 おはようございます。英語 Good morning.役割語 おはようだっちゃTeX \begin{conversation} おはよう……GPT-4 絵文字 ☀️😃✨🌅👋🏻🌞🌇🙌🏼🌼この乗り物(言語)は同じ道筋(意味)を共有しており、独立した別別の言語の世界があるわけではない。
言語モデルの多言語対応能力乗り間違える場合もある。(early birdの間違い)
言語モデルの多言語対応能力compare apples and oranges(「全然違うものを比較する」意味)が紛れ込んでいる。
言語モデルの多言語対応能力日本語データの少ない Vicuna (LLaMa派生)13Bは、ごく稀に、多言語に混乱した出力を出す。
言語モデルの多言語生成能力の仕組み大規模言語モデル等の深層学習では、単語や文の意味を「埋め込みベクトル」(数百から数千次元のベクトル)として表現する。単語の共起分布などをもとに算出する。日本語 おはようございます。英語 Good morning.役割語 おはようだっちゃTeX \begin{conversation} おはよう・・・絵文字 ☀️😃✨🌅👋🏻🌞🌇🙌🏼🌼文ベクトルが近似していて、そのベクトルに整合する単語列が順に生成されていると推定できる
言語モデルの多言語生成能力言語モデル(多言語で学習したパラメータの「重み」を持っている)英語 incontext-learning(プロンプト)で重みの使い方が切り替わるネットワークの層に、単語・文の多言語ベクトル情報が反映日本語役割語TeX絵文字言語モデルの持つ重みなどに言語ごとの特徴がある
多言語モデルの文ベクトルの共通性の実験ChatGPTのAPI gpt-3.5-turboで日本語文に対応する絵文字文を発生させる(20字制限をつけてある)通常のGPT-4の出力するものに近い
言語モデルの多言語生成能力の実験 OpenAIのベクトル生成APIのtext-embedding-ada-002を使って、絵文字による文をベクトル化する(各、1536次元)もとの日本語は一切使っていない。
言語モデルの多言語生成能力の実験絵文字文6種の文ベクトルと、日本語文「野球をする」の文ベクトルを比較絵文字文の文ベクトル 日本語文「野球をする」の文ベクトル
言語モデルの多言語生成能力日本語文をベクトル化したものと絵文字文のベクトルを一般的なコサイン類似度で比較する絵文字文のベクトルと日本語のベクトルでも比較可能!さらに重要なのは、play baseballでも結果は同じ(多言語だから)
言語モデルの多言語生成能力ChatGPTの利用・生成する単語ベクトルや文ベクトルは、言語共通の「意味」の一端をとらえていて、それを利用して、同じ意味の文を生成しているようだ日本語 おはようございます。英語 Good morning.役割語 おはようだっちゃTeX \begin{conversation} おはよう……絵文字 ☀️😃✨🌅👋🏻🌞🌇🙌🏼🌼文ベクトルに共通性がある
多言語能力を応用した、日本語学文献向けのアプリの開発平安初期の天台宗僧侶の安然(あんねん)悉曇学の大家で、『悉曇蔵』(880年)その他の著書がある。円仁の弟子である。承和8(841)年生まれ。橋本進吉「安然和尚事蹟考」(『史学雑誌』20編8号)『悉曇蔵』は、全文漢文で書かれており、『大正新脩大蔵経』にも収載されるが、なかなか難解であり、音韻史の専門の研究者でも全部を通読した人は少ないと思うが、読むべき書物ではある。少しでも取り組みやすくする方法はないか?古代の学者と対話をしたい
多言語能力を応用した、日本語学文献向けのアプリの開発 ChatGPTを使った論文の要約システムは多い。この考えを応用すれば、漢文をそのまま読んで、日本語で問い合わせることができる。本文が長い場合に備えて、本文を分割し、部分文書ベクトルを作って、質問文のベクトルと対比しておく機能を前付けにしておくとよい。例えば、ChatPDF。https://www.chatpdf.com/これは、論文PDFを読んで、英語でも日本語でも多言語で問い合わせ、ChatGPTで要約して、問い合わせた言語で対話できるシステム。論文要約システム
多言語能力を応用した、日本語学文献向けのアプリの開発LlamaIndex 0.6.1による問い合わせシステム質問文回答分割してベクトル化LlamaIndex +LangChain分割してベクトル化分割してベクトル化プロンプト汎用言語モデル OpenAIcompletionsAPIOpenAI embeddingsAPILlamaIndex +LangChain原テキスト 推敲
大唐國語。可言成就藏矣。言悉曇者。統綜五天之本文。言矩&T049271;者。牢籠三國之異釋。總作八篇。別成八卷。言八篇者。梵文本源第一。悉曇韻紐二章藻具闕第三。編録正字第四。字母翻音第五。字入門第六。字義解釋第七。正録章段第八摭八篇以成八卷。各搜三義同作三評。乃有三八二十四門。第一梵文本源有三評曰。一定本源則述。昔有三兄弟議作三行書。大梵天王造左行梵書。佉婁仙人造行伽書。最弟蒼頡造下行篆書。又成劫初造書天造四十七字。光音天説四十二字。故古代漢文への問い合わせシステム(安然・悉曇蔵)汎用言語モデル多言語能力を応用した、日本語学文献向けのアプリの開発 この悉曇蔵という漢文による書物は何について書かれたものですか。内容を要約して説明してください。また、最後にこの漢文はいつ頃書かれたものかをその文体から推定してください。
1 ChatGPTの類の紹介と歴史2 大規模言語モデルの能力3 「常識」と「感情」と「作話」4 文の意味と多言語モデル5 多言語応用アプリケーション6 今後の課題
今後の課題教育においてどのように活用するか日本語教育・国語教育・そして大学教育には特別に大きな変化が生じると考えられる。新しいデータの創造が重要。著作権その他についての新しい問題学習データの権利、また、出力が誰のものなのかなどがある。AIアシストの論文を学会などが承認するかどうかも問題になる。AIの拡大と脅威間違った情報の流布・プライバシー侵害など。また、AIが人間に制御できなくなる可能性がある。また、オープンソースのAIが今後ますます発達するため、この問題は大きくなる。オープンソースのAIのリストは以下のサイトに詳しい。https://medium.com/geekculture/list-of-open-sourced-fine-tuned-large-language-models-llm-8d95a2e0dc76
近藤泰弘[email protected]yhkondo@twitterご視聴ありがとうございました。お気軽に質問などをお送り下さい。Q&A