Slide 1

Slide 1 text

Confidential ©QunaSys 第二期LLM勉強会ご案内 2024.09.25

Slide 2

Slide 2 text

2
 ©QunaSys 材料開発×LLMの課題についてとある企業様から頂いたお声 
 計算化学の現場で使えるLLMにするには、 社内データの整備だけでは不⼗分な気がしている。 教科書や⽂献などを整理する必要があるが個社で取り組むにはコストが⾼い。 特に⾮構造データの整備などもカバーするとなると⼤変。 各社で協⼒しあって必要な⽂献を出し合い、QunaSysにリクエストする。 QunaSysがリクエストあった⽂献をデータストア化し、LLMとして提供する。 そのLLMがどれだけ改善したか精度を各社で検討する。 今の段階では各社で協⼒したアプローチが有効な課題もあるのでは。

Slide 3

Slide 3 text

©QunaSys LLM研究会の趣旨と目的 研究会の趣旨 ● 競争前段階(Pre-competitive)のLLM研究を行う ● 参加企業にとって共有資産となる成果を構築する ○ LLMの基礎演習 ○ 研究開発へのLLM活用ガイドラインの作成 ○ 最新情報や最新論文のキャッチアップ、ユースケース探索 成果物 ● 材料開発フレンドリーなRAGの構築、およびRAGを活用したユースケースの整理 ● エージェント作成の基礎知識から活用までをレクチャー ● ユースケース適用事例をもとに、課題とベストプラクティスを整理・共有 3

Slide 4

Slide 4 text

©QunaSys 第一期の内容と参加者からの FB 4

Slide 5

Slide 5 text

©QunaSys 第一期:レクチャープログラム(6月~9月) 第⼀回 6/27(⽊) 15時〜17時 LLM×材料開発の基礎講義 講師(QunaSys) ● 材料開発 x LLMのオーバービューと事例紹介 ● LLMやロボティクスとの関係など?(自動実験に向けて) 講師(東⼯⼤:畠⼭先⽣) ● LLM×物性値予測の研究紹介 ● ⼤規模⾔語モデルPJにおけるオープンデータの整備状況 講師(東大:村岡先生) ● LLMを⽤いた逆問題への応⽤可能性 ● 材料設計現場での適⽤可能性? 講師(東大:溝口先生) ● 機械学習 x ナノ構造解析・物質設計における研究紹介 ● 測定解釈・物質設計におけるLLMの活用可能性について 演習テーマ RAGなしとRAGありの比較をしてみよう! 汎⽤的な質問に対応してくれる 複数のエージェントに相談できるようにしよう! RAG×プロンプトチューニングに挑戦しよう! 材料開発の相談役エージェントを作ってみよう! RAG検索を改善する ナレッジグラフのチューニングに挑戦しよう! 第⼆回 7/30(⽕) 15時〜16時 第三回 8/19(⽉) 14時〜16時 第四回 9/25(⽔) 15時〜16時 ● 講義と演習のセットで、LLMの基礎からLLM×材料開発のユースケース探索までを実施 ● 計8社、100名以上が参加 5

Slide 6

Slide 6 text

©QunaSys RAGについて RAG:Retrieval-Augmented Generation の略 ● LLMの回答の精度を⾼めるための⼿法の⼀つ ● 持ってるデータから検索(Retreive)して、検索結果を使って⽣成(Generate)する仕組み データ ストア 材料開発の研究開発者にとって相談役になるLLMを⽬指し、 データストアに材料開発の教科書やレビュー論⽂などを蓄積する どんな⽂献を蓄積すると回答精度が⾼まるか参加企業で検証 それを通じて、社内の⽂献をRAGで使うプロセスも把握頂くことが狙い 6

Slide 7

Slide 7 text

©QunaSys 第一期ご参加者様の声 コンソーシアム形式の 効果 ハンズオンの効果 ● 自分ではうまくプロンプトが作成できなかったが、グループワークで他の方の方法を聞くことで理解が深 まった。 ● グループディスカッションで、他の人の考えに触れることができ視野が広がったと感じました。 ● プロンプトの種類、その効果を実感できました。 ● ハンズオンを行った上で「 LLMは数値予測には向かない面もある(意訳)」というコメントを聞き、少し納得す るところがあった。 7

Slide 8

Slide 8 text

LLM×材料開発において重要なこと ©QunaSys 8 人間の思考を完全にトレースさせるのではなく、新たなフローを考えるほうが得策 参照:AI導入で企業が挫折するのはなぜ? ―AI「以外」の壁にどう立ち向かうか

Slide 9

Slide 9 text

©QunaSys LLM×材料開発の現状 RAGと検索システムの違いは? LLMで何ができるの? LLMはどこまでやってくれる? 化合物・材料の新規性を どうやって生み出す? 論理性担保できてる? 今(2024年9月現在)はこれらをとにかく列挙して、確認していく段階 QunaSysの強み=これらを検証する技術 ● 理論に立脚した要因分解・数理モデルの構築 → LLMに理解させる、フローに起こすためには言語化が重要 ● データマネジメントシステムの構築・活用 → データの活用のために重要 LLMは4つの科学の隔たりを小さくし、研究開発を加速するツールの一つ 9

Slide 10

Slide 10 text

©QunaSys 第二期の内容 ユースケースの実装 10

Slide 11

Slide 11 text

©QunaSys 第二期:ユースケース探索プログラムの詳細 10月 11月 12月 成果報告会*3 (1月以降) 先行論文の再現 検討テーマ例 費用:100万円 2)LLMによるデータの収集・   構造化・活用 1)LLMによる新規分子生成 ユースケース探索 ● 参加者からユースケース募集 ● 実装のための要因分解 ● 手を動かして LLMの活用可能性を探索する、 LLM×材料開発が活きる事例を見つける ● オープンイノベーション的に共有できる範囲で取組を通じて得られたアイデアの共有 ● QunaSysへの今後の開発をリクエスト頂く 3)LLMによる研究開発課題の   要因分解・実験計画 各テーマ説明 &一部実施 ● Zoomで実施 ● 各テーマごとに 80分ずつを予定 ● 11/8(金)予定 各テーマの実装 *1,2 ● 対面で実施 ● 各テーマ1日、11:00~16:00を予定 ● 12/2~12/13辺りで開催日を調整予定 ● 実装会で取り扱わなかった部分について は、個別に実装(ハッカソン) ● 必要に応じてフォローアップ会を実施(参 加は任意、各テーマごとに実施予定) *1:テーマ実装はフォローアップの都合上、各テーマ2名様を上限とさせていただきます。2名様以上のご参加をご希望の場合はご相談ください。 *2:プログラミングできる方が望ましいです。弊社からフォローはいたしますが、ご不安な場合はテーマ3をおすすめいたします。 *3:成果報告会は何名様でもご参加いただけます。Zoomまたは対面で行います。 11 詳細や規約は https://llm.qunasys.com/ をご覧ください。お問い合わせは [email protected] まで。 ● 実装における工夫点 ● LLM×材料開発が適する/ 不適なユースケース ● LLM×材料開発の将来

Slide 12

Slide 12 text

©QunaSys テーマ論文 費用:100万円 *1:テーマ実装はフォローアップの都合上、各テーマ2名様を上限とさせていただきます。2名様以上のご参加をご希望の場合はご相談ください。 *2:プログラミングできる方が望ましいです。弊社からフォローはいたしますが、ご不安な場合はテーマ3をおすすめいたします。 *3:成果報告会は何名様でもご参加いただけます。Zoomまたは対面で行います。 12 1)LLMによる新規分子生成 D. Bhattacharya, H. Cassady, M. A. Hickner, W. F. Reinhart, ”Large Language Models as Molecular Design Engines” ChemRxiv. 2024 https://doi.org/10.26434/chemrxiv-2024-n0l8q-v2 2)LLMによるデータの収集・   構造化・活用 K. Kawchak, "LMM Chemical Research with Document Retrieval" ChemRxiv. 2024 https://doi.org/10.26434/chemrxiv-2024-p91gm 3)LLMによる研究開発課題の   要因分解・実験計画 A. M Bran, S. Cox, O. Schilter, C. Baldassari, A. D White, P. Schwaller "ChemCrow: Augmenting large-language models with chemistry tools" https://doi.org/10.48550/arXiv.2304.05376

Slide 13

Slide 13 text

©QunaSys 第二期:ユースケース探索プログラムの成果物 No. LLM×研究開発で必要なスキル・知識 詳細例 スキル保有者 1 研究開発領域のドメイン知識 普段の業務の言語化・要素分解 研究・開発者 2 フローの組み換え、新しいフローの構築 研究・開発者・システム開発者(・仲介者) 3 ツールの適切な使用 人間、LLM、システム(コーディング)それぞれが 得意な領域に要素を割り当てる 研究・開発者・システム開発者(・仲介者) 4 過去データ、文献データの活用 研究・開発者・システム開発者(・仲介者) 5 実装 実装、動作確認 システム開発者 6 出力結果の評価、解釈 研究・開発者 7 科学的論理性の担保 研究・開発者 8 ハルシネーションへの対処 研究・開発者・システム開発者(・仲介者) 9 データのつなぎこみ 研究・開発者・システム開発者(・仲介者) 成果物 ● 研究開発へのLLM活用ガイドラインの提供 ● LLM×研究開発に関する最新情報の提供、ユースケース事例の再現 ● 上表の基礎技術や考え方を習得 費用:100万円 13

Slide 14

Slide 14 text

©QunaSys 第二期:ユースケースプログラムの内容 Q&A 14 Q. 実装は各社ごと?共同? A. 各社の皆様に一堂に会していただき、お互いのアイデアをご共有いただく場を想定しております。   実装回後の開発を、他社のご参加者様と共同で行っていただくこともあり得るかと存じますが、弊社側から強制はいたしません。 Q. 勉強会以外での工数はかかる? A. なるべくご参加者様のご負担が少ないようにと考えておりますが、実装回までに論文を事前に読んでいただくことが必要です。   また、実装回で扱った部分以外の開発をされたい方は、勉強会外のお時間を使っていただければと存じます。 Q. LLMなど、環境の準備は必要? A. LLMについては弊社から Difyを、コーディングについては GoogleColaboratoryの使用を予定しておりますので、   アクセス可能な環境のご準備をお願いいたします。 Difyにつきましては、参加お申込後にご案内いたします。 Q. Google Colaboratoryで実施する場合、 ChatGPTなどを使用するための APIキーは提供されますか? A. 弊社からLLMを利用できる環境をご提供いたします。 Q. プログラミングのスキルはどの程度必要ですか? A. 基本的にはPythonでデータの整形ができる程度を想定しております。   統計処理を扱うライブラリ( scikit-learnやscipy)が使えるレベルだとより望ましいです。   当日はQunaSysの社員も参加し、サポートできる体制を整える予定です。