Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ナレッジグラフとLLMの相互利用

Kouji Kozaki
September 12, 2024

 ナレッジグラフとLLMの相互利用

第55回(2024年度第1回)産応協セミナー
「LLMの科学技術への応用と展望」
にて行った講演
「ナレッジグラフとLLMの相互利用」
の発表資料です.
ナレッジグラフ(知識グラフ)と大規模言語モデル(LLM)の相互利用について
・どのような相互利用の携帯があるか?
・その際に考慮すべき技術要素は何か?
といった点について,ナレッジグラフの立場から紹介しています.

Kouji Kozaki

September 12, 2024
Tweet

More Decks by Kouji Kozaki

Other Decks in Technology

Transcript

  1. 自己紹介  コミュニティ活動 研究成果として 公開中のソフト  古崎(こざき)晃司 [email protected]  所属:大阪電気通信大学

    情報通信工学部 情報工学科  専門: オントロジー工学(情報科学・人工知能)  研究テーマ:「オントロジー工学」と「LOD(Linked Open Data)・ 知識グラフ」を基盤とした「セマンティック(意味処理)技術」 によるAIシステムの開発 「ナレッジグラフ」を用いたAI技術開発のコンテスト http://challenge.knowledge-graph.jp/ オープンデータ活用のコンテスト http://lodc.jp
  2. 本講演のねらい・立場  背景  LLM×ナレッジグラフ(KG)の組み合わせが注目されている  例)Graph RAG:LLMへの問い合わせに用いる外部データ としてナレッジグラフを利用する 

    本講演のねらい  ナレッジグラフ(知識グラフ・KG)の基本的な考え方・ 技術の概要を示す  ナレッジグラフとは?  ナレッジグラフを利用すると何ができる?  ナレッジグラフを利用する時の課題は?  ナレッジグラフとLLMの相互利用の現状を紹介  本講演の立場  セマンティック(ウェブ)技術の観点からのKGを紹介  グラフデータベースの観点や実装詳細については述べない
  3. 講演内容  ナレッジグラフの基礎技術  ナレッジグラフとLinked Data,Linked Open Data(LOD)  ナレッジグラフとオントロジー

     ナレッジグラフの利用例  ナレッジグラフとLLMの相互利用  ISWC2023におけるLLMに関する動向  JSAI2024企画セッション‐生成AI時代のナレッジグラフ  ナレッジグラフとLLMの相互利用の形態  まとめ  参考文献
  4. 知識グラフ(ナレッジグラフ)  知識グラフとは  さまざまな「知識」の関係(つながり)をグラフ構造で表したもの.  知的システム開発の基盤となる データベース(知識ベース)として 用いられる. 

    知識グラフの例  Linked Data(2007-)  Web技術に基づいて公開 された知識グラフ  Linked Open Data(LOD)  オープンデータとしてLinked Data  オープンな知識グラフと言える.  Google Knowledge Graph(2012-)  他の企業でも知識グラフの構築が盛んに… LOD Cloud Google Knowledge Graph (単なる)グラフデータとの違い
  5. Linked Data(2007頃-)  Linked Data:Web上のデータを,つなぐ(linkする)ことで,新しい価値 を生み出そうとする取り組み.Webの創始者Tim Berners-Lee氏が提唱 ※ Linked Open

    Data(LOD):オープンな形で公開されたLinked Data http://linkeddata.org/ (今はリンク切れ) “Webの仕組み”に基づいてデータを公開することで, Web上に公開された膨大なデータを 統合した1つの知識ベースとして利用可能にする. ★
  6. Webの仕組み  URLを指定することで,Webページにアクセス  例)http://www.osakac.ac.jp 「大阪電気通信大学」 のページ  URLは,世界中“すべて”のWebページの場所(ID) を一意に特定できる仕組み

     ハイパーリンクにより,Webページを“つなげる”  リンク先のURLを指定することで,好きなWebページ と自由に“リンク”できる  リンクを辿って,様々な情報にたどり着ける  リンクを解析による様々なビジネス  例)Googleなどの検索エンジン
  7. Webの仕組み→Linked Data  URLを指定することで,Webページにアクセス  例) http://www.osakac.ac.jp 「大阪電気通信大学」の ページ 

    URLは,世界中“すべて”のWebページの場所(ID) を一意に特定できる仕組み  ハイパーリンクにより,Webページを“つなげる”  リンク先のURLを指定することで,好きなWebページ と自由に“リンク”できる  リンクを辿って,様々な情報にたどり着ける  リンクを解析による様々なビジネス  例)Googleなどの検索エンジン データ データ Linked Data Webと同じ仕組みでデータを“公開”し, 相互に“つなぐ”(リンクする) URI・IRI データ(モノ・コト) データ(モノ・コト)
  8. 大学 大阪電気 通信大学 分類 1941年 設立日 寝屋川市 日本 位置する行政区 国

    日本 国 位置する行政区 リソース: URIで表される事物 プロパティ: リソース間(もしくはリ ソースとリテラル間)の 関係を表す リテラル :文字列 主語 述語 目的語 トリプル(3つ組み)でグラフ構造を表現 RDF (Resource Description Framework) ナレッジグラフ記述のデータモデルを提供するW3C標準の技術仕様 大阪府 http://www.wikidata.org/entity/Q7105556(大阪電気通信大学) に関するナレッジグラフの一部(Wikidataより) SPARQL(RDFを検索するクエリ言語)など,Web上でナレッジグラフ を公開・利用する様々な技術仕様がW3Cから公開されてる 16 Linked Data(ナレッジグラフ) のRDF表現
  9. Linked Dataの公開方法  参照解決可能なhttp IRIs(URL,URI)を用いた公開  IRIでデータにアクセスが可能  通常のWebページと同様に,データのURIを用いて 「つながり」を辿ることが出来る

    =システムによる処理(リンク解析等)が可能  SPARQLエンドポイントの公開  RDF用のクエリ言語SPARQLにより検索可能なAPIを公開  クエリによるデータ検索・抽出が可能  RDFファイルのダンプの公開  全データをダウンロードできる形で公開  ダウロードしたファイルをRDFパーサー,RDF-DBなどの ツールを用いて処理可能
  10. Linked Open Data (LOD) Linked Open Data =Linked Data +

    Open Data(オープンデータ) =Linked Dataとして公開されたOpen Data  Open Data(オープンデータ)とは  誰でも自由に使える形で公開されているデータ
  11. LOD公開の世界的なひろがり ~LODクラウド~ 2007/5/1 2007/10/8 2008/9/18 2009/7/14 2010/9/22 2011/9/19時点 Linking Open

    Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/ 1つの丸が個別に公開 されたDBを表す. 2014/08/30時点 DBpedia
  12. 知識グラフの例:Wikidata • ウィキメディア財団が運営する Wikipediaの「データ版」 • 現在,約1億項目 • Wikipediaと同じようにデータを コミュニティで編集,公開できる •

    API(SPARQLエンドポイント)や 各種検索ツールなども提供 http://wikidata.org/ (ウィキデータ) 参考 英語版Wikipedia 670万記事 日本語版Wikipedia 140万記事 日本国語大辞典 50万項目 LODとして公開されている
  13. Wikidataのデータ例(2/3) 述 語 (プ ロ パ テ ィ ) 目

    的 語 (オ ブ ジ ェ ク ト ) 他のリソース へのリンク
  14. Wikidataにおけるクエリの例 #猫(画像付き) #defaultView:ImageGrid SELECT ?item ?itemLabel ?pic WHERE { ?item

    wdt:P31 wd:Q146 . ?item wdt:P18 ?pic SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" } } 「分類(instance-of)」 のID 「猫」のID この例のクエリから IDを変更すること で様々な分類の 画像を検索できる
  15. 複雑な検索例 Wikidataを用いたランキング  「日本の政治家の出身都道府県」ランキング →実行結果 SELECT ?pref ?prefLabel (count(?s) As

    ?c) WHERE { ?pref wdt:P31 wd:Q50337; #分類=都道府県 wdt:P429 ?code. #全国地方公共団体コード ?s wdt:P27 wd:Q17; #国籍=日本 wdt:P106 wd:Q82955; #職業=政治家 wdt:P19/wdt:P131* ?pref. #出身 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } GROUP BY ?pref ?prefLabel ORDER BY DESC(?c)
  16. 複雑な検索例 Wikidataを用いたランキング  「日本の総理大臣の出身都道府県」ランキング →実行結果 SELECT ?pref ?prefLabel (count(?s) As

    ?c) WHERE { ?pref wdt:P31 wd:Q50337; #分類=都道府県 wdt:P429 ?code. #全国地方公共団体コード ?s wdt:P27 wd:Q17; #国籍=日本 wdt:P106 wd:Q82955; #職業=政治家 wdt:P39 wd:Q274948; #公職=内閣総理大臣 wdt:P19/wdt:P131* ?pref. #出身 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } GROUP BY ?pref ?prefLabel ORDER BY DESC(?c) この1行を 追加する
  17. 2024/4/16 知能システム特論 KGのモデリング例① :基本情報のグラフ表現 大谷翔平 ポジション 氏名 Shohei Ohtani 大谷

    翔平 氏名 国籍 日本 指名打者 投手 ポジション ドジャーズ 所属チーム 野球選手 職業 人間 分類 野球の ポジション 分類 分類 名前(ラベル), 生年月日を リテラルで表現 →「主語」には ならない ポジションをリソースで表現 →「主語」とした知識を表現可 1994年7月5日 生年月日
  18. 2024/4/16 知能システム特論 KGのモデリング例② :所属チームの扱い 大谷翔平 ドジャーズ 所属チーム エンゼルス 所属チーム 所属した時期

    の扱いは? 大谷翔平 ドジャーズ 所属 エンゼルス 所属 2024 開始 所属先 2018 開始 所属先 2023 終了 空白ノードを用いることで 所属した「時期」を表現 空白ノード
  19. 2024/4/16 知能システム特論 KGのモデリング例③ :背番号の扱い 大谷翔平 背番号 大谷翔平 ドジャーズ チーム 17

    17 背番号 番号 2024 開始 大谷翔平 ドジャーズ の17番 ドジャーズ チーム 17 番号 保有 保有者 2024 開始 ジョー・ケリー 保有 保有者 2023 終了 空白ノード リテラル 名前付きリソース ※追加の知識は表現不可 ※付随する知識 の表現が可能 ※リソース自身にIRI(グローバルなID)を与えることが可
  20. 2024/4/16 知能システム特論 KGのモデリング例④ :チームメイト 大谷翔平 チームメイト 山本由伸 ドジャーズ チームメイト フレディ・フリーマン

    チームメイト チームメイト チームメイト チームメイト 選手間の関係で表現 大谷翔平 山本由伸 フレディ・フリーマン 所属チーム 所属チーム 所属チーム 所属チームを記述 「所属チームが同じ選手」を推論(検索) チームメイトの定義
  21. ナレッジグラフとオントロジー  オントロジー  「対象世界をどのように捉えたか?(概念化したか)」 を計算機と人間が共有できる形で明確化・体系化し たもの  ナレッジグラフ/Linked Dataにおいては,

    「知識グラフの記述に用いる語彙(分類や関係の 種類など)」を提供する  概念の共通性と相違点を明確にする  統一した語彙を用いることで,知識グラフの意味が明 確になると共に,知識の統合・相互利用が可能となる
  22. 意味の明確化の例:車両  例1)概念(分類)階層のみ  例2)概念の定義を追加 車両 -二輪車 -自動二輪 -自転車 -三輪車

    - … 車両 -二輪車 →車輪の数 =2 -自動二輪 →動力源 =エンジン -自転車 →動力源 =人 -三輪車 →車輪の数 =3 - … 各概念の意味の 違いは暗黙的 各概念の意味の違い が明示化される
  23. ナレッジグラフ推論チャレンジ  ナレッジグラフ推論チャレンジとは  AIシステムが判断に至った理由を説明できる(解釈可能性 を有する)AI技術に関する技術の普及と体系化を行うことを 目的とした技術コンテスト  開催履歴・変遷 

    2018~2022【ホームズ版】:国内版4回,国際版1回  シャーロック・ホームズの推理小説のナレッジグラフ(運営が提供)を 用いて「事件の真相を推理」し,その理由と共に説明する  2023~2024:生成AI時代のナレッジグラフ構築技術  言語モデルによる生成AIを用いたナレッジグラフ構築技術の開発  2022~2024【実社会版】:国内版1回,国際版1回  生活行動における安全・安心を題材に,動画とKGを双方を用いたタ スクを設定
  24. 推論チャレンジ【ホームズ版】  ナレッジグラフ推論チャレンジ(2018~)  シャーロック・ホームズのような“推理”(推論)ができる AIシステムの開発を目指した技術コンテスト  チャレンジのねらい  説明可能性(解釈可能性)を有するAI技術に関する最新技

    術の促進・共有と,その分析・評価,体系化を行う.  チャレンジの概要 ホームズ の推理小説 ナレッジグラフ(知識グラフ) としてデータ化 さまざまな知識/手法を用いて 事件の真相を推理し,理由を 説明するAIシステムの開発 捜査 手法 動機 DB …. 犯人はXX! なぜなら… 動機は… トリックは… 公式サイト→「推論チャレンジ」で検索
  25. 場面を表す知識グラフの構造 原文(英語/日本語) 絶対時間※小説内に基準日 時を設定している 主語・述語・目的語は全て 「リソース」として定義 →他の場面で同じ目的語を 参照可能 述語 主語

    他の場面 場面の種類(クラス)分け Scene:上位クラス -Situation:事実・状況の描写 -Statement:Aの発言 -Talk:AのBへの発言 -Thought:Aの考え 「推理小説」の内容 を,最小単位の 「場面(シーン)」に 分割して記述 知識グラフの公開ページ
  26. CC-BY4.0:人工知能学会セマンティクWebとオントロジー(SWO)研究会 開催概要 第1回ナレッジグラフ推論チャレンジ2018  対象ナレッジグラフ:まだらのひも  本部門,アイデア部門(実装不要)で応募開始 第2回ナレッジグラフ推論チャレンジ2019  対象ナレッジグラフを4つ追加

     ツール部門(部分的なタスクを解く)の導入 第3回ナレッジグラフ推論チャレンジ2020  対象ナレッジグラフ:既存の5つを洗練+・新規に3つ追加 第1回学生向け!ナレッジグラフ推論チャレンジ2021  対象ナレッジグラフ:既存の8つ KGR4XAIワークショップ The 1st International Workshop on Knowledge Graph Reasoning for Explainable Artificial Intelligence 2021) in IJCKG2021 58 応募作品 本部門 5 アイデア3 本部門 4 アイデア3 ツール 2 本部門 3 アイデア2 ツール 2 本部門 2 ツール 3 1. 犯人の推定 2.推定理由の説明 実施タスク
  27. CC-BY4.0:人工知能学会セマンティクWebとオントロジー(SWO)研究会 第1~3回の応募作品概要 2024/9/13 59 部門 (1)アプローチ (2)利用した外部知識 部門 (1)アプローチ (2)利用した外部知識

    部門 (1)アプローチ (2)利用した外部知識 本部門1 知識処理 独自に作成したルー ル等 本部門1 知識処理 +機械学習 小説の本文および, 独自に作成したルー ル,外部情報等 本部門1 機械学習 なし 本部門2 知識処理 独自に作成したオン トロジーおよび推論 規則 本部門2 機械学習 なし 本部門2 機械学習 ConceptNet 本部門3 機械学習 シャーロック・ホー ムズの他の小説本文 本部門3 機械学習 なし ツール 部門1 知識処理 なし 本部門4 知識処理 独自ルール(犯人推 定)およびオントロ ジー(動機) 本部門4 知識処理 (+機械学習) 独自作成のオントロ ジー,WordNet, Wikipedia ツール 部門2 知識処理 Wikidata 本部門5 知識処理 独自記述のルール ツール 1 機械学習 なし アイデ ア1 機械学習 WordNet アイデ ア1 ー なし ツール 2 ー なし アイデ ア2 知識処理 Wikidata,ICD-10 アイデ ア2 知識処理 独自記述の知識 ツール 3 知識処理 NRC Emotion / Affect Intensity Lexicon アイデ ア3 機械学習 なし アイデ ア3 知識処理 独自に作成したオン トロジー アイデア 1 機械学習 Wikipedia アイデア 2 機械学習 なし 第1回 第2回 第3回
  28. 講演内容  ナレッジグラフの基礎技術  ナレッジグラフとLinked Data,Linked Open Data(LOD)  ナレッジグラフとオントロジー

     ナレッジグラフの利用例  ナレッジグラフとLLMの相互利用  ISWC2023におけるLLMに関する動向  JSAI2024企画セッション‐生成AI時代のナレッジグラフ  ナレッジグラフとLLMの相互利用の形態  まとめ  参考文献
  29. Keynote講演 すべてのKeynoteが言語モデル/生成AIについて!!  Knowledge Graphs in the Age of Large

    Language Models, Gerhard Weikum  LLMはKGに取って代わるものではなく,LLMを用いたKG構築など, 補完的な利用が可能.それぞれの特徴を知るのが大事.  動画: https://videolectures.net/iswc2023_weikum_knowledge_graphs/  Semantic Web Research in the Age of Generative Artificial Intelligence, Deborah McGuinness  生成AIがセマンティックWeb・知識グラフ研究においてどのように利 用されるかを,多くの事例を通して紹介.  動画: https://videolectures.net/iswc2023_mc_guinness_web_research/  スライド:https://www.slideshare.net/deborahmcguinness/iswc2023mcguinnesstwc16x9finalshortpdf  ChatGLM: An Alternative to ChatGPT, Jie Tang  中国で構築した大規模言語モデの紹介.  スライド:http://keg.cs.tsinghua.edu.cn/jietang/publications/iswc23-chatglm.pdf
  30. LLMに関するセッション  Session 2A : Knowledge Engineering with Large Language

    Models  Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT family LLMs' Question Answering Performance Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen and Guilin Qi  LLMs4OL: Large Language Models for Ontology Learning Hamed Babaei Giglou, Jennifer D'Souza and Sören Auer  Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text Nandana Mihindukulasooriya, Sanju Tiwari, Carlos Enguix and Kusum Lata  ワークショップ  Knowledge Base Construction from Pre-Trained Language Models(LM-KBC),https://lm-kbc.github.io/ 知識検索への利用(KGQAとLLMを用いた検索の比較) LLMを用いた「オントロジー・ナレッジグラフの構築」
  31. JSAI2024企画セッション 生成AI時代のナレッジグラフ JSAI2024(2024年度 人工知能学会全国大会(第38回))にて実施  企画のねらい  ナレッジグラフに関わる研究者による講演、パネルディスカッ ションを通じて、ナレッジグラフと生成AIの関わり、それぞれ の活かしどころについて議論する

     セッション構成  趣旨説明(5分):古崎 晃司(大阪電気通信大学 教授)  招待講演(10分×5)  古崎 晃司 (大阪電気通信大学 教授)  福田 賢一郎(産業技術総合研究所 研究チーム長)  森田 武史 (青山学院大学 教授)  広田 航 (ストックマーク ユニットリーダー)  黒川 茂莉 (KDDI総合研究所 グループリーダー)  パネルディスカッション(45分):登壇者全員 司会:黒川 茂莉 発表資料・動画: https://challenge.knowledge-graph.jp/jsai2024/
  32. JSAI2024企画セッション 生成AI時代のナレッジグラフ  招待講演の枠組み  あなたにとっての生成AIとは?  あなたにとってのナレッジグラフとは?  ナレッジグラフと生成AIの関わり、それぞれの活かしどころ

     パネルディスカッションのトピック  と のシナジーの出し方をどう考えるか?  と がシナジーを出すためには、どういう課題 があるか?  と へのオープンまたはクローズドな情報の 取り込み方をどう考えるか?
  33. KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM

    for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する
  34. KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM

    for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する
  35. 調査した分野 インスタンス数 1 日本の大学 798 0.6% ~ 32.7% 2 日本の連載漫画

    368 16.0% 3 日本の俳優 2,019 0.0% ~ 26.8% 4 JR西日本、東日本の鉄道駅 2,736 0.1% ~ 15.9% 5 日本の文学作品 1,365 1.9% 6 日本の政治家 7,242 0.0% ~ 0.0% 7 J-POP 1,037 14.0% ~ 21.7% 8 川 1,325 1.7% ~ 4.5% 9 日本のアニメ映画 594 2.5% 10 山 683 0.1% ~ 1.3% 合計 18,167 一致率 ChatGPT3.5(2023年1月時点)での仮の比較結果 一致判定のアルゴリズムが 不完全であるものの… あまり良い結果は得られず GPT4・GPT4oで比較中… →大幅な性能向上をしている 傾向はあり Wikidataを用いたファクト情報 とChatGPTの回答の比較[大山04]
  36. KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM

    for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する
  37. LLMの外部知識としてKGを利用 :基本的な考え方  基本的な考え方  KGを用いた検索と,LLMを組み合わせて利用する  必要な技術要素→①~④ 質問文 KGで

    検索 質問文 の解析 LLMで 検索 最終回答 の生成 ①使用するKG ②KGの 検索方法 ③KG/LLMの 組み合わせ方法 ④使用するツール
  38. LLMの外部知識としてKGを利用 :①使用するKG  既存のKGを利用  LODとして公開されているKGを利用  Wikidata,DBpedia,各領域のKG,....  複数KG(LOD)から必要な知識を統合して利用

     独自のKGを構築  KGを直接,手作業で構築  既存のDBからKGの形式に変換  テキストからKGを抽出・構築  多数の研究があり →LLMを用いたKGの構築については後述  既存ツールの利用も可 KGを用いる目的 「どのような知識を得たいか?」 に応じて適切なKGの選択・構築が重要
  39. LLMの外部知識としてKGを利用 :②KGの検索方法  グラフ構造のパターン一致  SPARQL,Cypherなどグラフ検索用クエリ言語を使用  グラフ構造を扱うライブラリ等を用いて,グラフ構造を探索  グラフ構造を用いた計算処理を利用

     ノード間をつなぐリンク(エッジ)のパスのステップ数(=ノード 間の距離)など,グラフの構造に基づいた計算処理を利用  グラフ理論に基づく計算を利用  グラフのベクトル化(グラフ埋め込み)  グラフをベクトル化し,機械学習等を利用する  ベクトル化の方法は多数の提案があり  ベクトルの距離計算による類似判定,欠損したリンクの予測, などが行える 目的・用途に応じた検索方法の選択が重要
  40. LLMの外部知識としてKGを利用 :③KGとLLMの組み合わせ方法  KGとLLMの検索結果の比較  それぞれで検索した結果を比較し,最終回答を総合的に判定  KG検索では得られなかった言語表記ゆれをLLMで補完する  LLMの検索結果で不足する内容をKGで検索

     KGからプロンプトを生成  KGの検索結果をもとにプロンプトを生成しLLMに問い合わせ  KGの検索結果をテキスト表現をLLMで生成  ベクトル化して統合  KGの検索結果をベクトル化し,RAGによるテキスト検索やLLM への検索に利用 KGから得られる/得たい内容に応じた選択が重要 (ベクトル化は必須ではない)
  41. LLMの外部知識としてKGを利用 :④使用するツール  クエリ言語  SPARQL, Cypher, etc.  RDF利用ライブラリ

     Apache Jena  データベース  RDF DB: Apache Jena Fuseki, Virtuoso, GraphDB, etc  グラフDB: Neo4j, Amazon Neptune, etc.  Graph RAG  Langchain+Neo4j  Microsoft「GraphRAG」 , etc.  他にもGraph RAG対応したDBあり
  42. KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM

    for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する
  43. 応募作品例 推理小説KGの自動構築[堀田04] 97 提案手法 • 推理小説のKGにおける各場面の説明文 (日本語および英語)から,場面を構成 するトリプル(主語, 述語, 目的語の組)

    を生成 • 利用した言語モデル:Llama 2 • トリプルの生成に用いる制御用のプロン プトの条件となる要素を組み合わせ,計 84種類を比較 生成されたトリプルの評価 • 元KG(正解データ)との類似度をBERT で計算し,類似度0.82以上を正解と判定 • 最も正解率が高いプロンプトの正解率は, 全体:22.2% 主語:70.7% 述語:39.4% 目的語:34.3% 場面の説明文 (英語/日本語) 述語 主語 元KG(正解データ)の例
  44. 応募作品例:ChatGPTを用いた オントロジー自動構築[鈴木04] 対象とする最上位概念を入力すると,GPT-4 Turbo (OpenAIのAPIを利用)を用いたZero-shotのプロンプトに より,is-a階層(分類階層),および,それぞれの概念が 持つ関係性(スロット)を再帰的に生成 取得データ例 〇〇のsubclassを単語で列挙 フォーマット

    ・△△ ・△△ 必ず以下の条件を守ること 個数:〇個(ツールで指定) 〇〇に関連する内容であること is-aの構築に用いるプロンプト 例) 気候変動 入力 (1段目) 2段目以降 を再帰的 に入力 その他の 関係性 (スロット) の生成 オントロジー の出力 関係の種類ごと にプロンプトを 用意 温室効果ガス排出 気温上昇 極端な気象 海面上昇 氷河の融解 … is-a階層 を出力
  45. まとめ KGとLLMの相互利用のポイント  ナレッジグラフ(KG)  さまざまな「知識」の関係(つながり)をグラフ構造で表現  AIシステム開発(知識型)の基盤となるデータベース(知識 ベース)として用いられる 

    説明可能な根拠に基づく,正確な質問応答が可能  構築に要するコストが課題 → LLMを用いた構築が有望?  大規模言語モデル(LLM)  膨大なテキストから学習した言語モデル  自身が自然な対話を行い,一定の精度での質問応答が可能  ハルシネーションや回答の根拠の暗黙性に代表されるように, まだ必ずしも完全なものではない →KGから得られる内容と組み合わせが解決につながる? 両者を適切に使い分け・連携させることが重要
  46. 補足・私見  人・コミュニティによって, ナレッジグラフ(知識グラフ)の定義が異なる?  セマンティック(ウェブ)技術におけるKG  グラフDBにおけるKG?  KGを扱う技術も多様

     セマンティクス中心  グラフパターン  論理的な推論  グラフ構造中心  ベクトル化  KGの最大の利点  意味・根拠を明示できる  知識を明確に制御できる
  47. 参考文献  ナレッジグラフ推論チャレンジ https://challenge.knowledge-graph.jp/  Knowledge Graphs in the Age

    of Large Language Models, Gerhard Weikum https://videolectures.net/iswc2023_weikum_knowledge_graphs/  Semantic Web Research in the Age of Generative Artificial Intelligence, Deborah McGuinness https://videolectures.net/iswc2023_mc_guinness_web_research/ https://www.slideshare.net/deborahmcguinness/iswc2023mcguinnesstwc16x9finalshortpdf  [Yiming 03] Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen and Guilin Qi, Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT family LLMs' Question Answering Performance, Proc. ISWC2023, Part I, pp. 348-367, Athens, Greece, Nov. 2023.  [大山 04] 大山 陽和太, 知識グラフと大規模言語モデルのファクト情報に関する質問応答能力の比較, 大阪電気通信 大学情報通信工学部・情報工学科学・卒業論文,2024.  [脇所 04] 脇所 昂輝, Wikidataを用いた一問一答問題に対する解答生成パターンの分析と評価, 大阪電気通信大学 情報通信工学部・情報工学科学・卒業論文,2024.  [Nandana 03] Nandana Mihindukulasooriya, Sanju Tiwari, Carlos Enguix and Kusum Lata, Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text, Proc. ISWC2023, Part II, pp. 247-265, Athens, Greece, Nov. 2023.  [Hamed 03] Hamed Babaei Giglou, Jennifer D'Souza and Soren Auer, LLMs4OL: Large Language Models? for Ontology Learning, Proc. ISWC2023, Part I, pp. 408-427, Athens, Greece, Nov. 2023.  [堀田 04] 堀田将吾,ナレッジグラフ推論チャレンジ2023「推理小説部門」応募作品, https://challenge.knowledge- graph.jp/results/results2023.html, 2024.  [鈴木 04] 鈴木陽太,ナレッジグラフ推論チャレンジ2023「一般部門」応募作品, https://challenge.knowledge- graph.jp/results/results2023.html, 2024.  ISWCサーベイ会 https://www.sigswo.org/ISWC-Survey  JSAI2024企画セッション-生成AI時代のナレッジグラフ https://challenge.knowledge-graph.jp/jsai2024/