Slide 1

Slide 1 text

生成AIと知識グラフの相互利用 に基づく文書解析 大阪電気通信大学 情報通信工学部 情報工学科 古崎 晃司 [email protected] ASDoQ大会2024 2024年11月1日

Slide 2

Slide 2 text

自己紹介  コミュニティ活動 研究成果として 公開中のソフト  古崎(こざき)晃司 [email protected]  所属:大阪電気通信大学 情報通信工学部 情報工学科  専門: オントロジー工学(情報科学・人工知能)  研究テーマ:「オントロジー工学」と「LOD(Linked Open Data)・ 知識グラフ」を基盤とした「セマンティック(意味処理)技術」 によるAIシステムの開発 「ナレッジグラフ」を用いたAI技術開発のコンテスト http://challenge.knowledge-graph.jp/ オープンデータ活用のコンテスト http://lodc.jp

Slide 3

Slide 3 text

本講演のねらい・立場  背景  生成AI(LLM)×ナレッジグラフ(KG)の連携への注目  例)Graph RAG:LLMへの問い合わせに用いる外部データ としてナレッジグラフを利用する  本講演のねらい  知識グラフ(ナレッジグラフ・KG)の基本的な考え方・ 技術の概要を示す  知識グラフを用いた文書解析の例示  知識グラフと生成AIの相互利用の方向性の検討  本講演の立場  セマンティック(ウェブ)技術の観点からのKGを紹介  グラフデータベースの観点や実装詳細については述べない

Slide 4

Slide 4 text

講演内容  知識グラフの基礎技術  知識グラフを用いた文書解析  知識グラフとLLM(生成AI)の相互利用  まとめ  参考文献

Slide 5

Slide 5 text

ナレッジグラフ(知識グラフ) の基礎技術

Slide 6

Slide 6 text

知識グラフ(ナレッジグラフ)  知識グラフとは  さまざまな「知識」の関係(つながり)をグラフ構造で表したもの.  知的システム開発の基盤となる データベース(知識ベース)として 用いられる.  知識グラフの例  Linked Data(2007-)  Web技術に基づいて公開 された知識グラフ  Linked Open Data(LOD)  オープンデータとしてLinked Data  オープンな知識グラフと言える.  Google Knowledge Graph(2012-)  他の企業でも知識グラフの構築が盛んに… LOD Cloud Google Knowledge Graph (単なる)グラフデータとの違い

Slide 7

Slide 7 text

ナレッジグラフのイメージ (Google Knowledge Graphの動画より) https://www.youtube.com/watch?v=mmQl6VGvX-c

Slide 8

Slide 8 text

Google Knowledge Graphの検索例 ナレッジパネル 分類 属性

Slide 9

Slide 9 text

Google Knowledge Graphの検索例 検索結果の 「分類」に応じてナ レッジパネルの 表示項目や形式 が異なる

Slide 10

Slide 10 text

Google Knowledge Graphの検索例 関連する項目の ナレッジパネルへ のリンクを介して 関係をたどれる

Slide 11

Slide 11 text

LOD(Linked Open Data)  Linked Data  Webの仕組みを用いてデータを“リンク”することによ り,「データの新たな価値の創出」をめざした技術  LOD(Linked Open Data)  オープンデータ(誰でも自由に利用可能なデータ)を Linked Dataとして公開したもの.  この10年で多くのLODが公開されている 2024/11/1 12 Linking Open Data cloud diagram,http://lod-cloud.net/ 2007/5 12データセット 2017/2 1,139データセット

Slide 12

Slide 12 text

大学 大阪電気 通信大学 分類 1941年 設立日 寝屋川市 日本 位置する行政区 国 日本 国 位置する行政区 リソース: URIで表される事物 プロパティ: リソース間(もしくはリ ソースとリテラル間)の 関係を表す リテラル :文字列 主語 述語 目的語 トリプル(3つ組み)でグラフ構造を表現 RDF (Resource Description Framework) ナレッジグラフ記述のデータモデルを提供するW3C標準の技術仕様 大阪府 http://www.wikidata.org/entity/Q7105556(大阪電気通信大学) に関するナレッジグラフの一部(Wikidataより) SPARQL(RDFを検索するクエリ言語)など,Web上でナレッジグラフ を公開・利用する様々な技術仕様がW3Cから公開されてる 13 Linked Data(ナレッジグラフ) のRDF表現

Slide 13

Slide 13 text

RDFではすべてのデータがIRIで表現されるため, 「IRIによるデータへのアクセス」や 「データセットを横断したリンク」が可能 14 Linked Data(ナレッジグラフ) のRDF表現

Slide 14

Slide 14 text

LOD公開の世界的なひろがり ~LODクラウド~ 2020-05-20 (1,255データセット) http://lod-cloud.net/

Slide 15

Slide 15 text

日本語で使えるLODの例 eStat 統計LOD 国立国会図書館LOD DBpedia Wikidata JapanSearch メディア芸術データベース・ラボ

Slide 16

Slide 16 text

知識グラフの例:Wikidata • ウィキメディア財団が運営する Wikipediaの「データ版」 • 現在,約1億項目 • Wikipediaと同じようにデータを コミュニティで編集,公開できる • API(SPARQLエンドポイント)や 各種検索ツールなども提供 http://wikidata.org/ (ウィキデータ) 参考 英語版Wikipedia 670万記事 日本語版Wikipedia 140万記事 日本国語大辞典 50万項目 LODとして公開されている

Slide 17

Slide 17 text

WikipediaからWikidataへ Wikipediaの各記事から 対応する Wikidata項目へのリンク

Slide 18

Slide 18 text

Wikidataのデータ例(1/3) Wikidataにおいて 「大阪電気通信大学(Q7105556)」にアクセスした例 https://www.wikidata.org/wiki/Q7105556 さまざまな言語での 「ラベル」,「概要説明」,「別名」 Wikidata上のID :Q****の形式ですべてのデータIDが付けられている

Slide 19

Slide 19 text

Wikidataのデータ例(2/3) 述 語 (プ ロ パ テ ィ ) 目 的 語 (オ ブ ジ ェ ク ト ) 他のリソース へのリンク

Slide 20

Slide 20 text

Wikidataのデータ例(3/3) Wikidataにおける「分類」は instance-ofという述語で表 される リンク先でIDが分かる

Slide 21

Slide 21 text

Wikidataの検索 Wikidataの 「検索サービス」 へのリンク

Slide 22

Slide 22 text

Wikidataの検索画面 クエリの入力欄 クエリの入力補助 クエリ例選択 https://query.wikidata.org/ SPARQLによる検索が可能 (一部,独自拡張がされている)

Slide 23

Slide 23 text

Wikidataにおけるクエリの例 例から 「猫(画像付き)」 を選択した際の検索結果

Slide 24

Slide 24 text

Wikidataにおけるクエリの例 #猫(画像付き) #defaultView:ImageGrid SELECT ?item ?itemLabel ?pic WHERE { ?item wdt:P31 wd:Q146 . ?item wdt:P18 ?pic SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" } } 「分類(instance-of)」 のID 「猫」のID この例のクエリから IDを変更すること で様々な分類の 画像を検索できる

Slide 25

Slide 25 text

複雑な検索例 Wikidataを用いたランキング  「日本の政治家の出身都道府県」ランキング →実行結果 SELECT ?pref ?prefLabel (count(?s) As ?c) WHERE { ?pref wdt:P31 wd:Q50337; #分類=都道府県 wdt:P429 ?code. #全国地方公共団体コード ?s wdt:P27 wd:Q17; #国籍=日本 wdt:P106 wd:Q82955; #職業=政治家 wdt:P19/wdt:P131* ?pref. #出身 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } GROUP BY ?pref ?prefLabel ORDER BY DESC(?c)

Slide 26

Slide 26 text

Wikidataでの検索結果(2024/9/12時点)

Slide 27

Slide 27 text

複雑な検索例 Wikidataを用いたランキング  「日本の総理大臣の出身都道府県」ランキング →実行結果 SELECT ?pref ?prefLabel (count(?s) As ?c) WHERE { ?pref wdt:P31 wd:Q50337; #分類=都道府県 wdt:P429 ?code. #全国地方公共団体コード ?s wdt:P27 wd:Q17; #国籍=日本 wdt:P106 wd:Q82955; #職業=政治家 wdt:P39 wd:Q274948; #公職=内閣総理大臣 wdt:P19/wdt:P131* ?pref. #出身 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } GROUP BY ?pref ?prefLabel ORDER BY DESC(?c) この1行を 追加する

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

知識グラフとオントロジー

Slide 30

Slide 30 text

「分類」の必要性 例)Wikidataで「大阪」 を検索すると... 「分類」を見る ことで, どの「大阪」が 欲しいエンティ ティか分かる

Slide 31

Slide 31 text

知識グラフのモデリング  KGを有効活用するには,KGのモデリング・設計を適切 に行うことが重要  使用するエンティティやプロパティの「種類」の統一 →エンティティ・プロパティの「分類(階層)」を用意して, それらを用いてKGを表現する  どのような「知識」をどのような「グラフ構造」で表現するか? →KGで表現するグラフ構造の「記述の仕方,制約など」 の仕様を明確にし,それに従って表現する これらのKGの表現に関する規約を 「オントロジー」で定義する

Slide 32

Slide 32 text

知識グラフとオントロジー  オントロジー  「対象世界をどのように捉えたか?(概念化したか)」 を計算機と人間が共有できる形で明確化・体系化し たもの  ナレッジグラフ/Linked Dataにおいては, 「知識グラフの記述に用いる語彙(分類や関係の 種類など)」を提供する  概念の共通性と相違点を明確にする  統一した語彙を用いることで,知識グラフの意味が明 確になると共に,知識の統合・相互利用が可能となる

Slide 33

Slide 33 text

Wikidataにおけるオントロジー https://oecu-kozaki-lab.github.io/RdfTree/rdftree/ Wikidataにおけるクラス階層の例 Wikidataの階層表示 ツール (古崎研で開発) を用いた表示例

Slide 34

Slide 34 text

Wikidataにおけるオントロジー https://www.wikidata.org/wiki/Wikidata:List_of_properties データの種類ごとに「利用可能なプロパティ」が定義されている

Slide 35

Slide 35 text

知識グラフを用いた文書解析

Slide 36

Slide 36 text

知識グラフを用いた文書分析  分析の手順  1.知識グラフと文書の対応づけ  用語単位の対応 →エンティティ・リンキング  関係単位の対応 →関係抽出  グラフ構造との対応→グラフ抽出  ...  2.対応する知識グラフの構造から意味を解釈  知識グラフが表す意味(用語の分類,概念定義,関係 の種類…)を利用  グラフのネットワーク構造(パスの距離など)の利用  グラフエンベディング(ベクトル化)の利用  ...

Slide 37

Slide 37 text

知識グラフを用いたQAシステム ウィキデータを用いたKGQA (Knowledge Graph Question Answering) ウィキデータ ウィキデータのように 「知識」をみんなで編集 できる知識ベース 「天気の子」 の監督は? 「新海誠」です 「大阪電気通信大学」 の所在地は? 「寝屋川市」です DEMO

Slide 38

Slide 38 text

Wikidataを用いたQAシステムの 解答例

Slide 39

Slide 39 text

DBpediaを用いたWikipedia記事 の関係性の分析・可視化 2024/11/1 41 https://oecu-kozaki-lab.github.io/AnimalLinks/jp-link(before).html Wikipedia記事の「リンク先」と なる用語(エンティティ)の分類 を分析・可視化する

Slide 40

Slide 40 text

LinkedSDGs https://linkedsdg.officialstatistics.org/ SDGsについての知識グラフ に基づいて,文書を分析する

Slide 41

Slide 41 text

LinkedSDGsによる分析例

Slide 42

Slide 42 text

オントロジーに基づく知識グラフの生成 によるオンライン議論支援 1. 気候変動に関する知識を体系化したオントロジーを構築 2. オンライン議論システム(掲示板)に入力された内容とオントロ ジーに登録された知識(用語)を対応付け 3. 対応付けされた知識(用語)を起点としてオントロジーで定義され た概念構造(知識の関連)を探索し,知識グラフを生成・可視化 熟議システム との対応づけ 知識グラフを 生成・可視化 オントロジーを構築

Slide 43

Slide 43 text

オントロジーに基づく 知識グラフの生成・可視化 https://oecu-kozaki-lab.github.io/SPARQL2VISmap/SP2VIS.html(仮公開) 入力した情報との 対応付け クリックした用語を 起点とした知識グラフの生成 使用するオントロジー ・生成方法の切り替え

Slide 44

Slide 44 text

ナレッジグラフ推論チャレンジ 2024/11/1 46 「ホームズ」 の小説 「知識グラフ」としてデータ化 犯人はXX! なぜなら… 動機は… トリックは… 捜査 手法 動機 DB …. さまざまな「知識」を用いて犯人を推理し その理由を説明するAIシステムの開発 ナレッジグラフ 推論チャレンジ シャーロック・ホームズの ような“推理”(推論)がで きるAIシステムの開発を 目指した技術コンテスト 可視化

Slide 45

Slide 45 text

推理小説KGの構築過程 「ちょうど二年前に。実はお話ししたいのも、この姉の死についてでございます。 ご想像つくかと存じますが、このような暮らしですので、同世代同身分の人とは なかなか付き合いが難しく。けれども、母の妹に当たるホノーリア・ウェスト ファイルという叔母がハロウの近くに住んでおりまして、父もここを訪ねること だけは許してくださいます。ジュリアは二年前のクリスマスにそこへ参りまして、 休職中の海軍少佐の方と出会い、婚約の運びとなったのでございます。父はこの 婚約を知っても別段何も文句を申しませんでしたが、式の日取りの二週間前に、 あの恐ろしい事件のために、わたくしはたったひとりの姉を失ってしまったので す。」 推理小説の原文 1 原文から推理に必要な部分を抽出 原文を主語や目的語が明確な文(短文)に変更 主語や述語,目的語(5W1Hなど)を同定

Slide 46

Slide 46 text

場面を表す知識グラフの構造 原文(英語/日本語) 絶対時間※小説内に基準日 時を設定している 主語・述語・目的語は全て 「リソース」として定義 →他の場面で同じ目的語を 参照可能 述語 主語 他の場面 場面の種類(クラス)分け Scene:上位クラス -Situation:事実・状況の描写 -Statement:Aの発言 -Talk:AのBへの発言 -Thought:Aの考え 「推理小説」の内容 を,最小単位の 「場面(シーン)」に 分割して記述 知識グラフの公開ページ

Slide 47

Slide 47 text

推理小説KGの可視化例 http://knowledge-graph.jp/visualization/

Slide 48

Slide 48 text

知識グラフとLLM(生成AI) の相互利用

Slide 49

Slide 49 text

Three pillars of “Machine Knowledge” Gerhard Weikum氏のISWC2023キーノート講演より https://videolectures.net/iswc2023_weikum_knowledge_graphs/

Slide 50

Slide 50 text

JSAI2024企画セッション 生成AI時代のナレッジグラフ JSAI2024(2024年度 人工知能学会全国大会(第38回))にて実施  企画のねらい  ナレッジグラフに関わる研究者による講演、パネルディスカッ ションを通じて、ナレッジグラフと生成AIの関わり、それぞれ の活かしどころについて議論する  セッション構成  趣旨説明(5分):古崎 晃司(大阪電気通信大学 教授)  招待講演(10分×5)  古崎 晃司 (大阪電気通信大学 教授)  福田 賢一郎(産業技術総合研究所 研究チーム長)  森田 武史 (青山学院大学 教授)  広田 航 (ストックマーク ユニットリーダー)  黒川 茂莉 (KDDI総合研究所 グループリーダー)  パネルディスカッション(45分):登壇者全員 司会:黒川 茂莉 発表資料・動画: https://challenge.knowledge-graph.jp/jsai2024/

Slide 51

Slide 51 text

JSAI2024企画セッション 生成AI時代のナレッジグラフ  招待講演の枠組み  あなたにとっての生成AIとは?  あなたにとってのナレッジグラフとは?  ナレッジグラフと生成AIの関わり、それぞれの活かしどころ  パネルディスカッションのトピック  と のシナジーの出し方をどう考えるか?  と がシナジーを出すためには、どういう課題 があるか?  と へのオープンまたはクローズドな情報の 取り込み方をどう考えるか?

Slide 52

Slide 52 text

JSAI2024企画セッション 生成AI時代のナレッジグラフ 企画セッションスライドより:https://challenge.knowledge-graph.jp/jsai2024/ →自然言語・対話インターフェース, 常識知識・平均的な知識,発想・連想...

Slide 53

Slide 53 text

JSAI2024企画セッション 生成AI時代のナレッジグラフ 企画セッションスライドより:https://challenge.knowledge-graph.jp/jsai2024/ →知識共有基盤,構造化された知識, ファクト・事実に基づいた知識,...

Slide 54

Slide 54 text

KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する

Slide 55

Slide 55 text

KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する

Slide 56

Slide 56 text

KG(Wikidata)へのQAとLLMの比較 ChatGPTに 同じ質問をすると? ×枚方市には無い ChatGPT 4o mini (2024/9/9に確認)

Slide 57

Slide 57 text

KG(Wikidata)へのQAとLLMの比較 〇寝屋川・四條畷 キャンパスがある ChatGPT 4o (2024/9/9に確認) ChatGPT 4 (2024/9/9に確認) ×駅前キャンパスは 廃止された 〇寝屋川は正しい ×守口市にはない

Slide 58

Slide 58 text

Wikdiataによるファクトチェック Deborah McGuinness氏のISWC2023キーノート講演スライドより 動画: https://videolectures.net/iswc2023_mc_guinness_web_research/ スライド:https://www.slideshare.net/deborahmcguinness/iswc2023mcguinnesstwc16x9finalshortpdf

Slide 59

Slide 59 text

KGQAとLLMを用いた検索の比較 様々な大規模言語モデ ルを「知識ベースに基づ く質問応答(KBQA)」に 適用し性能評価 [Yiming 03]

Slide 60

Slide 60 text

KGQAとLLMを用いた検索の比較 評価結果は,F1スコアで0.5~0.9,ACCで0.2~0.9など ※より詳細な条件での評価・考察は論文を参照 [Yiming 03]

Slide 61

Slide 61 text

Wikidataを用いたファクト情報 とChatGPTの回答の比較[大山04] Wikidataでの検索結果 と ChatGPTの回答を比較

Slide 62

Slide 62 text

調査した分野 インスタンス数 1 日本の大学 798 0.6% ~ 32.7% 2 日本の連載漫画 368 16.0% 3 日本の俳優 2,019 0.0% ~ 26.8% 4 JR西日本、東日本の鉄道駅 2,736 0.1% ~ 15.9% 5 日本の文学作品 1,365 1.9% 6 日本の政治家 7,242 0.0% ~ 0.0% 7 J-POP 1,037 14.0% ~ 21.7% 8 川 1,325 1.7% ~ 4.5% 9 日本のアニメ映画 594 2.5% 10 山 683 0.1% ~ 1.3% 合計 18,167 一致率 ChatGPT3.5(2023年1月時点)での仮の比較結果 一致判定のアルゴリズムが 不完全であるものの… あまり良い結果は得られず GPT4・GPT4oで比較中… →大幅な性能向上をしている 傾向はあり Wikidataを用いたファクト情報 とChatGPTの回答の比較[大山04]

Slide 63

Slide 63 text

調査した分野 インスタンス数 1 日本の大学 798 0.6% ~ 32.7% 2 日本の連載漫画 368 16.0% 3 日本の俳優 2,019 0.0% ~ 26.8% 4 JR西日本、東日本の鉄道駅 2,736 0.1% ~ 15.9% 5 日本の文学作品 1,365 1.9% 6 日本の政治家 7,242 0.0% ~ 0.0% 7 J-POP 1,037 14.0% ~ 21.7% 8 川 1,325 1.7% ~ 4.5% 9 日本のアニメ映画 594 2.5% 10 山 683 0.1% ~ 1.3% 合計 18,167 一致率 ChatGPT3.5(2023年1月時点)での仮の比較結果 一致判定のアルゴリズムが 不完全であるものの… あまり良い結果は得られず GPT4・GPT4oで比較中… →大幅な性能向上をしている 傾向はあり Wikidataを用いたファクト情報 とChatGPTの回答の比較[大山04]

Slide 64

Slide 64 text

調査した分野 インスタンス数 1 日本の大学 798 0.6% ~ 32.7% 2 日本の連載漫画 368 16.0% 3 日本の俳優 2,019 0.0% ~ 26.8% 4 JR西日本、東日本の鉄道駅 2,736 0.1% ~ 15.9% 5 日本の文学作品 1,365 1.9% 6 日本の政治家 7,242 0.0% ~ 0.0% 7 J-POP 1,037 14.0% ~ 21.7% 8 川 1,325 1.7% ~ 4.5% 9 日本のアニメ映画 594 2.5% 10 山 683 0.1% ~ 1.3% 合計 18,167 一致率 ChatGPT3.5(2023年1月時点)での仮の比較結果 一致判定のアルゴリズムが 不完全であるものの… あまり良い結果は得られず GPT4・GPT4oで比較中… →大幅な性能向上をしている 傾向はあり Wikidataを用いたファクト情報 とChatGPTの回答の比較[大山04] OpenAIのAPI(GPT3.5turbo) での再比較の結果[再検証中] 【一致率】 設立日: 0.50% 都道府県: 73.41% 市町村: 32.44%

Slide 65

Slide 65 text

参考:GPT3.5の回答分析 講義を受講した学生に「ChatGPT3.5に対する自由な 質問(ファクトを問うものを意識して)」の回答の正誤を 判定するアンケートをした結果

Slide 66

Slide 66 text

Wikidataを用いたKGQAと ChatGPTの回答を比較[脇所04] WikidataによるKGQA 一問一答のクイズ問題(※)を用いた回答の比較結果 ※AI王 〜クイズAI日本一決定戦〜(https://sites.google.com/view/project-aio/home) の問題から200問を利用.問題は,日本語Wikipediaをもとに作成されている. 人間が問題文を読んでWikidataから 正解を得るクエリ例が作成できたもの

Slide 67

Slide 67 text

KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する 今回は省略

Slide 68

Slide 68 text

LLMの外部知識としてKGを利用 :基本的な考え方 Graph RAGで検索すると...

Slide 69

Slide 69 text

LLMの外部知識としてKGを利用 :基本的な考え方  基本的な考え方  KGを用いた検索と,LLMを組み合わせて利用する  必要な技術要素→①~④ 質問文 KGで 検索 質問文 の解析 LLMで 検索 最終回答 の生成 ①使用するKG ②KGの 検索方法 ③KG/LLMの 組み合わせ方法 ④使用するツール

Slide 70

Slide 70 text

LLMの外部知識としてKGを利用 :①使用するKG  既存のKGを利用  LODとして公開されているKGを利用  Wikidata,DBpedia,各領域のKG,....  複数KG(LOD)から必要な知識を統合して利用  独自のKGを構築  KGを直接,手作業で構築  既存のDBからKGの形式に変換  テキストからKGを抽出・構築  多数の研究があり →LLMを用いたKGの構築については後述  既存ツールの利用も可 KGを用いる目的 「どのような知識を得たいか?」 に応じて適切なKGの選択・構築が重要

Slide 71

Slide 71 text

LLMの外部知識としてKGを利用 :②KGの検索方法  グラフ構造のパターン一致  SPARQL,Cypherなどグラフ検索用クエリ言語を使用  グラフ構造を扱うライブラリ等を用いて,グラフ構造を探索  グラフ構造を用いた計算処理を利用  ノード間をつなぐリンク(エッジ)のパスのステップ数(=ノード 間の距離)など,グラフの構造に基づいた計算処理を利用  グラフ理論に基づく計算を利用  グラフのベクトル化(グラフ埋め込み)  グラフをベクトル化し,機械学習等を利用する  ベクトル化の方法は多数の提案があり  ベクトルの距離計算による類似判定,欠損したリンクの予測, などが行える 目的・用途に応じた検索方法の選択が重要

Slide 72

Slide 72 text

LLMの外部知識としてKGを利用 :③KGとLLMの組み合わせ方法  KGとLLMの検索結果の比較  それぞれで検索した結果を比較し,最終回答を総合的に判定  KG検索では得られなかった言語表記ゆれをLLMで補完する  LLMの検索結果で不足する内容をKGで検索  KGからプロンプトを生成  KGの検索結果をもとにプロンプトを生成しLLMに問い合わせ  KGの検索結果をテキスト表現をLLMで生成  ベクトル化して統合  KGの検索結果をベクトル化し,RAGによるテキスト検索やLLM への検索に利用 KGから得られる/得たい内容に応じた選択が重要 (ベクトル化は必須ではない)

Slide 73

Slide 73 text

LLMの外部知識としてKGを利用 :④使用するツール  クエリ言語  SPARQL, Cypher, etc.  RDF利用ライブラリ  Apache Jena  データベース  RDF DB: Apache Jena Fuseki, Virtuoso, GraphDB, etc  グラフDB: Neo4j, Amazon Neptune, etc.  Graph RAG  Langchain+Neo4j  Microsoft「GraphRAG」 , etc.  他にもGraph RAG対応したDBあり

Slide 74

Slide 74 text

KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較 例)KGQAとの比較  LLM for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報(Fact)を言語モデルが生成した内容と比較する 例)Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用 例)Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの(自動)構築(支援)  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成,KGの結果を文章化などにLLMを利用する

Slide 75

Slide 75 text

生成AIによる知識グラフの文章化 2024/11/1 78 https://oecu-kozaki-lab.github.io/SPARQL2VISmap/SP2VIS.html?edit

Slide 76

Slide 76 text

GPT4oによる文章の生成結果 GPT4oによる文章の生成結果

Slide 77

Slide 77 text

GPT4oによる文章の生成結果 2024/11/1 80 GPT4oによる文章の生成結果 用水 , "subClassOf" , 水資源 用水 , 対象 , 水 用水 , 不足原因 , 渇水 渇水 , "subClassOf" , 環境問題 渇水 , 原因 , 少雨 渇水 , 原因 , 地球の平均気温の上昇 渇水 , 原因 , 湖面の蒸発量の増加 渇水 , 対象及び状態 , 河川の流量の減少 渇水 , 対象及び状態 , 水路の流量の減少 渇水 , 対象及び状態 , 湖の水位の低下 渇水 , 影響対象 , 用水 渇水 , 影響対象 , 産物 渇水 , 影響対象 , 水洗トイレ 渇水 , 影響対象 , 農作物 ...

Slide 78

Slide 78 text

LLMを用いたKGの構築 LLMを用いて,テキストからオントロジーに基づいた知識グラ フを構築する枠組みを構築し,このタスクについて評価する のベンチマークデータを提供 [Nandana 03]

Slide 79

Slide 79 text

構築したKGの評価例 各オントロジーごとに,構築したナレッジグラフを評価した例 [Nandana 03]

Slide 80

Slide 80 text

LLMを利用したオントロジー学習 (=オントロジーの自動構築) 9つのLLMに対して,Zero-Shot プロンプティングを行い「用語の分類・ 分類の発見・非分類関係の抽出」という主要なOLタスクに関して評価 [Hamed 03]

Slide 81

Slide 81 text

LLMを利用したオントロジー学習 (=オントロジーの自動構築) 各タスクについて,既存のオントロジーを対象にして評価[Hamed 03] →このタスクへのチャレンジ企画をISWC2024において開催

Slide 82

Slide 82 text

ナレッジグラフ推論チャレンジ ~生成AI時代のナレッジグラフ構築技術~ 推理小説部門 これまでの推論チャレンジで構築・公開してきた「シャー ロックホームズの小説を対象としたナレッジグラフ」と 『同等のもの』もしくは『より高品質なもの』を構築する 一般部門 対象領域を問わない任意のナレッジグラフを構築 グラフ構造で表された様々な知識(ナレッジグラフ)を幅 広く対象 「ホームズ」の小説 場面の流れを表した「ナレッジグラフ」 ナレッジグラフ推論チャレンジ2023,2024(募集中)は, 生成AIを用いた知識グラフ生成をテーマとして実施

Slide 83

Slide 83 text

応募作品例 推理小説KGの自動構築[堀田04] 86 提案手法 • 推理小説のKGにおける各場面の説明文 (日本語および英語)から,場面を構成 するトリプル(主語, 述語, 目的語の組) を生成 • 利用した言語モデル:Llama 2 • トリプルの生成に用いる制御用のプロン プトの条件となる要素を組み合わせ,計 84種類を比較 生成されたトリプルの評価 • 元KG(正解データ)との類似度をBERT で計算し,類似度0.82以上を正解と判定 • 最も正解率が高いプロンプトの正解率は, 全体:22.2% 主語:70.7% 述語:39.4% 目的語:34.3% 場面の説明文 (英語/日本語) 述語 主語 元KG(正解データ)の例

Slide 84

Slide 84 text

推理小説KGの構築過程 「ちょうど二年前に。実はお話ししたいのも、この姉の死についてでございます。 ご想像つくかと存じますが、このような暮らしですので、同世代同身分の人とは なかなか付き合いが難しく。けれども、母の妹に当たるホノーリア・ウェスト ファイルという叔母がハロウの近くに住んでおりまして、父もここを訪ねること だけは許してくださいます。ジュリアは二年前のクリスマスにそこへ参りまして、 休職中の海軍少佐の方と出会い、婚約の運びとなったのでございます。父はこの 婚約を知っても別段何も文句を申しませんでしたが、式の日取りの二週間前に、 あの恐ろしい事件のために、わたくしはたったひとりの姉を失ってしまったので す。」 推理小説の原文 1 原文から推理に必要な部分を抽出 原文を主語や目的語が明確な文(短文)に変更 主語や述語,目的語(5W1Hなど)を同定

Slide 85

Slide 85 text

推理小説KGの構築過程 「ちょうど二年前に。実はお話ししたいのも、この姉の死についてでございます。 ご想像つくかと存じますが、このような暮らしですので、同世代同身分の人とは なかなか付き合いが難しく。けれども、母の妹に当たるホノーリア・ウェスト ファイルという叔母がハロウの近くに住んでおりまして、父もここを訪ねること だけは許してくださいます。ジュリアは二年前のクリスマスにそこへ参りまして、 休職中の海軍少佐の方と出会い、婚約の運びとなったのでございます。父はこの 婚約を知っても別段何も文句を申しませんでしたが、式の日取りの二週間前に、 あの恐ろしい事件のために、わたくしはたったひとりの姉を失ってしまったので す。」 推理小説の原文 1 原文から推理に必要な部分を抽出 原文を主語や目的語が明確な文(短文)に変更 主語や述語,目的語,5W1Hなどを同定 [堀田04]では,3のステップのうち 「主語」「述語」「目的語」の同定に限定し て実施 →小説の原文からのKG構築は, 難易度がさらに高くなる

Slide 86

Slide 86 text

応募作品例:ChatGPTを用いた オントロジー自動構築[鈴木04] 対象とする最上位概念を入力すると,GPT-4 Turbo (OpenAIのAPIを利用)を用いたZero-shotのプロンプトに より,is-a階層(分類階層),および,それぞれの概念が 持つ関係性(スロット)を再帰的に生成 取得データ例 〇〇のsubclassを単語で列挙 フォーマット ・△△ ・△△ 必ず以下の条件を守ること 個数:〇個(ツールで指定) 〇〇に関連する内容であること is-aの構築に用いるプロンプト 例) 気候変動 入力 (1段目) 2段目以降 を再帰的 に入力 その他の 関係性 (スロット) の生成 オントロジー の出力 関係の種類ごと にプロンプトを 用意 温室効果ガス排出 気温上昇 極端な気象 海面上昇 氷河の融解 … is-a階層 を出力

Slide 87

Slide 87 text

自動構築したオントロジーの例 入力単語:気候変動 - is-a階層の構築設:深さ3・幅15 - 得れた下位概念:231 - 得られた関係性(スロット):5218個

Slide 88

Slide 88 text

自動構築したオントロジーの例 提案手法の評価: ‐具体的な構築事例として, 気候変動,食品,家具の3種類のオントロジーを構築 ‐気候の専門家を含む被験者によるアンケート評価により, 構築されたオントロジーの妥当性を評価 ‐ is-a階層:気候変動は約10%,食品と家具は80-100% ‐ 関係性(スロット):いずれの事例についても,80-90%

Slide 89

Slide 89 text

まとめ KGとLLMの相互利用のポイント  知識グラフ/ナレッジグラフ(KG)  さまざまな「知識」の関係(つながり)をグラフ構造で表現  AIシステム開発(知識型)の基盤となるデータベース(知識 ベース)として用いられる  説明可能な根拠に基づく,正確な質問応答が可能  構築に要するコストが課題 → LLMを用いた構築が有望?  大規模言語モデル(LLM)  膨大なテキストから学習した言語モデル  自身が自然な対話を行い,一定の精度での質問応答が可能  ハルシネーションや回答の根拠の暗黙性に代表されるように, まだ必ずしも完全なものではない →KGから得られる内容と組み合わせが解決につながる? 両者を適切に使い分け・連携させることが重要

Slide 90

Slide 90 text

ナレッジグラフ推論チャレンジ2024 ー生成AI時代のナレッジグラフ構築技術ー 応募締切:2024/12/31 詳細は「推論チャレンジ」で検索 https://challenge.knowledge-graph.jp/2024/

Slide 91

Slide 91 text

https://wakate.knowledge-graph.jp/

Slide 92

Slide 92 text

参考文献  知識グラフとオントロジーによるAIシステムの開発,古崎 晃司 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review, 2024, 18 巻, 2 号, p. 123-136, 2024 https://www.jstage.jst.go.jp/article/essfr/18/2/18_123/_article/-char/ja  ナレッジグラフ推論チャレンジ https://challenge.knowledge-graph.jp/  [Yiming 03] Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen and Guilin Qi, Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT family LLMs' Question Answering Performance, Proc. ISWC2023, Part I, pp. 348-367, Athens, Greece, Nov. 2023.  [大山 04] 大山 陽和太, 知識グラフと大規模言語モデルのファクト情報に関する質問応答能力の比較, 大阪 電気通信大学情報通信工学部・情報工学科学・卒業論文,2024.  [脇所 04] 脇所 昂輝, Wikidataを用いた一問一答問題に対する解答生成パターンの分析と評価, 大阪電気 通信大学情報通信工学部・情報工学科学・卒業論文,2024.  [Nandana 03] Nandana Mihindukulasooriya, Sanju Tiwari, Carlos Enguix and Kusum Lata, Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text, Proc. ISWC2023, Part II, pp. 247-265, Athens, Greece, Nov. 2023.  [Hamed 03] Hamed Babaei Giglou, Jennifer D'Souza and Soren Auer, LLMs4OL: Large Language Models? for Ontology Learning, Proc. ISWC2023, Part I, pp. 408-427, Athens, Greece, Nov. 2023.  [堀田 04] 堀田将吾,ナレッジグラフ推論チャレンジ2023「推理小説部門」応募作品, https://challenge.knowledge-graph.jp/results/results2023.html, 2024.  [鈴木 04] 鈴木陽太,ナレッジグラフ推論チャレンジ2023「一般部門」応募作品, https://challenge.knowledge-graph.jp/results/results2023.html, 2024.  JSAI2024企画セッション-生成AI時代のナレッジグラフ https://challenge.knowledge-graph.jp/jsai2024/