生成AIと知識グラフの相互利用に基づく文書解析

生成AIと知識グラフの相互利用に基づく文書解析大阪電気通信大学情報通信工学部情報工学科古崎晃司 [email protected] ASDoQ大会2024 2024年11月1日

自己紹介  コミュニティ活動研究成果として公開中のソフト  古崎（こざき）晃司 [email protected]  所属：大阪電気通信大学
情報通信工学部情報工学科  専門：オントロジー工学（情報科学・人工知能）  研究テーマ：「オントロジー工学」と「LOD（Linked Open Data）・知識グラフ」を基盤とした「セマンティック（意味処理）技術」によるAIシステムの開発「ナレッジグラフ」を用いたAI技術開発のコンテスト http://challenge.knowledge-graph.jp/ オープンデータ活用のコンテスト http://lodc.jp

本講演のねらい・立場  背景  生成AI（LLM）×ナレッジグラフ（KG）の連携への注目  例）Graph RAG：LLMへの問い合わせに用いる外部データとしてナレッジグラフを利用する 
本講演のねらい  知識グラフ（ナレッジグラフ・KG）の基本的な考え方・技術の概要を示す  知識グラフを用いた文書解析の例示  知識グラフと生成AIの相互利用の方向性の検討  本講演の立場  セマンティック（ウェブ）技術の観点からのKGを紹介  グラフデータベースの観点や実装詳細については述べない

講演内容  知識グラフの基礎技術  知識グラフを用いた文書解析  知識グラフとLLM（生成AI）の相互利用  まとめ 
参考文献

ナレッジグラフ（知識グラフ）の基礎技術

知識グラフ（ナレッジグラフ）  知識グラフとは  さまざまな「知識」の関係（つながり）をグラフ構造で表したもの．  知的システム開発の基盤となるデータベース（知識ベース）として用いられる． 
知識グラフの例  Linked Data（2007-）  Web技術に基づいて公開された知識グラフ  Linked Open Data（LOD）  オープンデータとしてLinked Data  オープンな知識グラフと言える．  Google Knowledge Graph（2012-）  他の企業でも知識グラフの構築が盛んに… LOD Cloud Google Knowledge Graph （単なる）グラフデータとの違い

ナレッジグラフのイメージ（Google Knowledge Graphの動画より） https://www.youtube.com/watch?v=mmQl6VGvX-c

Google Knowledge Graphの検索例ナレッジパネル分類属性

Google Knowledge Graphの検索例検索結果の「分類」に応じてナレッジパネルの表示項目や形式が異なる

Google Knowledge Graphの検索例関連する項目のナレッジパネルへのリンクを介して関係をたどれる

LOD(Linked Open Data)  Linked Data  Webの仕組みを用いてデータを“リンク”することにより，「データの新たな価値の創出」をめざした技術 
LOD（Linked Open Data）  オープンデータ（誰でも自由に利用可能なデータ）を Linked Dataとして公開したもの．  この10年で多くのLODが公開されている 2024/11/1 12 Linking Open Data cloud diagram，http://lod-cloud.net/ 2007/5 12データセット 2017/2 1,139データセット

大学大阪電気通信大学分類 1941年設立日寝屋川市日本位置する行政区国
日本国位置する行政区リソース： URIで表される事物プロパティ：リソース間（もしくはリソースとリテラル間）の関係を表すリテラル：文字列主語述語目的語トリプル（3つ組み）でグラフ構造を表現 RDF (Resource Description Framework）ナレッジグラフ記述のデータモデルを提供するW3C標準の技術仕様大阪府 http://www.wikidata.org/entity/Q7105556（大阪電気通信大学）に関するナレッジグラフの一部（Wikidataより） SPARQL（RDFを検索するクエリ言語）など，Web上でナレッジグラフを公開・利用する様々な技術仕様がW3Cから公開されてる 13 Linked Data（ナレッジグラフ）のRDF表現

RDFではすべてのデータがIRIで表現されるため，「IRIによるデータへのアクセス」や「データセットを横断したリンク」が可能 14 Linked Data（ナレッジグラフ）のRDF表現

LOD公開の世界的なひろがり～LODクラウド～ 2020-05-20 （1,255データセット） http://lod-cloud.net/

日本語で使えるLODの例 eStat 統計LOD 国立国会図書館LOD DBpedia Ｗｉｋｉｄａｔａ JapanSearch メディア芸術データベース・ラボ

知識グラフの例：Wikidata • ウィキメディア財団が運営する Wikipediaの「データ版」 • 現在，約１億項目 • Wikipediaと同じようにデータをコミュニティで編集，公開できる •
API（SPARQLエンドポイント）や各種検索ツールなども提供 http://wikidata.org/ （ウィキデータ）参考英語版Wikipedia 670万記事日本語版Wikipedia 140万記事日本国語大辞典 50万項目 LODとして公開されている

WikipediaからWikidataへ Wikipediaの各記事から対応する Wikidata項目へのリンク

Wikidataのデータ例（1/3） Wikidataにおいて「大阪電気通信大学（Q7105556）」にアクセスした例 https://www.wikidata.org/wiki/Q7105556 さまざまな言語での「ラベル」，「概要説明」，「別名」 Wikidata上のID ：Q****の形式ですべてのデータIDが付けられている

Wikidataのデータ例（2/3）述語（プロパティ）目
的語（オブジェクト）他のリソースへのリンク

Wikidataのデータ例（3/3） Wikidataにおける「分類」は instance-ofという述語で表されるリンク先でIDが分かる

Wikidataの検索 Wikidataの「検索サービス」へのリンク

Wikidataの検索画面クエリの入力欄クエリの入力補助クエリ例選択 https://query.wikidata.org/ SPARQLによる検索が可能（一部，独自拡張がされている）

Wikidataにおけるクエリの例例から「猫（画像付き）」を選択した際の検索結果

Wikidataにおけるクエリの例 #猫（画像付き） #defaultView:ImageGrid SELECT ?item ?itemLabel ?pic WHERE { ?item
wdt:P31 wd:Q146 . ?item wdt:P18 ?pic SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" } } 「分類（instance-of）」のID 「猫」のID この例のクエリから IDを変更することで様々な分類の画像を検索できる

複雑な検索例 Wikidataを用いたランキング  「日本の政治家の出身都道府県」ランキング →実行結果 SELECT ?pref ?prefLabel (count(?s) As
?c) WHERE { ?pref wdt:P31 wd:Q50337; #分類＝都道府県 wdt:P429 ?code. #全国地方公共団体コード ?s wdt:P27 wd:Q17; #国籍＝日本 wdt:P106 wd:Q82955; #職業＝政治家 wdt:P19/wdt:P131* ?pref. #出身 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } GROUP BY ?pref ?prefLabel ORDER BY DESC(?c)

Wikidataでの検索結果（2024/9/12時点）

複雑な検索例 Wikidataを用いたランキング  「日本の総理大臣の出身都道府県」ランキング →実行結果 SELECT ?pref ?prefLabel (count(?s) As
?c) WHERE { ?pref wdt:P31 wd:Q50337; #分類＝都道府県 wdt:P429 ?code. #全国地方公共団体コード ?s wdt:P27 wd:Q17; #国籍＝日本 wdt:P106 wd:Q82955; #職業＝政治家 wdt:P39 wd:Q274948; #公職＝内閣総理大臣 wdt:P19/wdt:P131* ?pref. #出身 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } GROUP BY ?pref ?prefLabel ORDER BY DESC(?c) この1行を追加する

知識グラフとオントロジー

「分類」の必要性例）Wikidataで「大阪」を検索すると．．．「分類」を見ることで，どの「大阪」が欲しいエンティティか分かる

知識グラフのモデリング  KGを有効活用するには，KGのモデリング・設計を適切に行うことが重要  使用するエンティティやプロパティの「種類」の統一 →エンティティ・プロパティの「分類（階層）」を用意して，それらを用いてKGを表現する  どのような「知識」をどのような「グラフ構造」で表現するか？
→KGで表現するグラフ構造の「記述の仕方，制約など」の仕様を明確にし，それに従って表現するこれらのKGの表現に関する規約を「オントロジー」で定義する

知識グラフとオントロジー  オントロジー  「対象世界をどのように捉えたか？（概念化したか）」を計算機と人間が共有できる形で明確化・体系化したもの  ナレッジグラフ/Linked Dataにおいては，
「知識グラフの記述に用いる語彙（分類や関係の種類など）」を提供する  概念の共通性と相違点を明確にする  統一した語彙を用いることで，知識グラフの意味が明確になると共に，知識の統合・相互利用が可能となる

Wikidataにおけるオントロジー https://oecu-kozaki-lab.github.io/RdfTree/rdftree/ Wikidataにおけるクラス階層の例 Wikidataの階層表示ツール（古崎研で開発）を用いた表示例

Wikidataにおけるオントロジー https://www.wikidata.org/wiki/Wikidata:List_of_properties データの種類ごとに「利用可能なプロパティ」が定義されている

知識グラフを用いた文書解析

知識グラフを用いた文書分析  分析の手順  １．知識グラフと文書の対応づけ  用語単位の対応 →エンティティ・リンキング  関係単位の対応
→関係抽出  グラフ構造との対応→グラフ抽出  ．．．  ２．対応する知識グラフの構造から意味を解釈  知識グラフが表す意味（用語の分類，概念定義，関係の種類…）を利用  グラフのネットワーク構造（パスの距離など）の利用  グラフエンベディング（ベクトル化）の利用  ．．．

知識グラフを用いたQAシステムウィキデータを用いたKGQA （Knowledge Graph Question Answering）ウィキデータウィキデータのように「知識」をみんなで編集できる知識ベース
「天気の子」の監督は？「新海誠」です「大阪電気通信大学」の所在地は？「寝屋川市」です DEMO

Wikidataを用いたQAシステムの解答例

DBpediaを用いたWikipedia記事の関係性の分析・可視化 2024/11/1 41 https://oecu-kozaki-lab.github.io/AnimalLinks/jp-link(before).html Wikipedia記事の「リンク先」となる用語（エンティティ）の分類を分析・可視化する

LinkedSDGs https://linkedsdg.officialstatistics.org/ SDGｓについての知識グラフに基づいて，文書を分析する

LinkedSDGsによる分析例

オントロジーに基づく知識グラフの生成によるオンライン議論支援 1. 気候変動に関する知識を体系化したオントロジーを構築 2. オンライン議論システム（掲示板）に入力された内容とオントロジーに登録された知識（用語）を対応付け 3. 対応付けされた知識（用語）を起点としてオントロジーで定義された概念構造（知識の関連）を探索し，知識グラフを生成・可視化
熟議システムとの対応づけ知識グラフを生成・可視化オントロジーを構築

オントロジーに基づく知識グラフの生成・可視化 https://oecu-kozaki-lab.github.io/SPARQL2VISmap/SP2VIS.html（仮公開）入力した情報との対応付けクリックした用語を起点とした知識グラフの生成使用するオントロジー・生成方法の切り替え

ナレッジグラフ推論チャレンジ 2024/11/1 46 「ホームズ」の小説「知識グラフ」としてデータ化犯人はXX！なぜなら… 動機は… トリックは…
捜査手法動機 DB …. さまざまな「知識」を用いて犯人を推理しその理由を説明するAIシステムの開発ナレッジグラフ推論チャレンジシャーロック・ホームズのような“推理”（推論）ができるAIシステムの開発を目指した技術コンテスト可視化

推理小説KGの構築過程「ちょうど二年前に。実はお話ししたいのも、この姉の死についてでございます。ご想像つくかと存じますが、このような暮らしですので、同世代同身分の人とはなかなか付き合いが難しく。けれども、母の妹に当たるホノーリア・ウェストファイルという叔母がハロウの近くに住んでおりまして、父もここを訪ねることだけは許してくださいます。ジュリアは二年前のクリスマスにそこへ参りまして、休職中の海軍少佐の方と出会い、婚約の運びとなったのでございます。父はこの婚約を知っても別段何も文句を申しませんでしたが、式の日取りの二週間前に、あの恐ろしい事件のために、わたくしはたったひとりの姉を失ってしまったのです。」
推理小説の原文 1 原文から推理に必要な部分を抽出原文を主語や目的語が明確な文（短文）に変更主語や述語，目的語（5W1Hなど）を同定

場面を表す知識グラフの構造原文（英語/日本語）絶対時間※小説内に基準日時を設定している主語・述語・目的語は全て「リソース」として定義 →他の場面で同じ目的語を参照可能述語主語
他の場面場面の種類（クラス）分け Scene：上位クラス -Situation：事実・状況の描写 -Statement：Aの発言 -Talk：AのBへの発言 -Thought：Aの考え「推理小説」の内容を，最小単位の「場面（シーン）」に分割して記述知識グラフの公開ページ

推理小説KGの可視化例 http://knowledge-graph.jp/visualization/

知識グラフとLLM（生成AI）の相互利用

Three pillars of “Machine Knowledge” Gerhard Weikum氏のISWC2023キーノート講演より https://videolectures.net/iswc2023_weikum_knowledge_graphs/

JSAI2024企画セッション生成AI時代のナレッジグラフ JSAI2024（2024年度人工知能学会全国大会（第38回））にて実施  企画のねらい  ナレッジグラフに関わる研究者による講演、パネルディスカッションを通じて、ナレッジグラフと生成AIの関わり、それぞれの活かしどころについて議論する
 セッション構成  趣旨説明（5分）：古崎晃司（大阪電気通信大学教授）  招待講演（10分×5）  古崎晃司（大阪電気通信大学教授）  福田賢一郎（産業技術総合研究所研究チーム長）  森田武史（青山学院大学教授）  広田航（ストックマークユニットリーダー）  黒川茂莉（KDDI総合研究所グループリーダー）  パネルディスカッション（45分）：登壇者全員司会：黒川茂莉発表資料・動画： https://challenge.knowledge-graph.jp/jsai2024/

JSAI2024企画セッション生成AI時代のナレッジグラフ  招待講演の枠組み  あなたにとっての生成AIとは？  あなたにとってのナレッジグラフとは？  ナレッジグラフと生成AIの関わり、それぞれの活かしどころ
 パネルディスカッションのトピック  とのシナジーの出し方をどう考えるか？  とがシナジーを出すためには、どういう課題があるか？  とへのオープンまたはクローズドな情報の取り込み方をどう考えるか？

JSAI2024企画セッション生成AI時代のナレッジグラフ企画セッションスライドより：https://challenge.knowledge-graph.jp/jsai2024/ →自然言語・対話インターフェース，常識知識・平均的な知識，発想・連想．．．

JSAI2024企画セッション生成AI時代のナレッジグラフ企画セッションスライドより：https://challenge.knowledge-graph.jp/jsai2024/ →知識共有基盤，構造化された知識，ファクト・事実に基づいた知識，．．．

KGとLLMの相互利用の形態  KG vs. LLM  同一タスクでの両者の性能を比較例）KGQAとの比較  LLM
for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報（Fact）を言語モデルが生成した内容と比較する例）Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用例）Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの（自動）構築（支援）  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成，KGの結果を文章化などにLLMを利用する

KG（Wikidata）へのQAとLLMの比較 ChatGPTに同じ質問をすると？ ×枚方市には無い ChatGPT 4o mini （2024/9/9に確認）

KG（Wikidata）へのQAとLLMの比較〇寝屋川・四條畷キャンパスがある ChatGPT 4o （2024/9/9に確認） ChatGPT 4 （2024/9/9に確認） ×駅前キャンパスは
廃止された〇寝屋川は正しい ×守口市にはない

Wikdiataによるファクトチェック Deborah McGuinness氏のISWC2023キーノート講演スライドより動画： https://videolectures.net/iswc2023_mc_guinness_web_research/ スライド：https://www.slideshare.net/deborahmcguinness/iswc2023mcguinnesstwc16x9finalshortpdf

KGQAとLLMを用いた検索の比較様々な大規模言語モデルを「知識ベースに基づく質問応答（KBQA）」に適用し性能評価 [Yiming 03]

KGQAとLLMを用いた検索の比較評価結果は，F1スコアで0.5~0.9，ACCで0.2～0.9など ※より詳細な条件での評価・考察は論文を参照 [Yiming 03]

Wikidataを用いたファクト情報とChatGPTの回答の比較[大山04] Wikidataでの検索結果と ChatGPTの回答を比較

調査した分野インスタンス数 1 日本の大学 798 0.6% ～ 32.7% 2 日本の連載漫画
368 16.0% 3 日本の俳優 2,019 0.0% ～ 26.8% 4 JR西日本、東日本の鉄道駅 2,736 0.1% ～ 15.9% 5 日本の文学作品 1,365 1.9% 6 日本の政治家 7,242 0.0% ～ 0.0% 7 J-POP 1,037 14.0% ～ 21.7% 8 川 1,325 1.7% ～ 4.5% 9 日本のアニメ映画 594 2.5% 10 山 683 0.1% ～ 1.3% 合計 18,167 一致率 ChatGPT3.5（2023年1月時点）での仮の比較結果一致判定のアルゴリズムが不完全であるものの… あまり良い結果は得られず GPT4・GPT4oで比較中… →大幅な性能向上をしている傾向はあり Wikidataを用いたファクト情報とChatGPTの回答の比較[大山04]

調査した分野インスタンス数 1 日本の大学 798 0.6% ～ 32.7% 2 日本の連載漫画
368 16.0% 3 日本の俳優 2,019 0.0% ～ 26.8% 4 JR西日本、東日本の鉄道駅 2,736 0.1% ～ 15.9% 5 日本の文学作品 1,365 1.9% 6 日本の政治家 7,242 0.0% ～ 0.0% 7 J-POP 1,037 14.0% ～ 21.7% 8 川 1,325 1.7% ～ 4.5% 9 日本のアニメ映画 594 2.5% 10 山 683 0.1% ～ 1.3% 合計 18,167 一致率 ChatGPT3.5（2023年1月時点）での仮の比較結果一致判定のアルゴリズムが不完全であるものの… あまり良い結果は得られず GPT4・GPT4oで比較中… →大幅な性能向上をしている傾向はあり Wikidataを用いたファクト情報とChatGPTの回答の比較[大山04] OpenAIのAPI(GPT3.5turbo）での再比較の結果［再検証中］【一致率】設立日: 0.50% 都道府県: 73.41% 市町村: 32.44%

参考：GPT3.5の回答分析講義を受講した学生に「ChatGPT3.5に対する自由な質問（ファクトを問うものを意識して）」の回答の正誤を判定するアンケートをした結果

Wikidataを用いたKGQAと ChatGPTの回答を比較[脇所04] WikidataによるKGQA 一問一答のクイズ問題（※）を用いた回答の比較結果 ※AI王〜クイズAI日本一決定戦〜（https://sites.google.com/view/project-aio/home）の問題から２００問を利用．問題は，日本語Wikipediaをもとに作成されている．人間が問題文を読んでWikidataから正解を得るクエリ例が作成できたもの

for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報（Fact）を言語モデルが生成した内容と比較する例）Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用例）Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの（自動）構築（支援）  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成，KGの結果を文章化などにLLMを利用する今回は省略

LLMの外部知識としてKGを利用：基本的な考え方 Graph RAGで検索すると．．．

LLMの外部知識としてKGを利用：基本的な考え方  基本的な考え方  KGを用いた検索と，LLMを組み合わせて利用する  必要な技術要素→①～④ 質問文 KGで
検索質問文の解析 LLMで検索最終回答の生成 ①使用するKG ②KGの検索方法 ③KG/LLMの組み合わせ方法 ④使用するツール

LLMの外部知識としてKGを利用：①使用するKG  既存のKGを利用  LODとして公開されているKGを利用  Wikidata，DBpedia，各領域のKG，．．．．  複数KG（LOD）から必要な知識を統合して利用
 独自のKGを構築  KGを直接，手作業で構築  既存のDBからKGの形式に変換  テキストからKGを抽出・構築  多数の研究があり →LLMを用いたKGの構築については後述  既存ツールの利用も可 KGを用いる目的「どのような知識を得たいか？」に応じて適切なKGの選択・構築が重要

LLMの外部知識としてKGを利用：②KGの検索方法  グラフ構造のパターン一致  SPARQL，Cypherなどグラフ検索用クエリ言語を使用  グラフ構造を扱うライブラリ等を用いて，グラフ構造を探索  グラフ構造を用いた計算処理を利用
 ノード間をつなぐリンク（エッジ）のパスのステップ数（＝ノード間の距離）など，グラフの構造に基づいた計算処理を利用  グラフ理論に基づく計算を利用  グラフのベクトル化（グラフ埋め込み）  グラフをベクトル化し，機械学習等を利用する  ベクトル化の方法は多数の提案があり  ベクトルの距離計算による類似判定，欠損したリンクの予測，などが行える目的・用途に応じた検索方法の選択が重要

LLMの外部知識としてKGを利用：③KGとLLMの組み合わせ方法  KGとLLMの検索結果の比較  それぞれで検索した結果を比較し，最終回答を総合的に判定  KG検索では得られなかった言語表記ゆれをLLMで補完する  LLMの検索結果で不足する内容をKGで検索
 KGからプロンプトを生成  KGの検索結果をもとにプロンプトを生成しLLMに問い合わせ  KGの検索結果をテキスト表現をLLMで生成  ベクトル化して統合  KGの検索結果をベクトル化し，RAGによるテキスト検索やLLM への検索に利用 KGから得られる/得たい内容に応じた選択が重要（ベクトル化は必須ではない）

LLMの外部知識としてKGを利用：④使用するツール  クエリ言語  SPARQL, Cypher, etc.  RDF利用ライブラリ
 Apache Jena  データベース  RDF DB： Apache Jena Fuseki, Virtuoso, GraphDB, etc  グラフDB： Neo4j, Amazon Neptune, etc.  Graph RAG  Langchain+Neo4j  Microsoft「GraphRAG」 , etc.  他にもGraph RAG対応したDBあり

for KG  KGを用いたLLMのFact check  KGを用いて得た事実情報（Fact）を言語モデルが生成した内容と比較する例）Wikdiataによるファクトチェック  LLMの学習にKGを利用  知識グラフを用いて言語モデルの学習に使用するテキストを生成する  LLMの外部知識としてKGを利用  KGを用いて検索した結果をLLMへの問い合わせに利用例）Graph RAG  KGの検索結果とLLMで生成する情報を組み合わせる  KG for LLM  LLMを用いたKG/オントロジーの（自動）構築（支援）  KGの構築に必要な知識をLLMを用いて生成する  KG利用のための自然言語インターフェースとしてLLMを利用  KG検索に必要な知識の生成，KGの結果を文章化などにLLMを利用する

生成AIによる知識グラフの文章化 2024/11/1 78 https://oecu-kozaki-lab.github.io/SPARQL2VISmap/SP2VIS.html?edit

GPT4oによる文章の生成結果 GPT4oによる文章の生成結果

GPT4oによる文章の生成結果 2024/11/1 80 GPT4oによる文章の生成結果用水 , "subClassOf" , 水資源用水
, 対象 , 水用水 , 不足原因 , 渇水渇水 , "subClassOf" , 環境問題渇水 , 原因 , 少雨渇水 , 原因 , 地球の平均気温の上昇渇水 , 原因 , 湖面の蒸発量の増加渇水 , 対象及び状態 , 河川の流量の減少渇水 , 対象及び状態 , 水路の流量の減少渇水 , 対象及び状態 , 湖の水位の低下渇水 , 影響対象 , 用水渇水 , 影響対象 , 産物渇水 , 影響対象 , 水洗トイレ渇水 , 影響対象 , 農作物．．．

LLMを用いたKGの構築 LLMを用いて，テキストからオントロジーに基づいた知識グラフを構築する枠組みを構築し，このタスクについて評価するのベンチマークデータを提供 [Nandana 03]

構築したKGの評価例各オントロジーごとに，構築したナレッジグラフを評価した例 [Nandana 03]

LLMを利用したオントロジー学習 (=オントロジーの自動構築) 9つのLLMに対して，Zero-Shot プロンプティングを行い「用語の分類・分類の発見・非分類関係の抽出」という主要なOLタスクに関して評価 [Hamed 03]

LLMを利用したオントロジー学習 (=オントロジーの自動構築) 各タスクについて，既存のオントロジーを対象にして評価[Hamed 03] →このタスクへのチャレンジ企画をISWC2024において開催

ナレッジグラフ推論チャレンジ～生成AI時代のナレッジグラフ構築技術～ 推理小説部門 これまでの推論チャレンジで構築・公開してきた「シャーロックホームズの小説を対象としたナレッジグラフ」と『同等のもの』もしくは『より高品質なもの』を構築する 一般部門 対象領域を問わない任意のナレッジグラフを構築 グラフ構造で表された様々な知識（ナレッジグラフ）を幅広く対象
「ホームズ」の小説場面の流れを表した「ナレッジグラフ」ナレッジグラフ推論チャレンジ2023,2024(募集中)は，生成AIを用いた知識グラフ生成をテーマとして実施

応募作品例推理小説KGの自動構築[堀田04] 86 提案手法 • 推理小説のKGにおける各場面の説明文（日本語および英語）から，場面を構成するトリプル（主語, 述語, 目的語の組）
を生成 • 利用した言語モデル：Llama 2 • トリプルの生成に用いる制御用のプロンプトの条件となる要素を組み合わせ，計 84種類を比較 生成されたトリプルの評価 • 元KG（正解データ）との類似度をBERT で計算し，類似度0.82以上を正解と判定 • 最も正解率が高いプロンプトの正解率は，全体：22.2% 主語：70.7% 述語：39.4% 目的語：34.3% 場面の説明文（英語/日本語）述語主語元KG（正解データ）の例

推理小説の原文 1 原文から推理に必要な部分を抽出原文を主語や目的語が明確な文（短文）に変更主語や述語，目的語（5W1Hなど）を同定

推理小説の原文 1 原文から推理に必要な部分を抽出原文を主語や目的語が明確な文（短文）に変更主語や述語，目的語，5W1Hなどを同定 [堀田04]では，３のステップのうち「主語」「述語」「目的語」の同定に限定して実施 →小説の原文からのKG構築は，難易度がさらに高くなる

応募作品例：ChatGPTを用いたオントロジー自動構築[鈴木04] 対象とする最上位概念を入力すると，GPT-4 Turbo (OpenAIのAPIを利用)を用いたZero-shotのプロンプトにより，is-a階層（分類階層），および，それぞれの概念が持つ関係性（スロット）を再帰的に生成取得データ例〇〇のsubclassを単語で列挙フォーマット
・△△ ・△△ 必ず以下の条件を守ること個数：〇個（ツールで指定）〇〇に関連する内容であること is-aの構築に用いるプロンプト例）気候変動入力（1段目） 2段目以降を再帰的に入力その他の関係性 (スロット) の生成オントロジーの出力関係の種類ごとにプロンプトを用意温室効果ガス排出気温上昇極端な気象海面上昇氷河の融解 … is-a階層を出力

自動構築したオントロジーの例入力単語：気候変動 - is-a階層の構築設：深さ3・幅15 - 得れた下位概念：231 - 得られた関係性（スロット）：5218個

自動構築したオントロジーの例提案手法の評価： ‐具体的な構築事例として，気候変動，食品，家具の3種類のオントロジーを構築 ‐気候の専門家を含む被験者によるアンケート評価により，構築されたオントロジーの妥当性を評価 ‐ is-a階層：気候変動は約10%，食品と家具は80-100% ‐ 関係性（スロット）：いずれの事例についても，80-90%

まとめ KGとLLMの相互利用のポイント  知識グラフ／ナレッジグラフ（KG）  さまざまな「知識」の関係（つながり）をグラフ構造で表現  AIシステム開発（知識型）の基盤となるデータベース（知識ベース）として用いられる 
説明可能な根拠に基づく，正確な質問応答が可能  構築に要するコストが課題 → LLMを用いた構築が有望？  大規模言語モデル（LLM）  膨大なテキストから学習した言語モデル  自身が自然な対話を行い，一定の精度での質問応答が可能  ハルシネーションや回答の根拠の暗黙性に代表されるように，まだ必ずしも完全なものではない →KGから得られる内容と組み合わせが解決につながる？両者を適切に使い分け・連携させることが重要

ナレッジグラフ推論チャレンジ2024 ー生成AI時代のナレッジグラフ構築技術ー応募締切：2024/12/31 詳細は「推論チャレンジ」で検索 https://challenge.knowledge-graph.jp/2024/

https://wakate.knowledge-graph.jp/

参考文献  知識グラフとオントロジーによるAIシステムの開発，古崎晃司電子情報通信学会基礎・境界ソサイエティ Fundamentals Review, 2024, 18
巻, 2 号, p. 123-136, 2024 https://www.jstage.jst.go.jp/article/essfr/18/2/18_123/_article/-char/ja  ナレッジグラフ推論チャレンジ https://challenge.knowledge-graph.jp/  [Yiming 03] Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen and Guilin Qi, Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT family LLMs' Question Answering Performance, Proc. ISWC2023, Part I, pp. 348-367, Athens, Greece, Nov. 2023.  [大山 04] 大山陽和太, 知識グラフと大規模言語モデルのファクト情報に関する質問応答能力の比較, 大阪電気通信大学情報通信工学部・情報工学科学・卒業論文，2024.  [脇所 04] 脇所昂輝, Wikidataを用いた一問一答問題に対する解答生成パターンの分析と評価, 大阪電気通信大学情報通信工学部・情報工学科学・卒業論文，2024.  [Nandana 03] Nandana Mihindukulasooriya, Sanju Tiwari, Carlos Enguix and Kusum Lata, Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text, Proc. ISWC2023, Part II, pp. 247-265, Athens, Greece, Nov. 2023.  [Hamed 03] Hamed Babaei Giglou, Jennifer D'Souza and Soren Auer, LLMs4OL: Large Language Models? for Ontology Learning, Proc. ISWC2023, Part I, pp. 408-427, Athens, Greece, Nov. 2023.  [堀田 04] 堀田将吾,ナレッジグラフ推論チャレンジ2023「推理小説部門」応募作品， https://challenge.knowledge-graph.jp/results/results2023.html, 2024.  [鈴木 04] 鈴木陽太,ナレッジグラフ推論チャレンジ2023「一般部門」応募作品， https://challenge.knowledge-graph.jp/results/results2023.html, 2024.  JSAI2024企画セッション-生成AI時代のナレッジグラフ https://challenge.knowledge-graph.jp/jsai2024/

生成AIと知識グラフの相互利用に基づく文書解析

生成AIと知識グラフの相互利用に基づく文書解析

More Decks by Kouji Kozaki

Other Decks in Technology

Featured

Transcript