Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_04th
Search
takegue
January 30, 2014
Technology
0
270
自然言語処理研究室B3ゼミ_04th
知識ベースについて
takegue
January 30, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
830
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
72
Other Decks in Technology
See All in Technology
AIエージェント元年@日本生成AIユーザ会
shukob
1
200
Aurora PostgreSQLがCloudWatch Logsに 出力するログの課金を削減してみる #jawsdays2025
non97
1
190
コンピュータビジョンの社会実装について考えていたらゲームを作っていた話
takmin
1
600
Iceberg Meetup Japan #1 : Iceberg and Databricks
databricksjapan
0
350
Share my, our lessons from the road to re:Invent
naospon
0
140
NFV基盤のOpenStack更新 ~9世代バージョンアップへの挑戦~
vtj
0
350
AWSを活用したIoTにおけるセキュリティ対策のご紹介
kwskyk
0
350
【詳説】コンテンツ配信 システムの複数機能 基盤への拡張
hatena
0
230
4th place solution Eedi - Mining Misconceptions in Mathematics
rist
0
140
開発組織を進化させる!AWSで実践するチームトポロジー
iwamot
1
340
手を動かしてレベルアップしよう!
maruto
0
200
日経のデータベース事業とElasticsearch
hinatades
PRO
0
230
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Statistics for Hackers
jakevdp
797
220k
Music & Morning Musume
bryan
46
6.4k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
570
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Become a Pro
speakerdeck
PRO
26
5.2k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Gamification - CAS2011
davidbonilla
80
5.2k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第4週 ~知識ベースを利用した自然言語処理システム~ 長岡技術科学大学 B3 竹野
峻輔
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 阿折;知識ベースを利用した自然言語処理システム(1994)より 文理解に必要な能力とは…? From Result Driven 1. 大局的文型の理解:SVO, SVOO… connected
NP1 to NP2 2. 語句の修飾の一般化,名詞句の概念レベルの推論 Data Transfer Facility Software … 3. 構成要素関係,所有関係などの関係知識の利用 is-a関係, has-a関係…IBM, HP ∈Company 名詞句のバリエーションは非常に多い≒例文ベースの限界 ※例文ベースを採りいれてしまった方が早い場合もある 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースの出発点-文理解に必要な能力- (論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より) たくさんあります
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) Akinator
http://jp.akinator.com/ 選択肢を選ぶことで 想像した人,キャラクタ等々を当てる ⇒決定木の学習をしていると(思われる)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側の質をあげる
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 (if ~ then … 集合≃決定木) ・概念階層表現 ・3段論法的知識 ・文法・文型解析ルール ・知識獲得 … →知識適用の確信度 競合解消 ;膨大な組み合わせを 解釈可能なものに絞る
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 動詞+目的語->動詞句 ($rule ($if ($seq ‘verb’ $obj))($then ($phrase ‘$....)) クライアント ∈ ネットワーク ($def_hi ‘&client’ ’ $comp_of’ &network 0.9)
一般的/多義的な知識は低い確信度 限定的/一意的な知識に高い確信度 この確信度の計算を全ての組み合わせに行うのは不可 能 →ある程度の絞り込みが必要 いつ?どうやって? e.g.) アプリオリ・アルゴリズム(Apriori algorithm;1994) ある知識の組み合わせ
の支持度<知識単体の支持度 ⇒枝切りを行うことで組み合わせ爆発を防ぐ;動的手法 ⇒相関ルールの抽出などに用いられる. 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識に対する確信度計算,競合解消 を与える
• 出典:http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 質疑応答システム Watsonの例
• 人間の感覚ライクなNLP = 知識ベース + 推論エンジン 知識ベースは規則の集合 含有関係,同値関係,定型句… 質の高い推論には 質の高い大規模な知識ベースが必要
推論エンジンで組み合わせ爆発を抑えるため 競合解消である程度の絞り込いながら解析 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 ここまでのまとめ
• 阿折義三; (1994). 知識ベースを利用した自然言語処理システム. 情報処理学会 研究報告自然言語処理(NL), 28, 57–64. • 「SiriのライバルEvi」
http://nouai.blog.fc2.com/category16-1.html • 「自然言語処理とWatson、ソーシャルデータ活用」をIBM 村上明子氏が語る • http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 参考文献
• 半教師アルゴリズム – 知識ベースなどで弱い(Heuristicな)ラベル付された 訓練セット利用 – 2つの概念(Entity)が含まれる表現からは 関係抽出ができる(Is-a関係など) …だろう(Heuristic) 雑音いっぱい⇒精度下がる
• (遠い)関係抽出で使われるアルゴリズム (遠い概念)Distant-(監督、管理)Supervision 根幹:アノテーションされたテキストを使わず(or かなり少 ない)に如何に関係抽出を正確に行うか? ⇒Knowledge Baseを使う: Directlyじゃない限り難しいよね。どうしよ 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm
1. Factor Gprahを使う。 (概念の相関図:2つの関係があるかないか分かるもの そんでもって、 その関係が文章中にあるか決定できる) 2. 制約付き半教師学習を適用 このときKBに載ってる関係を使わない ⇒
エラーの31%が削減できた。 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm