Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_04th
Search
takegue
January 30, 2014
Technology
0
290
自然言語処理研究室B3ゼミ_04th
知識ベースについて
takegue
January 30, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
890
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
920
Sparse Overcomplete Word Vector Representations
takegue
0
250
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
130
Dependency-based empty category detection via phrase structure trees
takegue
0
96
Other Decks in Technology
See All in Technology
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
270
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
340
AWS DevOps Agent x ECS on Fargate検証 / AWS DevOps Agent x ECS on Fargate
kinunori
2
200
Tebiki Engineering Team Deck
tebiki
0
24k
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
1.2k
(技術的には)社内システムもOKなブラウザエージェントを作ってみた!
har1101
0
310
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.2k
22nd ACRi Webinar - NTT Kawahara-san's slide
nao_sumikawa
0
110
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
260
旅先で iPad + Neovim で iOS 開発・執筆した話
zozotech
PRO
0
100
Greatest Disaster Hits in Web Performance
guaca
0
290
Agent Skils
dip_tech
PRO
0
140
Featured
See All Featured
Amusing Abliteration
ianozsvald
0
110
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.1k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.2k
The World Runs on Bad Software
bkeepers
PRO
72
12k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
150
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
440
エンジニアに許された特別な時間の終わり
watany
106
230k
How to build a perfect <img>
jonoalderson
1
4.9k
The Curse of the Amulet
leimatthew05
1
8.7k
Six Lessons from altMBA
skipperchong
29
4.2k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第4週 ~知識ベースを利用した自然言語処理システム~ 長岡技術科学大学 B3 竹野
峻輔
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 阿折;知識ベースを利用した自然言語処理システム(1994)より 文理解に必要な能力とは…? From Result Driven 1. 大局的文型の理解:SVO, SVOO… connected
NP1 to NP2 2. 語句の修飾の一般化,名詞句の概念レベルの推論 Data Transfer Facility Software … 3. 構成要素関係,所有関係などの関係知識の利用 is-a関係, has-a関係…IBM, HP ∈Company 名詞句のバリエーションは非常に多い≒例文ベースの限界 ※例文ベースを採りいれてしまった方が早い場合もある 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースの出発点-文理解に必要な能力- (論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より) たくさんあります
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) Akinator
http://jp.akinator.com/ 選択肢を選ぶことで 想像した人,キャラクタ等々を当てる ⇒決定木の学習をしていると(思われる)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側の質をあげる
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 (if ~ then … 集合≃決定木) ・概念階層表現 ・3段論法的知識 ・文法・文型解析ルール ・知識獲得 … →知識適用の確信度 競合解消 ;膨大な組み合わせを 解釈可能なものに絞る
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 動詞+目的語->動詞句 ($rule ($if ($seq ‘verb’ $obj))($then ($phrase ‘$....)) クライアント ∈ ネットワーク ($def_hi ‘&client’ ’ $comp_of’ &network 0.9)
一般的/多義的な知識は低い確信度 限定的/一意的な知識に高い確信度 この確信度の計算を全ての組み合わせに行うのは不可 能 →ある程度の絞り込みが必要 いつ?どうやって? e.g.) アプリオリ・アルゴリズム(Apriori algorithm;1994) ある知識の組み合わせ
の支持度<知識単体の支持度 ⇒枝切りを行うことで組み合わせ爆発を防ぐ;動的手法 ⇒相関ルールの抽出などに用いられる. 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識に対する確信度計算,競合解消 を与える
• 出典:http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 質疑応答システム Watsonの例
• 人間の感覚ライクなNLP = 知識ベース + 推論エンジン 知識ベースは規則の集合 含有関係,同値関係,定型句… 質の高い推論には 質の高い大規模な知識ベースが必要
推論エンジンで組み合わせ爆発を抑えるため 競合解消である程度の絞り込いながら解析 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 ここまでのまとめ
• 阿折義三; (1994). 知識ベースを利用した自然言語処理システム. 情報処理学会 研究報告自然言語処理(NL), 28, 57–64. • 「SiriのライバルEvi」
http://nouai.blog.fc2.com/category16-1.html • 「自然言語処理とWatson、ソーシャルデータ活用」をIBM 村上明子氏が語る • http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 参考文献
• 半教師アルゴリズム – 知識ベースなどで弱い(Heuristicな)ラベル付された 訓練セット利用 – 2つの概念(Entity)が含まれる表現からは 関係抽出ができる(Is-a関係など) …だろう(Heuristic) 雑音いっぱい⇒精度下がる
• (遠い)関係抽出で使われるアルゴリズム (遠い概念)Distant-(監督、管理)Supervision 根幹:アノテーションされたテキストを使わず(or かなり少 ない)に如何に関係抽出を正確に行うか? ⇒Knowledge Baseを使う: Directlyじゃない限り難しいよね。どうしよ 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm
1. Factor Gprahを使う。 (概念の相関図:2つの関係があるかないか分かるもの そんでもって、 その関係が文章中にあるか決定できる) 2. 制約付き半教師学習を適用 このときKBに載ってる関係を使わない ⇒
エラーの31%が削減できた。 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm