Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_04th
Search
takegue
January 30, 2014
Technology
0
240
自然言語処理研究室B3ゼミ_04th
知識ベースについて
takegue
January 30, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
800
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
11k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.1k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
940
Rettyにおけるデータ活用について
takegue
0
820
Sparse Overcomplete Word Vector Representations
takegue
0
180
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
190
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
98
Dependency-based empty category detection via phrase structure trees
takegue
0
62
Other Decks in Technology
See All in Technology
Python と Snowflake はズッ友だょ!~ Snowflake の Python 関連機能をふりかえる ~
__allllllllez__
2
140
Azure Container Apps + Bicep 〜 こんな感じで運用しています
kaz29
3
620
いいたいことちゃんという
tkengo
0
230
Tellus の衛星データを見てみよう #mf_fukuoka
kongmingstrap
0
270
開発パフォーマンスを最大化するための開発体制
ham0215
7
1.1k
Cypress or Playwright?
rainerhahnekamp
0
170
Building Dashboards as a Hobby
egmc
0
370
実例で紹介するRAG導入時の知見と精度向上の勘所
yamahiro
5
1.6k
require(ESM)とECMAScript仕様
uhyo
4
960
M&A戦略を支えるデータマネジメント (MIDAS Tech Study #16 GENDA Komiyama)
kommy339
0
100
MapLibreとAmazon Location Service
dayjournal
1
190
いつか使うかも貯金してたらめちゃめちゃ機能が増えてた話
riyaamemiya
0
620
Featured
See All Featured
RailsConf 2023
tenderlove
8
550
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
VelocityConf: Rendering Performance Case Studies
addyosmani
321
23k
Fireside Chat
paigeccino
22
2.6k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
19
6.9k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
Web Components: a chance to create the future
zenorocha
306
41k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
33
6k
Agile that works and the tools we love
rasmusluckow
325
20k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
222
21k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第4週 ~知識ベースを利用した自然言語処理システム~ 長岡技術科学大学 B3 竹野
峻輔
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 阿折;知識ベースを利用した自然言語処理システム(1994)より 文理解に必要な能力とは…? From Result Driven 1. 大局的文型の理解:SVO, SVOO… connected
NP1 to NP2 2. 語句の修飾の一般化,名詞句の概念レベルの推論 Data Transfer Facility Software … 3. 構成要素関係,所有関係などの関係知識の利用 is-a関係, has-a関係…IBM, HP ∈Company 名詞句のバリエーションは非常に多い≒例文ベースの限界 ※例文ベースを採りいれてしまった方が早い場合もある 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースの出発点-文理解に必要な能力- (論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より) たくさんあります
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) Akinator
http://jp.akinator.com/ 選択肢を選ぶことで 想像した人,キャラクタ等々を当てる ⇒決定木の学習をしていると(思われる)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側の質をあげる
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 (if ~ then … 集合≃決定木) ・概念階層表現 ・3段論法的知識 ・文法・文型解析ルール ・知識獲得 … →知識適用の確信度 競合解消 ;膨大な組み合わせを 解釈可能なものに絞る
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 動詞+目的語->動詞句 ($rule ($if ($seq ‘verb’ $obj))($then ($phrase ‘$....)) クライアント ∈ ネットワーク ($def_hi ‘&client’ ’ $comp_of’ &network 0.9)
一般的/多義的な知識は低い確信度 限定的/一意的な知識に高い確信度 この確信度の計算を全ての組み合わせに行うのは不可 能 →ある程度の絞り込みが必要 いつ?どうやって? e.g.) アプリオリ・アルゴリズム(Apriori algorithm;1994) ある知識の組み合わせ
の支持度<知識単体の支持度 ⇒枝切りを行うことで組み合わせ爆発を防ぐ;動的手法 ⇒相関ルールの抽出などに用いられる. 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識に対する確信度計算,競合解消 を与える
• 出典:http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 質疑応答システム Watsonの例
• 人間の感覚ライクなNLP = 知識ベース + 推論エンジン 知識ベースは規則の集合 含有関係,同値関係,定型句… 質の高い推論には 質の高い大規模な知識ベースが必要
推論エンジンで組み合わせ爆発を抑えるため 競合解消である程度の絞り込いながら解析 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 ここまでのまとめ
• 阿折義三; (1994). 知識ベースを利用した自然言語処理システム. 情報処理学会 研究報告自然言語処理(NL), 28, 57–64. • 「SiriのライバルEvi」
http://nouai.blog.fc2.com/category16-1.html • 「自然言語処理とWatson、ソーシャルデータ活用」をIBM 村上明子氏が語る • http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 参考文献
• 半教師アルゴリズム – 知識ベースなどで弱い(Heuristicな)ラベル付された 訓練セット利用 – 2つの概念(Entity)が含まれる表現からは 関係抽出ができる(Is-a関係など) …だろう(Heuristic) 雑音いっぱい⇒精度下がる
• (遠い)関係抽出で使われるアルゴリズム (遠い概念)Distant-(監督、管理)Supervision 根幹:アノテーションされたテキストを使わず(or かなり少 ない)に如何に関係抽出を正確に行うか? ⇒Knowledge Baseを使う: Directlyじゃない限り難しいよね。どうしよ 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm
1. Factor Gprahを使う。 (概念の相関図:2つの関係があるかないか分かるもの そんでもって、 その関係が文章中にあるか決定できる) 2. 制約付き半教師学習を適用 このときKBに載ってる関係を使わない ⇒
エラーの31%が削減できた。 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm