Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_04th
Search
takegue
January 30, 2014
Technology
0
270
自然言語処理研究室B3ゼミ_04th
知識ベースについて
takegue
January 30, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
830
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
200
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
71
Other Decks in Technology
See All in Technology
Potential EM 制度を始めた理由、そして2年後にやめた理由 - EMConf JP 2025
hoyo
2
1.5k
MIMEと文字コードの闇
hirachan
2
1.4k
クラウドサービス事業者におけるOSS
tagomoris
3
970
ローカルLLMを活用したコード生成と、ローコード開発ツールへの応用
kazuhitoyokoi
0
140
OpenID BizDay#17 KYC WG活動報告(法人) / 20250219-BizDay17-KYC-legalidentity
oidfj
0
440
NFV基盤のOpenStack更新 ~9世代バージョンアップへの挑戦~
vtj
0
320
ディスプレイ広告(Yahoo!広告・LINE広告)におけるバックエンド開発
lycorptech_jp
PRO
0
190
Iceberg Meetup Japan #1 : Iceberg and Databricks
databricksjapan
0
250
Oracle Cloud Infrastructure:2025年2月度サービス・アップデート
oracle4engineer
PRO
1
420
LINEギフトにおけるバックエンド開発
lycorptech_jp
PRO
0
170
LINE NEWSにおけるバックエンド開発
lycorptech_jp
PRO
0
120
生成 AI プロダクトを育てる技術 〜データ品質向上による継続的な価値創出の実践〜
icoxfog417
PRO
5
1.9k
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
22
1.4k
Gamification - CAS2011
davidbonilla
80
5.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
640
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
50k
Producing Creativity
orderedlist
PRO
344
40k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.4k
Building a Scalable Design System with Sketch
lauravandoore
461
33k
GitHub's CSS Performance
jonrohan
1030
460k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Side Projects
sachag
452
42k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
21
2.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第4週 ~知識ベースを利用した自然言語処理システム~ 長岡技術科学大学 B3 竹野
峻輔
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 阿折;知識ベースを利用した自然言語処理システム(1994)より 文理解に必要な能力とは…? From Result Driven 1. 大局的文型の理解:SVO, SVOO… connected
NP1 to NP2 2. 語句の修飾の一般化,名詞句の概念レベルの推論 Data Transfer Facility Software … 3. 構成要素関係,所有関係などの関係知識の利用 is-a関係, has-a関係…IBM, HP ∈Company 名詞句のバリエーションは非常に多い≒例文ベースの限界 ※例文ベースを採りいれてしまった方が早い場合もある 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースの出発点-文理解に必要な能力- (論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より) たくさんあります
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) Akinator
http://jp.akinator.com/ 選択肢を選ぶことで 想像した人,キャラクタ等々を当てる ⇒決定木の学習をしていると(思われる)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側の質をあげる
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 (if ~ then … 集合≃決定木) ・概念階層表現 ・3段論法的知識 ・文法・文型解析ルール ・知識獲得 … →知識適用の確信度 競合解消 ;膨大な組み合わせを 解釈可能なものに絞る
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 動詞+目的語->動詞句 ($rule ($if ($seq ‘verb’ $obj))($then ($phrase ‘$....)) クライアント ∈ ネットワーク ($def_hi ‘&client’ ’ $comp_of’ &network 0.9)
一般的/多義的な知識は低い確信度 限定的/一意的な知識に高い確信度 この確信度の計算を全ての組み合わせに行うのは不可 能 →ある程度の絞り込みが必要 いつ?どうやって? e.g.) アプリオリ・アルゴリズム(Apriori algorithm;1994) ある知識の組み合わせ
の支持度<知識単体の支持度 ⇒枝切りを行うことで組み合わせ爆発を防ぐ;動的手法 ⇒相関ルールの抽出などに用いられる. 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識に対する確信度計算,競合解消 を与える
• 出典:http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 質疑応答システム Watsonの例
• 人間の感覚ライクなNLP = 知識ベース + 推論エンジン 知識ベースは規則の集合 含有関係,同値関係,定型句… 質の高い推論には 質の高い大規模な知識ベースが必要
推論エンジンで組み合わせ爆発を抑えるため 競合解消である程度の絞り込いながら解析 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 ここまでのまとめ
• 阿折義三; (1994). 知識ベースを利用した自然言語処理システム. 情報処理学会 研究報告自然言語処理(NL), 28, 57–64. • 「SiriのライバルEvi」
http://nouai.blog.fc2.com/category16-1.html • 「自然言語処理とWatson、ソーシャルデータ活用」をIBM 村上明子氏が語る • http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 参考文献
• 半教師アルゴリズム – 知識ベースなどで弱い(Heuristicな)ラベル付された 訓練セット利用 – 2つの概念(Entity)が含まれる表現からは 関係抽出ができる(Is-a関係など) …だろう(Heuristic) 雑音いっぱい⇒精度下がる
• (遠い)関係抽出で使われるアルゴリズム (遠い概念)Distant-(監督、管理)Supervision 根幹:アノテーションされたテキストを使わず(or かなり少 ない)に如何に関係抽出を正確に行うか? ⇒Knowledge Baseを使う: Directlyじゃない限り難しいよね。どうしよ 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm
1. Factor Gprahを使う。 (概念の相関図:2つの関係があるかないか分かるもの そんでもって、 その関係が文章中にあるか決定できる) 2. 制約付き半教師学習を適用 このときKBに載ってる関係を使わない ⇒
エラーの31%が削減できた。 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm