Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_04th
Search
takegue
January 30, 2014
Technology
300
0
Share
自然言語処理研究室B3ゼミ_04th
知識ベースについて
takegue
January 30, 2014
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
900
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
930
Sparse Overcomplete Word Vector Representations
takegue
0
260
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
140
Dependency-based empty category detection via phrase structure trees
takegue
0
100
Other Decks in Technology
See All in Technology
最大のアウトプット術は問題を作ること
ryoaccount
0
270
QA組織のAI戦略とAIテスト設計システムAITASの実践
sansantech
PRO
1
310
推し活エージェント
yuntan_t
1
410
GitHub Advanced Security × Defender for Cloudで開発とSecOpsのサイロを超える: コードとクラウドをつなぐ、開発プラットフォームのセキュリティ
yuriemori
1
120
OPENLOGI Company Profile
hr01
0
83k
バックオフィスPJのPjMをコーポレートITが担うとうまくいく3つの理由
yueda256
1
160
Oracle Cloud Infrastructure:2026年3月度サービス・アップデート
oracle4engineer
PRO
0
320
【AWS】CloudTrail LakeとCloudWatch Logs Insightsの使い分け方針
tsurunosd
0
130
MIX AUDIO EN BROADCAST
ralpherick
0
140
【関西電力KOI×VOLTMIND 生成AIハッカソン】空間AIブレイン ~⼤阪おばちゃんフィジカルAIに続く道~
tanakaseiya
0
110
Sansanの認証基盤を支えるアーキテクチャとその振り返り
sansantech
PRO
1
150
脳が溶けた話 / Melted Brain
keisuke69
1
1.2k
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
234
18k
sira's awesome portfolio website redesign presentation
elsirapls
0
200
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
240
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
880
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
140
It's Worth the Effort
3n
188
29k
Navigating Team Friction
lara
192
16k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
700
Thoughts on Productivity
jonyablonski
76
5.1k
A Soul's Torment
seathinner
5
2.6k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
950
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
280
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第4週 ~知識ベースを利用した自然言語処理システム~ 長岡技術科学大学 B3 竹野
峻輔
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 知識ベース(KB: Knowledge Base) – 知識の検索を可能とし,知識を組織化し,知識をコンピュー タ上に集合させたもの 背景… ×格文法や意味属性だけでは正確に解析できない ×例文ベースだけでは多様性に対応できない
⇒(人間みたいに)一般化された少ない知識を機会に 反映させる必要あり 文法知識,例文知識,一般常識,専門分野知識,文脈知識 … cf.. オントロジー, 概念ベース 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースとは
• 阿折;知識ベースを利用した自然言語処理システム(1994)より 文理解に必要な能力とは…? From Result Driven 1. 大局的文型の理解:SVO, SVOO… connected
NP1 to NP2 2. 語句の修飾の一般化,名詞句の概念レベルの推論 Data Transfer Facility Software … 3. 構成要素関係,所有関係などの関係知識の利用 is-a関係, has-a関係…IBM, HP ∈Company 名詞句のバリエーションは非常に多い≒例文ベースの限界 ※例文ベースを採りいれてしまった方が早い場合もある 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースの出発点-文理解に必要な能力- (論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より)
• 知識ベース(文法知識,例文知識,一般常識,専門分野知識,文脈知識)に 必要な技術要素… • 言語知識定義 • 意味属性体系定義,意味制約定義 • 概念階層関係定義 •
常識・分野知識定義 • 文脈知識処理 • 大規模知識アクセス機能 • テキスト現象と知識を結びつける機能 • 推論エンジン • 競合解消機能 • 知識デバッグ機能 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識ベースに基づくNLPシステムの要素技術体系(論文より) たくさんあります
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) Akinator
http://jp.akinator.com/ 選択肢を選ぶことで 想像した人,キャラクタ等々を当てる ⇒決定木の学習をしていると(思われる)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定)
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側は規則に従って 推論するだけ
• cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 如何にして一つのシステムにまとめるか?(論文より) 知識
ベース (可変) 推論 エンジン (固定) こっち側の質をあげる
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 (if ~ then … 集合≃決定木) ・概念階層表現 ・3段論法的知識 ・文法・文型解析ルール ・知識獲得 … →知識適用の確信度 競合解消 ;膨大な組み合わせを 解釈可能なものに絞る
推論 エンジン (固定) • cf. エキスパート・システム構築ツール(AI) 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ
第4週 如何にして一つのシステムにまとめるか?(論文より) 知識 ベース (可変) ・規則の集合 動詞+目的語->動詞句 ($rule ($if ($seq ‘verb’ $obj))($then ($phrase ‘$....)) クライアント ∈ ネットワーク ($def_hi ‘&client’ ’ $comp_of’ &network 0.9)
一般的/多義的な知識は低い確信度 限定的/一意的な知識に高い確信度 この確信度の計算を全ての組み合わせに行うのは不可 能 →ある程度の絞り込みが必要 いつ?どうやって? e.g.) アプリオリ・アルゴリズム(Apriori algorithm;1994) ある知識の組み合わせ
の支持度<知識単体の支持度 ⇒枝切りを行うことで組み合わせ爆発を防ぐ;動的手法 ⇒相関ルールの抽出などに用いられる. 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 知識に対する確信度計算,競合解消 を与える
• 出典:http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 質疑応答システム Watsonの例
• 人間の感覚ライクなNLP = 知識ベース + 推論エンジン 知識ベースは規則の集合 含有関係,同値関係,定型句… 質の高い推論には 質の高い大規模な知識ベースが必要
推論エンジンで組み合わせ爆発を抑えるため 競合解消である程度の絞り込いながら解析 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 ここまでのまとめ
• 阿折義三; (1994). 知識ベースを利用した自然言語処理システム. 情報処理学会 研究報告自然言語処理(NL), 28, 57–64. • 「SiriのライバルEvi」
http://nouai.blog.fc2.com/category16-1.html • 「自然言語処理とWatson、ソーシャルデータ活用」をIBM 村上明子氏が語る • http://enterprisezine.jp/iti/detail/4368 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 参考文献
• 半教師アルゴリズム – 知識ベースなどで弱い(Heuristicな)ラベル付された 訓練セット利用 – 2つの概念(Entity)が含まれる表現からは 関係抽出ができる(Is-a関係など) …だろう(Heuristic) 雑音いっぱい⇒精度下がる
• (遠い)関係抽出で使われるアルゴリズム (遠い概念)Distant-(監督、管理)Supervision 根幹:アノテーションされたテキストを使わず(or かなり少 ない)に如何に関係抽出を正確に行うか? ⇒Knowledge Baseを使う: Directlyじゃない限り難しいよね。どうしよ 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm
1. Factor Gprahを使う。 (概念の相関図:2つの関係があるかないか分かるもの そんでもって、 その関係が文章中にあるか決定できる) 2. 制約付き半教師学習を適用 このときKBに載ってる関係を使わない ⇒
エラーの31%が削減できた。 2014/1/30 自然言語処理研究室 2013年度 B3ゼミ 第4週 Distant-Supervision Learning Algorithm