Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_05th
Search
takegue
February 03, 2014
Technology
0
160
自然言語処理研究室B3ゼミ_05th
takegue
February 03, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
830
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
74
Other Decks in Technology
See All in Technology
"TEAM"を導入したら最高のエンジニア"Team"を実現できた / Deploying "TEAM" and Building the Best Engineering "Team"
yuj1osm
1
230
AI Agent時代なのでAWSのLLMs.txtが欲しい!
watany
3
350
Introduction to OpenSearch Project - Search Engineering Tech Talk 2025 Winter
tkykenmt
2
160
AWSではじめる Web APIテスト実践ガイド / A practical guide to testing Web APIs on AWS
yokawasa
8
760
IAMのマニアックな話2025
nrinetcom
PRO
6
1.4k
ABWG2024採択者が語るエンジニアとしての自分自身の見つけ方〜発信して、つながって、世界を広げていく〜
maimyyym
1
200
Potential EM 制度を始めた理由、そして2年後にやめた理由 - EMConf JP 2025
hoyo
2
2.9k
データベースの負荷を紐解く/untangle-the-database-load
emiki
2
540
OCI Success Journey OCIの何が評価されてる?疑問に答える事例セミナー(2025年2月実施)
oracle4engineer
PRO
2
180
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
2
1.1k
LINE NEWSにおけるバックエンド開発
lycorptech_jp
PRO
0
330
Aurora PostgreSQLがCloudWatch Logsに 出力するログの課金を削減してみる #jawsdays2025
non97
1
230
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
693
190k
Code Reviewing Like a Champion
maltzj
521
39k
Making Projects Easy
brettharned
116
6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
What's in a price? How to price your products and services
michaelherold
244
12k
Visualization
eitanlees
146
15k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Adopting Sorbet at Scale
ufuk
75
9.2k
How to Think Like a Performance Engineer
csswizardry
22
1.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
A Tale of Four Properties
chriscoyier
158
23k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第5週 論文紹介: 統計的自然言語処理と機械学習・統計学の未来 長岡技術科学大学 B3
竹野 峻輔
• 持橋大地. 統計的自然言語処理と機械学習・統計学 の未来(<特集>ポスト経験主義の言語処理). 人工知 能学会誌 27, 284–287 (2012). http://ci.nii.ac.jp/naid/110009445651/
要旨: 言語学と統計的自然言語処理の関係性について 再考. 古典的な統計的自然言語処理技術から 最新の統計的自然言語処理技術について紹介. 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 統計的自然言語処理と機械学習・統計学の未来
• 「言語学」と「統計的自然言語処理」は独立したも のだろうか? – 著者)言語学 ⊂ 統計的自然言語処理 2014/2/4 自然言語処理研究室 2013年度
B3ゼミ 第5週 1.言語学と統計的自然言語処理の関係性
• 「言語学」と「統計的自然言語処理」は独立したも のだろうか? – 著者)言語学 ⊂ 統計的自然言語処理 • Why? –
言語学的手法では限界がある. • ≒言葉の記号的・代数的性質を重みづけする – 統計的自然言語処理は言語の体系を広い範囲で捉 えることができる;「言語の物理」 • 言語学を否定するものではない – 言語学=現実の言語データに則して研究 – 理論物理学と実験物理学の関係と類似 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 1.言語学と統計的自然言語処理の関係性
• 古典的な統計的自然言語処理 – PCFG ⇒Stochastic HPSG, Stochastic CCG • 確率的文脈自由文法
• 文法(ルール)に重みづけ – 名詞の後には動詞が来やすい(重みが高い≒コストが低い) 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 2.「統計=重みづけ」からの脱却
• 古典的な統計的自然言語処理 – PCFG ⇒Stochastic HPSG, Stochastic CCG • 確率的文脈自由文法
• 文法(ルール)に重みづけ – 名詞の後には動詞が来やすい(重みが高い≒コストが低い) • 最新の統計的自然言語処理 – 高度な数学モデル(線形空間・確率過程等)の適用 • 異なる言語間の対訳を取得;dog-chien (CCA) • 単語の系統樹の推定(MCMC法) – その他;強化学習・カーネル法,無限モデル… 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 2.「統計=重みづけ」からの脱却
• 言語学者の主観情報に頼らずともよい? – e.g.)Positive な単語,Negativeな単語の判別. • Amazonレビューの星の多さを前提とした統計モデルで 単語の正負を推定 – 教師なし学習の可能性
– そもそもアノテーションは高価≒コスト大. • DCSによる教師なし学習[Liang 11] – 質問応答の研究 – 手動のアノテーションなしに大幅な高性能化達成 – 隠れた意味の設計(c.f.階層的ベイズモデル) 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 3.「深い理解」とは?
• 言語学,自然言語処理の有用性は高い ⇒半教師あり学習 • ラベルありデータとラベルなしデータが混合. – [Suzuki 08] Products of
Experts , , ∝ ∙ , » ラベル付きデータで最大化⇔ラベルなしデータで最大化 – [Jiao 06] ラベルなしデータを用いた正則化 ℒ = − + + ( (| )) • 技術としてはまだ未完成 • 教師有データの取り入れ方;正しいと限らない ⇒モデル作成のベース 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 4.半教師あり学習と統計モデルの設計
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ
第5週 5.広がる統計モデルと自然言語,6.展望とまとめ
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 • 言語の目的は“コミュニケーション” – 言語は”どう使われるべきか”でなく”私たちがどう使うか”
2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 5.広がる統計モデルと自然言語,6.展望とまとめ
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 • 言語の目的は“コミュニケーション” – 言語は”どう使われるべきか”でなく”私たちがどう使うか”
– 言語額の厳密な代数的・離散的性質は目的に合致しない • 曖昧性こそがコミュニケーション効率を高めている[Piantadosi 12] – 統計的自然言語処理の高度化 » 最大エントロピー法…L-BFGS,オンライン学習法 » HMM, PCFG等の次元数決定問題⇒Infinite Model[Neal03] » EMアルゴリズム⇒変数ベイズ法, EP法,MCMC法 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 5.広がる統計モデルと自然言語,6.展望とまとめ