Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_05th
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
takegue
February 03, 2014
Technology
170
0
Share
自然言語処理研究室B3ゼミ_05th
takegue
February 03, 2014
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
910
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.6k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.2k
Rettyにおけるデータ活用について
takegue
0
940
Sparse Overcomplete Word Vector Representations
takegue
0
260
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
250
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
140
Dependency-based empty category detection via phrase structure trees
takegue
0
110
Other Decks in Technology
See All in Technology
React、まだ楽しくて草
uhyo
7
3.9k
チームで実践する AI-DLC 思考の軌跡を残すチェックポイント設計
belongadmin
0
2.1k
Javaコミュニティをもっと楽しむための9箇条
takasyou
0
1.2k
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.8k
コードレビューを制するチームがソフトウェアデリバリーのフローを制す / Beyond Code Review: Distributing Its Responsibilities Across the SDLC
mtx2s
3
870
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
2
810
インフラが苦手でも大丈夫! 紙芝居 Kubernetes -WWGT 10周年編-
aoi1
1
330
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
320
TypeScript Compiler APIとPHP-Parserを活用し、TypeScriptとPHPで型を共有する
shuta13
0
350
美味しいスイスチーズを作ろう🧀🐭
taigamikami
1
230
個人AIからチームAIへ:開発における品質と生産性の再設計
moongift
PRO
0
370
Sony_KMP_Journey_KotlinConf2026
sony
2
210
Featured
See All Featured
Balancing Empowerment & Direction
lara
6
1.1k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
What's in a price? How to price your products and services
michaelherold
247
13k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
160
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
A better future with KSS
kneath
240
18k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
120
The agentic SEO stack - context over prompts
schlessera
0
790
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第5週 論文紹介: 統計的自然言語処理と機械学習・統計学の未来 長岡技術科学大学 B3
竹野 峻輔
• 持橋大地. 統計的自然言語処理と機械学習・統計学 の未来(<特集>ポスト経験主義の言語処理). 人工知 能学会誌 27, 284–287 (2012). http://ci.nii.ac.jp/naid/110009445651/
要旨: 言語学と統計的自然言語処理の関係性について 再考. 古典的な統計的自然言語処理技術から 最新の統計的自然言語処理技術について紹介. 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 統計的自然言語処理と機械学習・統計学の未来
• 「言語学」と「統計的自然言語処理」は独立したも のだろうか? – 著者)言語学 ⊂ 統計的自然言語処理 2014/2/4 自然言語処理研究室 2013年度
B3ゼミ 第5週 1.言語学と統計的自然言語処理の関係性
• 「言語学」と「統計的自然言語処理」は独立したも のだろうか? – 著者)言語学 ⊂ 統計的自然言語処理 • Why? –
言語学的手法では限界がある. • ≒言葉の記号的・代数的性質を重みづけする – 統計的自然言語処理は言語の体系を広い範囲で捉 えることができる;「言語の物理」 • 言語学を否定するものではない – 言語学=現実の言語データに則して研究 – 理論物理学と実験物理学の関係と類似 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 1.言語学と統計的自然言語処理の関係性
• 古典的な統計的自然言語処理 – PCFG ⇒Stochastic HPSG, Stochastic CCG • 確率的文脈自由文法
• 文法(ルール)に重みづけ – 名詞の後には動詞が来やすい(重みが高い≒コストが低い) 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 2.「統計=重みづけ」からの脱却
• 古典的な統計的自然言語処理 – PCFG ⇒Stochastic HPSG, Stochastic CCG • 確率的文脈自由文法
• 文法(ルール)に重みづけ – 名詞の後には動詞が来やすい(重みが高い≒コストが低い) • 最新の統計的自然言語処理 – 高度な数学モデル(線形空間・確率過程等)の適用 • 異なる言語間の対訳を取得;dog-chien (CCA) • 単語の系統樹の推定(MCMC法) – その他;強化学習・カーネル法,無限モデル… 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 2.「統計=重みづけ」からの脱却
• 言語学者の主観情報に頼らずともよい? – e.g.)Positive な単語,Negativeな単語の判別. • Amazonレビューの星の多さを前提とした統計モデルで 単語の正負を推定 – 教師なし学習の可能性
– そもそもアノテーションは高価≒コスト大. • DCSによる教師なし学習[Liang 11] – 質問応答の研究 – 手動のアノテーションなしに大幅な高性能化達成 – 隠れた意味の設計(c.f.階層的ベイズモデル) 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 3.「深い理解」とは?
• 言語学,自然言語処理の有用性は高い ⇒半教師あり学習 • ラベルありデータとラベルなしデータが混合. – [Suzuki 08] Products of
Experts , , ∝ ∙ , » ラベル付きデータで最大化⇔ラベルなしデータで最大化 – [Jiao 06] ラベルなしデータを用いた正則化 ℒ = − + + ( (| )) • 技術としてはまだ未完成 • 教師有データの取り入れ方;正しいと限らない ⇒モデル作成のベース 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 4.半教師あり学習と統計モデルの設計
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ
第5週 5.広がる統計モデルと自然言語,6.展望とまとめ
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 • 言語の目的は“コミュニケーション” – 言語は”どう使われるべきか”でなく”私たちがどう使うか”
2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 5.広がる統計モデルと自然言語,6.展望とまとめ
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 • 言語の目的は“コミュニケーション” – 言語は”どう使われるべきか”でなく”私たちがどう使うか”
– 言語額の厳密な代数的・離散的性質は目的に合致しない • 曖昧性こそがコミュニケーション効率を高めている[Piantadosi 12] – 統計的自然言語処理の高度化 » 最大エントロピー法…L-BFGS,オンライン学習法 » HMM, PCFG等の次元数決定問題⇒Infinite Model[Neal03] » EMアルゴリズム⇒変数ベイズ法, EP法,MCMC法 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 5.広がる統計モデルと自然言語,6.展望とまとめ