Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_05th
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
takegue
February 03, 2014
Technology
0
170
自然言語処理研究室B3ゼミ_05th
takegue
February 03, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
890
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
920
Sparse Overcomplete Word Vector Representations
takegue
0
250
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
130
Dependency-based empty category detection via phrase structure trees
takegue
0
96
Other Decks in Technology
See All in Technology
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
480
AIが実装する時代、人間は仕様と検証を設計する
gotalab555
1
530
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
340
1,000 にも届く AWS Organizations 組織のポリシー運用をちゃんとしたい、という話
kazzpapa3
0
180
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.2k
GitHub Copilot CLI を使いやすくしよう
tsubakimoto_s
0
100
コンテナセキュリティの最新事情 ~ 2026年版 ~
kyohmizu
6
2.2k
AWS Network Firewall Proxyを触ってみた
nagisa53
1
240
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
260
ブロックテーマでサイトをリニューアルした話 / 2026-01-31 Kansai WordPress Meetup
torounit
0
480
生成AIを活用した音声文字起こしシステムの2つの構築パターンについて
miu_crescent
PRO
3
220
Featured
See All Featured
Git: the NoSQL Database
bkeepers
PRO
432
66k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
68
The Cult of Friendly URLs
andyhume
79
6.8k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Context Engineering - Making Every Token Count
addyosmani
9
670
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
280
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
110
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.1k
Evolving SEO for Evolving Search Engines
ryanjones
0
130
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第5週 論文紹介: 統計的自然言語処理と機械学習・統計学の未来 長岡技術科学大学 B3
竹野 峻輔
• 持橋大地. 統計的自然言語処理と機械学習・統計学 の未来(<特集>ポスト経験主義の言語処理). 人工知 能学会誌 27, 284–287 (2012). http://ci.nii.ac.jp/naid/110009445651/
要旨: 言語学と統計的自然言語処理の関係性について 再考. 古典的な統計的自然言語処理技術から 最新の統計的自然言語処理技術について紹介. 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 統計的自然言語処理と機械学習・統計学の未来
• 「言語学」と「統計的自然言語処理」は独立したも のだろうか? – 著者)言語学 ⊂ 統計的自然言語処理 2014/2/4 自然言語処理研究室 2013年度
B3ゼミ 第5週 1.言語学と統計的自然言語処理の関係性
• 「言語学」と「統計的自然言語処理」は独立したも のだろうか? – 著者)言語学 ⊂ 統計的自然言語処理 • Why? –
言語学的手法では限界がある. • ≒言葉の記号的・代数的性質を重みづけする – 統計的自然言語処理は言語の体系を広い範囲で捉 えることができる;「言語の物理」 • 言語学を否定するものではない – 言語学=現実の言語データに則して研究 – 理論物理学と実験物理学の関係と類似 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 1.言語学と統計的自然言語処理の関係性
• 古典的な統計的自然言語処理 – PCFG ⇒Stochastic HPSG, Stochastic CCG • 確率的文脈自由文法
• 文法(ルール)に重みづけ – 名詞の後には動詞が来やすい(重みが高い≒コストが低い) 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 2.「統計=重みづけ」からの脱却
• 古典的な統計的自然言語処理 – PCFG ⇒Stochastic HPSG, Stochastic CCG • 確率的文脈自由文法
• 文法(ルール)に重みづけ – 名詞の後には動詞が来やすい(重みが高い≒コストが低い) • 最新の統計的自然言語処理 – 高度な数学モデル(線形空間・確率過程等)の適用 • 異なる言語間の対訳を取得;dog-chien (CCA) • 単語の系統樹の推定(MCMC法) – その他;強化学習・カーネル法,無限モデル… 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 2.「統計=重みづけ」からの脱却
• 言語学者の主観情報に頼らずともよい? – e.g.)Positive な単語,Negativeな単語の判別. • Amazonレビューの星の多さを前提とした統計モデルで 単語の正負を推定 – 教師なし学習の可能性
– そもそもアノテーションは高価≒コスト大. • DCSによる教師なし学習[Liang 11] – 質問応答の研究 – 手動のアノテーションなしに大幅な高性能化達成 – 隠れた意味の設計(c.f.階層的ベイズモデル) 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 3.「深い理解」とは?
• 言語学,自然言語処理の有用性は高い ⇒半教師あり学習 • ラベルありデータとラベルなしデータが混合. – [Suzuki 08] Products of
Experts , , ∝ ∙ , » ラベル付きデータで最大化⇔ラベルなしデータで最大化 – [Jiao 06] ラベルなしデータを用いた正則化 ℒ = − + + ( (| )) • 技術としてはまだ未完成 • 教師有データの取り入れ方;正しいと限らない ⇒モデル作成のベース 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 4.半教師あり学習と統計モデルの設計
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ
第5週 5.広がる統計モデルと自然言語,6.展望とまとめ
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 • 言語の目的は“コミュニケーション” – 言語は”どう使われるべきか”でなく”私たちがどう使うか”
2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 5.広がる統計モデルと自然言語,6.展望とまとめ
• 画像や音を利用した言語の統計的学習[Iwahashi 10][Kollar 10] – 言葉のシンボルグラウンディング,意味役割の学習 • 言語の目的は“コミュニケーション” – 言語は”どう使われるべきか”でなく”私たちがどう使うか”
– 言語額の厳密な代数的・離散的性質は目的に合致しない • 曖昧性こそがコミュニケーション効率を高めている[Piantadosi 12] – 統計的自然言語処理の高度化 » 最大エントロピー法…L-BFGS,オンライン学習法 » HMM, PCFG等の次元数決定問題⇒Infinite Model[Neal03] » EMアルゴリズム⇒変数ベイズ法, EP法,MCMC法 2014/2/4 自然言語処理研究室 2013年度 B3ゼミ 第5週 5.広がる統計モデルと自然言語,6.展望とまとめ