Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_02nd
Search
takegue
January 14, 2014
Education
0
41
自然言語処理研究室B3ゼミ_02nd
takegue
January 14, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
870
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
910
Sparse Overcomplete Word Vector Representations
takegue
0
220
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
220
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
80
Other Decks in Education
See All in Education
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
2k
the difficulty into words
ukky86
0
140
SISTEMA DE MEMORIA Y SU IMPACTO EN LAS DECISIONES.
jvpcubias
0
180
理想の英語力に一直線!最高効率な英語学習のすゝめ
logica0419
6
430
Sanapilvet opetuksessa
matleenalaakso
0
34k
尊敬語「くださる」と謙譲語「いただく」の使い分け
hysmrk
0
110
Introduction - Lecture 1 - Web Technologies (1019888BNR)
signer
PRO
0
5.6k
Alumnote inc. Company Deck
yukinumata
0
3.8k
登壇未経験者のための登壇戦略~LTは設計が9割!!!~
masakiokuda
3
710
中間活動報告会 人材育成WG・技術サブWG / 20250808-oidfj-eduWG-techSWG
oidfj
0
740
バケットポリシーの記述を誤りマネコンからS3バケットを操作できなくなりそうになった話
amarelo_n24
1
120
KBS新事業創造体験2025_科目説明会
yasuchikawakayama
0
110
Featured
See All Featured
Thoughts on Productivity
jonyablonski
70
4.9k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
Visualization
eitanlees
149
16k
Designing for humans not robots
tammielis
254
26k
Agile that works and the tools we love
rasmusluckow
331
21k
Become a Pro
speakerdeck
PRO
29
5.6k
Mobile First: as difficult as doing things right
swwweet
224
10k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Designing Experiences People Love
moore
142
24k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
20
1.2k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第2回 ~機械学習と自然言語処理について~ 長岡技術科学大学 B3 竹野
峻輔
• 計算機が データから規則性や法則性を見出し それ自身をアルゴリズムに反映させること 例えば… 広告(Facebook, Google…) ロボットのバランス制御 天気予報、地震予測などなど 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習とは?
• 機械学習(Machine Learning) –既知のデータから法則性を発見し データの予測できるようにすること • データマイニング(Data Mining) –既存のデータから 有益な未知のデータの特徴を発掘すること
2013/1/14 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習とデータマイニングの違い
• 教師有あり学習(Supervised ML) – 予め用意されたサンプルから法則性を見つける – クラス分類 • (ナイーブベイズ推定、SVM、ニューラルネットワーク) •
教師なし学習(Unsupervised ML) – サンプルなしでデータから法則性を見つける。 – クラスタ分析 • (k-means法、EMアルゴリズム) • 強化学習(Reinforcement ML) – 評価関数からアルゴリズムへフィードバックを行い改良を、 独自に改善を図っていく。 – 自動要約? • TD学習、Q学習 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習の種類
• 教師有あり学習(Supervised ML)(一番やりやすい) – 予め用意されたサンプルから法則性を見つける – クラス分類 • (ナイーブベイズ推定、SVM、ニューラルネットワーク) •
教師なし学習(Unsupervised ML) – サンプルなしでデータから法則性を見つける。 – クラスタ分析 • (k-means法、EMアルゴリズム) • 強化学習(Reinforcement ML) – 評価関数からアルゴリズムへフィードバックを行い改良を、 独自に改善を図っていく。 – 自動要約? • TD学習、Q学習 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習の種類
• 文書(自然言語)そのままでは処理しづらい 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回
どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 既知のデータから法則性を発見し データの予測ができるようにすること …未知のデータと既知のデータとの比較が必要 2013/12/24 自然言語処理研究室
2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 既知のデータから法則性を発見し データの予測ができるようにすること …未知のデータと既知のデータとの比較が必要 類似度の計算ができるような値を取り出す 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• ベクトル –内積 • 木構造(グラフ)データ – シソーラス • 格フレーム •
確率分布(関数) – 平均値、偏差、歪度、尖度 (モーメント) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 類似度が計算できるもの(例)
• ベクトル: –Bag-of-words(文書、文比較) • ある単語(方向)の頻度(長さ) Ex) The pen is better
than that pen! ⇒(pen, better, stick) = (2, 1 , 0) –文脈ベクトル(単語の比較) • 空 高く 飛ぶ(名詞 副詞 動詞) ⇒(名詞, 形容詞, 副詞, 動詞, 形容動詞) = (1,0,0,0,1,0) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 代表的な素性
• 訓練データからクラスの傾向を学習し、 データがどのクラスに所属するか予測する。 not クラスタ解析(≒クラス分析) ・ナイーブベイズ分類器 -条件付き確率を学習 P(c|d) ≌ P(c)P(d|c)
簡単、学習早い、精度それなり ・SVM(Support Vector Machine) -多次元の境界面を学習 -解析的、学習時間かかる、精度高い 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 クラス分類(Classification)のための機械学習
• 奥村学 監修 「言語処理のための機械学習入 門」, 高村大地著 • 機械学習をはじめよう, gihyo.jp, http://gihyo.jp/dev/serial/01/machine-learning
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献