Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_02nd
Search
takegue
January 14, 2014
Education
0
38
自然言語処理研究室B3ゼミ_02nd
takegue
January 14, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
830
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
72
Other Decks in Education
See All in Education
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
2.6k
リバースバケットリスト 〜 「死ぬまでにやることリスト」の欠点と対処法
takibi333
0
130
新人研修の課題と未来を考える
natsukokanda1225
0
1.4k
Sanapilvet opetuksessa
matleenalaakso
0
31k
書を持って、自転車で町へ出よう
yuritaco
0
150
地図を活用した関西シビックテック事例紹介
barsaka2
0
180
OnShapeの紹介-概要編
shiba_8ro
0
110
HyRead2425
cbtlibrary
0
130
Diseño de estrategia de analítica del aprendizaje en tu centro educativo.
tecuribarri
0
150
CV_1_Introduction
hachama
0
160
Multimodal Interaction - Lecture 3 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.5k
Monaca Education 活用事例セミナー:「年間通してMonaca Educationを活用する授業実践のご報告」
asial_edu
0
130
Featured
See All Featured
Visualization
eitanlees
146
15k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
GitHub's CSS Performance
jonrohan
1030
460k
Navigating Team Friction
lara
183
15k
BBQ
matthewcrist
87
9.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
50k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第2回 ~機械学習と自然言語処理について~ 長岡技術科学大学 B3 竹野
峻輔
• 計算機が データから規則性や法則性を見出し それ自身をアルゴリズムに反映させること 例えば… 広告(Facebook, Google…) ロボットのバランス制御 天気予報、地震予測などなど 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習とは?
• 機械学習(Machine Learning) –既知のデータから法則性を発見し データの予測できるようにすること • データマイニング(Data Mining) –既存のデータから 有益な未知のデータの特徴を発掘すること
2013/1/14 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習とデータマイニングの違い
• 教師有あり学習(Supervised ML) – 予め用意されたサンプルから法則性を見つける – クラス分類 • (ナイーブベイズ推定、SVM、ニューラルネットワーク) •
教師なし学習(Unsupervised ML) – サンプルなしでデータから法則性を見つける。 – クラスタ分析 • (k-means法、EMアルゴリズム) • 強化学習(Reinforcement ML) – 評価関数からアルゴリズムへフィードバックを行い改良を、 独自に改善を図っていく。 – 自動要約? • TD学習、Q学習 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習の種類
• 教師有あり学習(Supervised ML)(一番やりやすい) – 予め用意されたサンプルから法則性を見つける – クラス分類 • (ナイーブベイズ推定、SVM、ニューラルネットワーク) •
教師なし学習(Unsupervised ML) – サンプルなしでデータから法則性を見つける。 – クラスタ分析 • (k-means法、EMアルゴリズム) • 強化学習(Reinforcement ML) – 評価関数からアルゴリズムへフィードバックを行い改良を、 独自に改善を図っていく。 – 自動要約? • TD学習、Q学習 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習の種類
• 文書(自然言語)そのままでは処理しづらい 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回
どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 既知のデータから法則性を発見し データの予測ができるようにすること …未知のデータと既知のデータとの比較が必要 2013/12/24 自然言語処理研究室
2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 既知のデータから法則性を発見し データの予測ができるようにすること …未知のデータと既知のデータとの比較が必要 類似度の計算ができるような値を取り出す 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• ベクトル –内積 • 木構造(グラフ)データ – シソーラス • 格フレーム •
確率分布(関数) – 平均値、偏差、歪度、尖度 (モーメント) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 類似度が計算できるもの(例)
• ベクトル: –Bag-of-words(文書、文比較) • ある単語(方向)の頻度(長さ) Ex) The pen is better
than that pen! ⇒(pen, better, stick) = (2, 1 , 0) –文脈ベクトル(単語の比較) • 空 高く 飛ぶ(名詞 副詞 動詞) ⇒(名詞, 形容詞, 副詞, 動詞, 形容動詞) = (1,0,0,0,1,0) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 代表的な素性
• 訓練データからクラスの傾向を学習し、 データがどのクラスに所属するか予測する。 not クラスタ解析(≒クラス分析) ・ナイーブベイズ分類器 -条件付き確率を学習 P(c|d) ≌ P(c)P(d|c)
簡単、学習早い、精度それなり ・SVM(Support Vector Machine) -多次元の境界面を学習 -解析的、学習時間かかる、精度高い 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 クラス分類(Classification)のための機械学習
• 奥村学 監修 「言語処理のための機械学習入 門」, 高村大地著 • 機械学習をはじめよう, gihyo.jp, http://gihyo.jp/dev/serial/01/machine-learning
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献