Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_02nd
Search
takegue
January 14, 2014
Education
0
41
自然言語処理研究室B3ゼミ_02nd
takegue
January 14, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
860
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.4k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
900
Sparse Overcomplete Word Vector Representations
takegue
0
210
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
78
Other Decks in Education
See All in Education
マネジメント「される側」 こそ覚悟を決めろ
nao_randd
10
5.4k
検索/ディスプレイ/SNS
takenawa
0
7.6k
ThingLink
matleenalaakso
28
4.1k
JPCERTから始まる草の根活動~セキュリティ文化醸成のためのアクション~
masakiokuda
0
190
American Airlines® USA Contact Numbers: The Ultimate 2025 Guide
lievliev
0
240
Open Source Summit Japan 2025のボランティアをしませんか
kujiraitakahiro
0
740
社外コミュニティと「学び」を考える
alchemy1115
2
170
The Art of Note Taking
kanaya
1
140
CHARMS-HP-Banner
weltraumreisende
0
270
万博非公式マップとFOSS4G
barsaka2
0
430
OpenSourceSummitJapanを運営してみた話
kujiraitakahiro
0
720
ARアプリを活用した防災まち歩きデータ作成ハンズオン
nro2daisuke
0
120
Featured
See All Featured
KATA
mclloyd
30
14k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
282
13k
How to Ace a Technical Interview
jacobian
278
23k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.7k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Designing for humans not robots
tammielis
253
25k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Unsuck your backbone
ammeep
671
58k
RailsConf 2023
tenderlove
30
1.1k
Embracing the Ebb and Flow
colly
86
4.8k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第2回 ~機械学習と自然言語処理について~ 長岡技術科学大学 B3 竹野
峻輔
• 計算機が データから規則性や法則性を見出し それ自身をアルゴリズムに反映させること 例えば… 広告(Facebook, Google…) ロボットのバランス制御 天気予報、地震予測などなど 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習とは?
• 機械学習(Machine Learning) –既知のデータから法則性を発見し データの予測できるようにすること • データマイニング(Data Mining) –既存のデータから 有益な未知のデータの特徴を発掘すること
2013/1/14 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習とデータマイニングの違い
• 教師有あり学習(Supervised ML) – 予め用意されたサンプルから法則性を見つける – クラス分類 • (ナイーブベイズ推定、SVM、ニューラルネットワーク) •
教師なし学習(Unsupervised ML) – サンプルなしでデータから法則性を見つける。 – クラスタ分析 • (k-means法、EMアルゴリズム) • 強化学習(Reinforcement ML) – 評価関数からアルゴリズムへフィードバックを行い改良を、 独自に改善を図っていく。 – 自動要約? • TD学習、Q学習 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習の種類
• 教師有あり学習(Supervised ML)(一番やりやすい) – 予め用意されたサンプルから法則性を見つける – クラス分類 • (ナイーブベイズ推定、SVM、ニューラルネットワーク) •
教師なし学習(Unsupervised ML) – サンプルなしでデータから法則性を見つける。 – クラスタ分析 • (k-means法、EMアルゴリズム) • 強化学習(Reinforcement ML) – 評価関数からアルゴリズムへフィードバックを行い改良を、 独自に改善を図っていく。 – 自動要約? • TD学習、Q学習 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 機械学習の種類
• 文書(自然言語)そのままでは処理しづらい 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回
どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 既知のデータから法則性を発見し データの予測ができるようにすること …未知のデータと既知のデータとの比較が必要 2013/12/24 自然言語処理研究室
2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• 文書(自然言語)そのままでは処理しづらい ⇒具体的な数値(素性抽出)を知る必要がある。 ⇒どのようなことに気を付ければよいだろうか? 改めて、機械学習とは? 既知のデータから法則性を発見し データの予測ができるようにすること …未知のデータと既知のデータとの比較が必要 類似度の計算ができるような値を取り出す 2013/12/24
自然言語処理研究室 2013年度 B3コアタイム 第2回 どうやって自然言語処理に対応するか?
• ベクトル –内積 • 木構造(グラフ)データ – シソーラス • 格フレーム •
確率分布(関数) – 平均値、偏差、歪度、尖度 (モーメント) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 類似度が計算できるもの(例)
• ベクトル: –Bag-of-words(文書、文比較) • ある単語(方向)の頻度(長さ) Ex) The pen is better
than that pen! ⇒(pen, better, stick) = (2, 1 , 0) –文脈ベクトル(単語の比較) • 空 高く 飛ぶ(名詞 副詞 動詞) ⇒(名詞, 形容詞, 副詞, 動詞, 形容動詞) = (1,0,0,0,1,0) 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 代表的な素性
• 訓練データからクラスの傾向を学習し、 データがどのクラスに所属するか予測する。 not クラスタ解析(≒クラス分析) ・ナイーブベイズ分類器 -条件付き確率を学習 P(c|d) ≌ P(c)P(d|c)
簡単、学習早い、精度それなり ・SVM(Support Vector Machine) -多次元の境界面を学習 -解析的、学習時間かかる、精度高い 2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 クラス分類(Classification)のための機械学習
• 奥村学 監修 「言語処理のための機械学習入 門」, 高村大地著 • 機械学習をはじめよう, gihyo.jp, http://gihyo.jp/dev/serial/01/machine-learning
2013/12/24 自然言語処理研究室 2013年度 B3コアタイム 第2回 参考文献