Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストマイニング
Search
katsutan
March 09, 2017
Technology
0
120
テキストマイニング
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表7
katsutan
March 09, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
190
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
170
Simple task-specific bilingual word embeddings
katsutan
0
190
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
220
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
170
Improving Word Embeddings Using Kernel PCA
katsutan
0
190
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
270
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
240
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
260
Other Decks in Technology
See All in Technology
データモデルYANGの処理系を再発明した話
tjmtrhs
0
210
サバイバルモード下でのエンジニアリングマネジメント
konifar
15
3.9k
役員・マネージャー・著者・エンジニアそれぞれの立場から見たAWS認定資格
nrinetcom
PRO
4
6.5k
What's new in Go 1.24?
ciarana
1
110
ExaDB-XSで利用されているExadata Exascaleについて
oracle4engineer
PRO
3
280
DevinでAI AWSエンジニア製造計画 序章 〜CDKを添えて〜/devin-load-to-aws-engineer
tomoki10
0
190
サイト信頼性エンジニアリングとAmazon Web Services / SRE and AWS
ymotongpoo
7
1.8k
いまからでも遅くない!コンテナでWebアプリを動かしてみよう!コンテナハンズオン編
nomu
0
170
EDRの検知の仕組みと検知回避について
chayakonanaika
12
5.2k
IAMのマニアックな話2025
nrinetcom
PRO
6
1.4k
AIエージェント開発のノウハウと課題
pharma_x_tech
8
4.4k
[OpsJAWS Meetup33 AIOps] Amazon Bedrockガードレールで守る安全なAI運用
akiratameto
1
130
Featured
See All Featured
Speed Design
sergeychernyshev
27
810
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Code Reviewing Like a Champion
maltzj
521
39k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
Building an army of robots
kneath
303
45k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
How to train your dragon (web standard)
notwaldorf
91
5.9k
Side Projects
sachag
452
42k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Large-scale JavaScript Application Architecture
addyosmani
511
110k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
Transcript
テキストマイニング 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/10
テキストマイニングとは • テキストの中の言葉どうしに見られるパターン や規則性を見つけ、知識・情報を取り出す。 ▫ 形態素の出現頻度、あるかないか。 ▫ 出現パターンや相関関係を分析 • 言葉どうしの共通性、類似性
2
分析の流れ 3 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ カテゴリー カテゴリー カテゴリー 概念 概念 概念
分析の流れ • 「複数の事物や事象から共通の特徴を取り出し、それら を包括的、概括的に捉える思考の構成単位」 • 研究者の解釈が含まれると再現性がなくなる。 • 厳密なルールが必要 4 概念
概念 概念
多変量解析 • 多くの変数、データを解析 5 国語 算数 理科 社会 英語 Aさん
55 70 85 48 57 Bさん 65 60 59 55 72 Cさん 72 55 74 63 85 平均 64.0 61.7 72.7 55.3 71.3
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 6
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 7 国語 算数 理科 社会 英語 国語 1.000 -0.739 -0.511 0.990 0.998 算数 1.000 0.957 -0.638 -0.697 理科 1.000 -0.386 -0.458 社会 1.000 0.997
Χ2値 • 共変動の強さ(分散の大きさ) = 実測値、 = 期待値 2 = −
2 =1 • 分散が大きい程データには何らかの意味を持っ ている 8
数量化Ⅲ類 • 質的変数、量的に意味がないデータの解析。 • クロス集計表から線形関係を見出す 9 豚骨 鶏ガラ 煮干し マイルド
ピリ辛 こってり さっぱり A店 10 1 1 6 5 7 1 B店 10 0 0 2 3 9 0 C店 1 9 1 5 5 2 1 D店 0 1 8 2 0 1 6 E店 9 2 0 4 6 6 0 F店 8 6 7 9 10 1 7
数量化Ⅲ類 • 左列から順に数値の大きいものに入れ替える 10 豚骨 こってり マイルド ピリ辛 鶏ガラ 煮干し
さっぱり A店 10 7 6 5 1 1 1 B店 10 9 2 3 0 0 0 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7
数量化Ⅲ類 • 上から順に数値の大きいもの • こってり-さっぱり 11 豚骨 こってり マイルド ピリ辛
鶏ガラ 煮干し さっぱり B店 10 9 2 3 0 0 0 A店 10 7 6 5 1 1 1 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6
数量化Ⅲ類 • 寄与率 ▫ その軸がデータの何%を説明するかの指標 12 第一軸 第二軸 第三軸 第四軸
第五軸 寄与率 64.91% 29.13% 5.32% 0.56% 0.08% 累積寄与率 64.91% 94.04% 99.36% 99.92% 100%
数量化Ⅲ類 • 座標値 13 B C D A E F
煮干し さっぱり こってり 豚骨 マイルド 鶏ガラ ピリ辛
まとめ • 言葉などの質的データに対する客観的な分析方 法はすでに確立している。 • 言葉のデータはどれをキーワードにするか、析 出するかという点は、恣意的、主観的になる。 14
参考文献 • 福祉・心理・看護のテキストマイニング入門 藤井美和・小杉考司・李政元 編著 中央法規 15