Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストマイニング
Search
katsutan
March 09, 2017
Technology
0
120
テキストマイニング
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表7
katsutan
March 09, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
210
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
220
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
260
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
290
Other Decks in Technology
See All in Technology
Introduce marp-ai-slide-generator
itarutomy
0
130
20251203_AIxIoTビジネス共創ラボ_第4回勉強会_BP山崎.pdf
iotcomjpadmin
0
140
ESXi のAIOps だ!2025冬
unnowataru
0
390
株式会社ビザスク_AI__Engineering_Summit_Tokyo_2025_登壇資料.pdf
eikohashiba
1
120
NIKKEI Tech Talk #41: セキュア・バイ・デザインからクラウド管理を考える
sekido
PRO
0
230
AI との良い付き合い方を僕らは誰も知らない
asei
0
270
半年で、AIゼロ知識から AI中心開発組織の変革担当に至るまで
rfdnxbro
0
150
なぜ あなたはそんなに re:Invent に行くのか?
miu_crescent
PRO
0
220
Strands AgentsとNova 2 SonicでS2Sを実践してみた
yama3133
1
1.9k
Strands Agents × インタリーブ思考 で変わるAIエージェント設計 / Strands Agents x Interleaved Thinking AI Agents
takanorig
5
2.2k
マイクロサービスへの5年間 ぶっちゃけ何をしてどうなったか
joker1007
21
8.3k
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
2
200
Featured
See All Featured
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
67
The #1 spot is gone: here's how to win anyway
tamaranovitovic
1
870
Ruling the World: When Life Gets Gamed
codingconduct
0
100
Why Our Code Smells
bkeepers
PRO
340
57k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
48
What does AI have to do with Human Rights?
axbom
PRO
0
1.9k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
0
130
Bash Introduction
62gerente
615
210k
WCS-LA-2024
lcolladotor
0
390
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
2.8k
30 Presentation Tips
portentint
PRO
1
180
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
Transcript
テキストマイニング 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/10
テキストマイニングとは • テキストの中の言葉どうしに見られるパターン や規則性を見つけ、知識・情報を取り出す。 ▫ 形態素の出現頻度、あるかないか。 ▫ 出現パターンや相関関係を分析 • 言葉どうしの共通性、類似性
2
分析の流れ 3 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ カテゴリー カテゴリー カテゴリー 概念 概念 概念
分析の流れ • 「複数の事物や事象から共通の特徴を取り出し、それら を包括的、概括的に捉える思考の構成単位」 • 研究者の解釈が含まれると再現性がなくなる。 • 厳密なルールが必要 4 概念
概念 概念
多変量解析 • 多くの変数、データを解析 5 国語 算数 理科 社会 英語 Aさん
55 70 85 48 57 Bさん 65 60 59 55 72 Cさん 72 55 74 63 85 平均 64.0 61.7 72.7 55.3 71.3
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 6
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 7 国語 算数 理科 社会 英語 国語 1.000 -0.739 -0.511 0.990 0.998 算数 1.000 0.957 -0.638 -0.697 理科 1.000 -0.386 -0.458 社会 1.000 0.997
Χ2値 • 共変動の強さ(分散の大きさ) = 実測値、 = 期待値 2 = −
2 =1 • 分散が大きい程データには何らかの意味を持っ ている 8
数量化Ⅲ類 • 質的変数、量的に意味がないデータの解析。 • クロス集計表から線形関係を見出す 9 豚骨 鶏ガラ 煮干し マイルド
ピリ辛 こってり さっぱり A店 10 1 1 6 5 7 1 B店 10 0 0 2 3 9 0 C店 1 9 1 5 5 2 1 D店 0 1 8 2 0 1 6 E店 9 2 0 4 6 6 0 F店 8 6 7 9 10 1 7
数量化Ⅲ類 • 左列から順に数値の大きいものに入れ替える 10 豚骨 こってり マイルド ピリ辛 鶏ガラ 煮干し
さっぱり A店 10 7 6 5 1 1 1 B店 10 9 2 3 0 0 0 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7
数量化Ⅲ類 • 上から順に数値の大きいもの • こってり-さっぱり 11 豚骨 こってり マイルド ピリ辛
鶏ガラ 煮干し さっぱり B店 10 9 2 3 0 0 0 A店 10 7 6 5 1 1 1 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6
数量化Ⅲ類 • 寄与率 ▫ その軸がデータの何%を説明するかの指標 12 第一軸 第二軸 第三軸 第四軸
第五軸 寄与率 64.91% 29.13% 5.32% 0.56% 0.08% 累積寄与率 64.91% 94.04% 99.36% 99.92% 100%
数量化Ⅲ類 • 座標値 13 B C D A E F
煮干し さっぱり こってり 豚骨 マイルド 鶏ガラ ピリ辛
まとめ • 言葉などの質的データに対する客観的な分析方 法はすでに確立している。 • 言葉のデータはどれをキーワードにするか、析 出するかという点は、恣意的、主観的になる。 14
参考文献 • 福祉・心理・看護のテキストマイニング入門 藤井美和・小杉考司・李政元 編著 中央法規 15