Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストマイニング
Search
katsutan
March 09, 2017
Technology
130
0
Share
テキストマイニング
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表7
katsutan
March 09, 2017
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
250
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
220
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
330
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
Cortex Codeのコスト見積ヒントご紹介
yokatsuki
0
150
「QA=テスト」「シフトレフト=スクラムイベントの参加者の一員」の呪縛を解く。アジャイルな開発を止めないために、10Xで挑んだ「右側のしわ寄せ」解消記 #scrumniigata
nihonbuson
PRO
3
780
AIの揺らぎに“コシ”を与える階層化品質設計
ickx
0
210
「誰一人取り残されない」 AIエージェント時代のプロダクト設計思想 Product Management Summit 2026
mizushimac
1
2.8k
AIと乗り切った1,500ページ超のヘルプサイト基盤刷新とさらにその先の話
mugi_uno
2
300
AgentCore×VPCでの設計パターンn選と勘所
har1101
4
380
もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜!
morinota
0
170
ServiceNow Knowledge 26 の歩き方
manarobot
0
330
アクセシビリティはすべての人のもの
tomokusaba
0
250
AI活用時代の事業判断高度化を導くエンジニアリング基盤 / 20260424 Atsushi Funahashi
shift_evolve
PRO
2
130
カオナビに Suspenseを導入するまで / The Road to Suspense at kaonavi
kaonavi
1
380
ブラウザの投機的読み込みと投機ルールAPIを理解し、Webサービスのパフォーマンスを最適化する
shuta13
3
270
Featured
See All Featured
Are puppies a ranking factor?
jonoalderson
1
3.4k
Balancing Empowerment & Direction
lara
6
1.1k
Thoughts on Productivity
jonyablonski
76
5.1k
[SF Ruby Conf 2025] Rails X
palkan
2
1k
Tell your own story through comics
letsgokoyo
1
910
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
360
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
340
We Are The Robots
honzajavorek
0
220
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.2k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
140
Transcript
テキストマイニング 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/10
テキストマイニングとは • テキストの中の言葉どうしに見られるパターン や規則性を見つけ、知識・情報を取り出す。 ▫ 形態素の出現頻度、あるかないか。 ▫ 出現パターンや相関関係を分析 • 言葉どうしの共通性、類似性
2
分析の流れ 3 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ カテゴリー カテゴリー カテゴリー 概念 概念 概念
分析の流れ • 「複数の事物や事象から共通の特徴を取り出し、それら を包括的、概括的に捉える思考の構成単位」 • 研究者の解釈が含まれると再現性がなくなる。 • 厳密なルールが必要 4 概念
概念 概念
多変量解析 • 多くの変数、データを解析 5 国語 算数 理科 社会 英語 Aさん
55 70 85 48 57 Bさん 65 60 59 55 72 Cさん 72 55 74 63 85 平均 64.0 61.7 72.7 55.3 71.3
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 6
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 7 国語 算数 理科 社会 英語 国語 1.000 -0.739 -0.511 0.990 0.998 算数 1.000 0.957 -0.638 -0.697 理科 1.000 -0.386 -0.458 社会 1.000 0.997
Χ2値 • 共変動の強さ(分散の大きさ) = 実測値、 = 期待値 2 = −
2 =1 • 分散が大きい程データには何らかの意味を持っ ている 8
数量化Ⅲ類 • 質的変数、量的に意味がないデータの解析。 • クロス集計表から線形関係を見出す 9 豚骨 鶏ガラ 煮干し マイルド
ピリ辛 こってり さっぱり A店 10 1 1 6 5 7 1 B店 10 0 0 2 3 9 0 C店 1 9 1 5 5 2 1 D店 0 1 8 2 0 1 6 E店 9 2 0 4 6 6 0 F店 8 6 7 9 10 1 7
数量化Ⅲ類 • 左列から順に数値の大きいものに入れ替える 10 豚骨 こってり マイルド ピリ辛 鶏ガラ 煮干し
さっぱり A店 10 7 6 5 1 1 1 B店 10 9 2 3 0 0 0 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7
数量化Ⅲ類 • 上から順に数値の大きいもの • こってり-さっぱり 11 豚骨 こってり マイルド ピリ辛
鶏ガラ 煮干し さっぱり B店 10 9 2 3 0 0 0 A店 10 7 6 5 1 1 1 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6
数量化Ⅲ類 • 寄与率 ▫ その軸がデータの何%を説明するかの指標 12 第一軸 第二軸 第三軸 第四軸
第五軸 寄与率 64.91% 29.13% 5.32% 0.56% 0.08% 累積寄与率 64.91% 94.04% 99.36% 99.92% 100%
数量化Ⅲ類 • 座標値 13 B C D A E F
煮干し さっぱり こってり 豚骨 マイルド 鶏ガラ ピリ辛
まとめ • 言葉などの質的データに対する客観的な分析方 法はすでに確立している。 • 言葉のデータはどれをキーワードにするか、析 出するかという点は、恣意的、主観的になる。 14
参考文献 • 福祉・心理・看護のテキストマイニング入門 藤井美和・小杉考司・李政元 編著 中央法規 15