Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストマイニング
Search
katsutan
March 09, 2017
Technology
0
120
テキストマイニング
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表7
katsutan
March 09, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
220
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
200
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
250
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
200
Improving Word Embeddings Using Kernel PCA
katsutan
0
210
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
310
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
250
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
290
Other Decks in Technology
See All in Technology
20250913_JAWS_sysad_kobe
takuyay0ne
2
250
roppongirb_20250911
igaiga
1
240
LLM時代のパフォーマンスチューニング:MongoDB運用で試したコンテキスト活用の工夫
ishikawa_pro
0
170
Evolución del razonamiento matemático de GPT-4.1 a GPT-5 - Data Aventura Summit 2025 & VSCode DevDays
lauchacarro
0
210
Oracle Cloud Infrastructure IaaS 新機能アップデート 2025/06 - 2025/08
oracle4engineer
PRO
0
110
Snowflake Intelligenceにはこうやって立ち向かう!クラシルが考えるAI Readyなデータ基盤と活用のためのDataOps
gappy50
0
280
自作JSエンジンに推しプロポーザルを実装したい!
sajikix
1
190
実践!カスタムインストラクション&スラッシュコマンド
puku0x
0
510
5分でカオスエンジニアリングを分かった気になろう
pandayumi
0
260
新アイテムをどう使っていくか?みんなであーだこーだ言ってみよう / 20250911-rpi-jam-tokyo
akkiesoft
0
330
react-callを使ってダイヤログをいろんなとこで再利用しよう!
shinaps
2
260
Codeful Serverless / 一人運用でもやり抜く力
_kensh
7
450
Featured
See All Featured
Optimizing for Happiness
mojombo
379
70k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
GitHub's CSS Performance
jonrohan
1032
460k
Building Applications with DynamoDB
mza
96
6.6k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Six Lessons from altMBA
skipperchong
28
4k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.9k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Transcript
テキストマイニング 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/10
テキストマイニングとは • テキストの中の言葉どうしに見られるパターン や規則性を見つけ、知識・情報を取り出す。 ▫ 形態素の出現頻度、あるかないか。 ▫ 出現パターンや相関関係を分析 • 言葉どうしの共通性、類似性
2
分析の流れ 3 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ カテゴリー カテゴリー カテゴリー 概念 概念 概念
分析の流れ • 「複数の事物や事象から共通の特徴を取り出し、それら を包括的、概括的に捉える思考の構成単位」 • 研究者の解釈が含まれると再現性がなくなる。 • 厳密なルールが必要 4 概念
概念 概念
多変量解析 • 多くの変数、データを解析 5 国語 算数 理科 社会 英語 Aさん
55 70 85 48 57 Bさん 65 60 59 55 72 Cさん 72 55 74 63 85 平均 64.0 61.7 72.7 55.3 71.3
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 6
多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 7 国語 算数 理科 社会 英語 国語 1.000 -0.739 -0.511 0.990 0.998 算数 1.000 0.957 -0.638 -0.697 理科 1.000 -0.386 -0.458 社会 1.000 0.997
Χ2値 • 共変動の強さ(分散の大きさ) = 実測値、 = 期待値 2 = −
2 =1 • 分散が大きい程データには何らかの意味を持っ ている 8
数量化Ⅲ類 • 質的変数、量的に意味がないデータの解析。 • クロス集計表から線形関係を見出す 9 豚骨 鶏ガラ 煮干し マイルド
ピリ辛 こってり さっぱり A店 10 1 1 6 5 7 1 B店 10 0 0 2 3 9 0 C店 1 9 1 5 5 2 1 D店 0 1 8 2 0 1 6 E店 9 2 0 4 6 6 0 F店 8 6 7 9 10 1 7
数量化Ⅲ類 • 左列から順に数値の大きいものに入れ替える 10 豚骨 こってり マイルド ピリ辛 鶏ガラ 煮干し
さっぱり A店 10 7 6 5 1 1 1 B店 10 9 2 3 0 0 0 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7
数量化Ⅲ類 • 上から順に数値の大きいもの • こってり-さっぱり 11 豚骨 こってり マイルド ピリ辛
鶏ガラ 煮干し さっぱり B店 10 9 2 3 0 0 0 A店 10 7 6 5 1 1 1 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6
数量化Ⅲ類 • 寄与率 ▫ その軸がデータの何%を説明するかの指標 12 第一軸 第二軸 第三軸 第四軸
第五軸 寄与率 64.91% 29.13% 5.32% 0.56% 0.08% 累積寄与率 64.91% 94.04% 99.36% 99.92% 100%
数量化Ⅲ類 • 座標値 13 B C D A E F
煮干し さっぱり こってり 豚骨 マイルド 鶏ガラ ピリ辛
まとめ • 言葉などの質的データに対する客観的な分析方 法はすでに確立している。 • 言葉のデータはどれをキーワードにするか、析 出するかという点は、恣意的、主観的になる。 14
参考文献 • 福祉・心理・看護のテキストマイニング入門 藤井美和・小杉考司・李政元 編著 中央法規 15