Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
多変量解析(数量化Ⅰ~Ⅳ類)
Search
katsutan
March 30, 2017
Technology
0
300
多変量解析(数量化Ⅰ~Ⅳ類)
長岡技術科学大学 自然言語処理研究室 B3ゼミ発表9
katsutan
March 30, 2017
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
180
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
160
Simple task-specific bilingual word embeddings
katsutan
0
180
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
200
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
150
Improving Word Embeddings Using Kernel PCA
katsutan
0
180
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
240
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
220
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
250
Other Decks in Technology
See All in Technology
o11y入門_外形監視を利用したWebアプリケーションへの最適なモニタリング_TechBrew
k5k
3
100
Postman v10リリース後を振り返る
nagix
0
130
20240416_devopsdaystokyo
kzkmaeda
1
190
長期運用プロジェクトでのMySQLからTiDB移行の検証
colopl
2
670
Terraformあれやこれ/terraform-this-and-that
emiki
6
490
Data and AI Governance: Existing Challenges and Emerging Trends
scotthsieh825
0
160
普段有償でサポート業務をしているCSAが技術知見を無料で公開する理由
07jp27
1
640
元インフラエンジニアに成る / Human Resources to Human Relations
bobtani
3
810
4年前、あるじゃん老害エンジニアLT合戦に登壇、米国西海岸コンピュータ歴史博物館体験記の続編
toshi_atsumi
0
200
WebアプリケーションにおけるPDOの使い方入門 / phpcon odawara 2024
meihei3
2
430
HEXA OSINT CTF V3 作戦会議
meow_noisy
0
110
エンタープライズ環境下での Active Directory の運用 TIPS
tamaiyutaro
1
1.6k
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
10
980
Ruby is Unlike a Banana
tanoku
96
10k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
15
1.4k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
GitHub's CSS Performance
jonrohan
1023
450k
RailsConf 2023
tenderlove
2
530
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
60
14k
Git: the NoSQL Database
bkeepers
PRO
422
63k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
19
1.9k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
76
41k
Transcript
多変量解析(数量化Ⅰ~Ⅳ類) 長岡技術科学大学 自然言語処理研究室 学部3年 勝田 哲弘 1 2017/3/31
データ • 4種の尺度 • 名義尺度 ▫ 数値自体に意味がない • 順序尺度 ▫
大小には意味がある 2 質的データ 名義尺度 名義的に数値化 男を1、女を2 順序尺度 順序に意味がある 好き1、それほどではな い2、嫌い3 量的データ 間隔尺度 数の間隔に意味がある 部屋の温度計 比例尺度 数値の差や比に意味がある 身長、体重、時間
数量化Ⅰ類 • 数値データを外的基準として質的データを数量 化 3 物件番号 日照 駅徒歩圏 価格 1
良 圏外 36.4 2 良 圏内 52.6 ・・・ ・・・ ・・・ ・・・ 9 悪 圏外 20.2 10 悪 圏内 36.5
数量化Ⅰ類 • カテゴリーごとに見やすくする 4 物件番号 日照 良 悪 駅徒歩圏 圏内
圏外 価格 1 1 0 0 1 36.4 2 1 0 1 0 52.6 ・・・ ・・・ ・・・ ・・・ 9 0 1 0 1 20.2 10 0 1 1 0 36.5
数量化Ⅰ類 • カテゴリーウェイト ▫ 各カテゴリーの関係を表す重み • サンプルスコア 1 1 +
2 2 + 1 1 + 2 2 5 アイテム 日照 駅徒歩圏 カテゴリー 良い 悪い 圏内 圏外 ウェイト 1 2 1 2 物件k 1 2 1 2
数量化Ⅰ類 • サンプルスコアと目的変量との誤差の平方和が 最小になるカテゴリーウェイトを決定 ▫ 最小二乗法 6 物件番 号 日照
良 悪 駅徒歩圏 圏内 圏外 サンプルスコア 価格 1 1 0 0 1 1 + 2 36.4 2 1 0 1 0 1 + 1 52.6 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 9 0 1 0 1 2 + 2 20.2 10 0 1 1 0 2 + 1 36.5
数量化Ⅱ類 • 質的データを外的基準として質的データを数量 化 7 名前 会話 家事 所得 結婚離婚
A 1 2 1 結婚 B 2 1 1 結婚 C 1 1 2 結婚 D 1 2 2 離婚 会話 家事 所得 1:多い 1:する 1:まあ満足 2:少ない 2:しない 2:不満
数量化Ⅱ類 • サンプルスコアを計算し、カテゴリーウェイト を決定 ▫ 相関比を最大に • 相関比 2 =
: 全変動 : 群間変動 8
数量化Ⅱ類 • : 全変動 = (1 − )2+(2 − )2+
⋯ + ( − )2 z:サンプルスコア • : 群間変動 = ( − )2+ ( − )2 n:群の個体数 P,Q:結婚、離婚 9
数量化Ⅲ類 • 全てのカテゴリーが対等、目安の変量がない 10 和食 中華 洋食 エスニック 20代 1
1 30代 1 1 40代 1 1 1 50代 1 1 60代 1
数量化Ⅲ類 • 対角線上に1が集まるように並び替え • カテゴリーウェイトの大小順 11 和食1 洋食3 エスニック4 中華2
60代5 1 50代4 1 1 40代3 1 1 1 30代2 1 1 20代1 1 1
数量化Ⅲ類 • 相関係数R R = 1 − 3 − +
1 − 4 − + ⋯ + 4 − 3 − 3 1 − 2 + ⋯ + 2 4 − 2 2 1 − 2 + ⋯ + 5 − 2 • 相関係数を最大とするように数量化 12
数量化Ⅳ類 • 数量化Ⅲ類と同様に数量化の基準がない資料が 対象 • 親近度 13 5 8 4
5 7 5 7 7 8 3 6 7
数量化Ⅳ類 • 親近度の重みを付けた距離の平方和Q = 5(2 − 1 )2+8(3 − 1
)2+4(4 − 1 )2 + ⋯ +3(1 − 4 )2+6(2 − 4 )2+7(3 − 4 )2 • Qの最小化で1 , 2 , 3 , 4 を求める 14
条件付け • 数量化Ⅰ類 ▫ どれか1つのカテゴリーウェイトを0にする • 数量化Ⅱ類 ▫ サンプルスコアの分散を1にする •
数量化Ⅲ類 ▫ 平均値をそれぞれ0、分散をそれぞれ1にする • 数量化Ⅳ類 ▫ 平均値を0、変動を1にする 15