Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
04 データの準備
Search
419kfj
October 09, 2023
95
0
Share
04 データの準備
SSJDA計量分析セミナー
対応分析/多重対応分析の原理と実際 04
419kfj
October 09, 2023
More Decks by 419kfj
See All by 419kfj
R.Q.(リサーチ・クエスチョン)構築という視点から 伝統的検定手法とベイジアン推定を比較する
419kfj
0
88
多重対応分析/構造化データ解析の原理と研究者視点の介在点「文化と不平等」調査データの分析(1)
419kfj
0
200
Methods and Examples of Correspondence Analysis
419kfj
0
120
01 Introduction
419kfj
0
150
02 ベクトル行列演算とCAの数理
419kfj
0
170
03 CAの数理その2
419kfj
0
88
05 CAとMCA事例
419kfj
0
110
06 MCA_01
419kfj
0
97
07 MCAからGDAへ
419kfj
0
150
Featured
See All Featured
First, design no harm
axbom
PRO
2
1.2k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
200
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
730
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
780
Measuring & Analyzing Core Web Vitals
bluesmoon
9
820
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
180
Deep Space Network (abreviated)
tonyrice
0
130
Typedesign – Prime Four
hannesfritz
42
3k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
160
A designer walks into a library…
pauljervisheath
211
24k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Transcript
計量分析セミナー データ準備編 2023/09/06「対応分析/多重対応分析の原理と実際」 津⽥塾⼤学 数学・計算機科学研究所 藤本⼀男
[email protected]
対応分析/多重対応分析とデータの⽤意 • 対応分析(CA)/多重対応分析(MCA)の処理⾃体は、⼀⾏で すみます。 • ⼤切なのは、処理するデータを適切な形に「整形」すること
データ⽤意の形態 • packageに付属する「サンプルデータ」を使う • 前処理不要 • スクリプトの中でデータを書く • ⼩規模ならOK。 •
外部ファイルを読み込む(1) • ⼤規模なものはほぼこれ。 • ExcelやCSVでつくられたデータ • SSJDAの「オンライン集計」で取得したデータを読み込む • e-statから取得したデータを読み込む • 外部ファイルを読み込む(2) • SPSSのLabeled SPSSを読み込む • SSJDAに預託されているデータを利⽤申請して貸与される。SPSS。 • ISSPにユーザ登録して、ダウンロードする。SPSS
Rが扱うデータの属性 • ⽂字 charcter • 数値 numeric、integer • 因⼦ factor
• 論理 logical • ベクトル • リスト • 表 • データフレーム • tibble
CA/MCAが読み込めるデータ属性 • エラーに遭遇したら • CA/MCAのfunctionのマニュアルを確認。 • dataframe • tibble •
table
CA/MCAが出⼒するresult • list • 複数の属性のデータを⼀つにまとめている。 • listの参照の仕⽅ • res.CA にresultを⼊れていたら…
• そのまま名前をたたく • summary() • などなど、これもfunctionごと。 • listの構成は、 • str() コマンドでつかめます。
データの「前処理」 • packageについてくる「サンプルデータ」以外は、なんらかの整 形、属性の変更が必要。 • その時の注意! • ダウンロードしたExcelやCSVのファイルを整形するときは、Rに読 み込んでからやるようにしましょう! •
Rに読み込む前に「不要な⾏/列を削除」したりすると、そのデータの更新版 を⼿にいれたときに、またその⼿作業をやらないといけない。 • ⼤抵間違う→修正にてまどう。 • ⼿作業修正はやらない。 • 修正はスクリプトで!(履歴がのこり、⾃動処理が可能です。) • もちろん、それが時間がかかりそうであれば、⼿作業で処理しない といけないですが、Rで出来ない「整形」はまずないです。 • それをできるように技を磨いてください。dplyr、tidyr などは必修です。
外部からの読み込みの例 • SSJDAのオンライン処理でクロス表に集計。 • それをダウンロード。 • 2元クロスですが、header⾏がついているので、 • read_excel •
n⾏⾶ばして読み込む、機能をつかいます。 • SSJDAのオンライン処理で、多元クロスに集計したもの • ダウンロードする⾏なり列なりが、6万4000⾏をこえなければ、デー タのロストなしに取得可能。それを、Rに読み込んで、個票に回復す ることが可能です。
Excelでダウンロード このクロス表を対応分析したいのだが • 1..3 ⾏は不要 • 5⾏は不要。4⾏を列⾒出しにつかい たい。 • 11⾏N=も不要。
• H列、不要。