Slide 1

Slide 1 text

計量分析セミナー データ準備編 2023/09/06「対応分析/多重対応分析の原理と実際」 津⽥塾⼤学 数学・計算機科学研究所 藤本⼀男 [email protected]

Slide 2

Slide 2 text

対応分析/多重対応分析とデータの⽤意 • 対応分析(CA)/多重対応分析(MCA)の処理⾃体は、⼀⾏で すみます。 • ⼤切なのは、処理するデータを適切な形に「整形」すること

Slide 3

Slide 3 text

データ⽤意の形態 • packageに付属する「サンプルデータ」を使う • 前処理不要 • スクリプトの中でデータを書く • ⼩規模ならOK。 • 外部ファイルを読み込む(1) • ⼤規模なものはほぼこれ。 • ExcelやCSVでつくられたデータ • SSJDAの「オンライン集計」で取得したデータを読み込む • e-statから取得したデータを読み込む • 外部ファイルを読み込む(2) • SPSSのLabeled SPSSを読み込む • SSJDAに預託されているデータを利⽤申請して貸与される。SPSS。 • ISSPにユーザ登録して、ダウンロードする。SPSS

Slide 4

Slide 4 text

Rが扱うデータの属性 • ⽂字 charcter • 数値 numeric、integer • 因⼦ factor • 論理 logical • ベクトル • リスト • 表 • データフレーム • tibble

Slide 5

Slide 5 text

CA/MCAが読み込めるデータ属性 • エラーに遭遇したら • CA/MCAのfunctionのマニュアルを確認。 • dataframe • tibble • table

Slide 6

Slide 6 text

CA/MCAが出⼒するresult • list • 複数の属性のデータを⼀つにまとめている。 • listの参照の仕⽅ • res.CA にresultを⼊れていたら… • そのまま名前をたたく • summary() • などなど、これもfunctionごと。 • listの構成は、 • str() コマンドでつかめます。

Slide 7

Slide 7 text

データの「前処理」 • packageについてくる「サンプルデータ」以外は、なんらかの整 形、属性の変更が必要。 • その時の注意! • ダウンロードしたExcelやCSVのファイルを整形するときは、Rに読 み込んでからやるようにしましょう! • Rに読み込む前に「不要な⾏/列を削除」したりすると、そのデータの更新版 を⼿にいれたときに、またその⼿作業をやらないといけない。 • ⼤抵間違う→修正にてまどう。 • ⼿作業修正はやらない。 • 修正はスクリプトで!(履歴がのこり、⾃動処理が可能です。) • もちろん、それが時間がかかりそうであれば、⼿作業で処理しない といけないですが、Rで出来ない「整形」はまずないです。 • それをできるように技を磨いてください。dplyr、tidyr などは必修です。

Slide 8

Slide 8 text

外部からの読み込みの例 • SSJDAのオンライン処理でクロス表に集計。 • それをダウンロード。 • 2元クロスですが、header⾏がついているので、 • read_excel • n⾏⾶ばして読み込む、機能をつかいます。 • SSJDAのオンライン処理で、多元クロスに集計したもの • ダウンロードする⾏なり列なりが、6万4000⾏をこえなければ、デー タのロストなしに取得可能。それを、Rに読み込んで、個票に回復す ることが可能です。

Slide 9

Slide 9 text

Excelでダウンロード このクロス表を対応分析したいのだが • 1..3 ⾏は不要 • 5⾏は不要。4⾏を列⾒出しにつかい たい。 • 11⾏N=も不要。 • H列、不要。