Upgrade to Pro — share decks privately, control downloads, hide ads and more …

rでgoogle_analyticsデータ解析~統計解析編~ #TechLunch

rでgoogle_analyticsデータ解析~統計解析編~ #TechLunch

2011/07/27(水) @ Livesense TechLunch
発表者:福田 絵里

E60aa4f80303f3f386898546ddb3686a?s=128

Livesense Inc.
PRO

April 23, 2014
Tweet

Transcript

  1. RでGoogleAnalyticsデータ解析 ~統計解析編~ Eri Fukuda 2011/07/27

  2. Contents 目的  Rを利用して、Google Analytics Data Export APIからデータを取り出 し、統計解析を行う。 1. 統計学

    2. ArbeitStock(PC版) データ解析
  3. 統計学 ~概要~ 性質 経験的に得られたバラツキのあるデータから、応用数 学の手法を用いて数値上の性質や規則性あるいは不 規則性を見いだす。    statisticum(ラテン語で「状態」の意)       ↓  イタリア語で「国家」を意味するようになる       ↓

     国家の人力、財力等といった国勢データを比較検討する学問を意味する ようになる 適用分野 : 経済学、自然科学、社会科学、医学(疫学、EBM)、薬学、心理学、 言語学、科学哲学、etc..  語源
  4. 統計学 ~アプローチ~ 実験計画   より公正で評価可能なデータが収集できるよう検討   Garbage in, garbage out 記述統計   収集したデータの要約統計量(平均、分散など)を計算して分布を明らかにする 推計統計

      データからその元となっている諸性質を確率論的に推測 尺度水準による分類   質的データ、カテゴリデータの尺度  → 名義尺度 or 順序尺度    量的データ、数値データの尺度  → 間隔尺度 or 比率尺度  
  5. 統計学 ~注意点~ •統計結果の解釈ミス    例)「日本で犯罪件数がもっとも多い県は東京である」 •暗数(統計に出ない値)の考慮   例)強姦のような犯罪は、それがタブーであるがゆえに警察に届 けない事も多い。  

  6. 統計学 ~統計ソフト~ ・ SPSS ・ SAS ・ STATISTICA ・ S-PLUS ・

    Prism : 医学生物学に特化 ・ Excelのアドイン統計ソフト  
  7. ArbeitStock(PC版) データ解析   ~データ取得の準備~ install.packages("RCurl", repos = "http://cran.md.tsukuba.ac.jp") install.packages("XML", repos =

    "http://cran.md.tsukuba.ac.jp") library(RGoogleAnalytics) ga <- RGoogleAnalytics() options(RCurlOptions = list(capath = system.file("CurlSSL", "cacert.pem", package = "RCurl"), ssl.verifypeer = FALSE)) ga$SetCredentials("INSERT_USER_NAME", "INSERT_PASSWORD") query <- QueryBuilder()
  8. ArbeitStock(PC版) データ解析 ~取得データの種類指定&取得~ query$Init(start.date = "2009-05-01", end.date = "2011-06-01", dimensions

    = "ga:date,ga:region", metrics = "ga:avgTimeOnSite", filters = "ga:region==Tokyo,ga:region==Tottori", table.id = "ga:15300579") ga.data <- ga$GetReportData(query) ArbeitStock(PC版)のプロファイルID セッションの平均時間 取得成功! 例)1日のセッションの平均時間(秒)   対象地域:東京と鳥取   対象期間:2009-05-01~2011-06-30
  9. ArbeitStock(PC版) データ解析 ~密度推定曲線の描画~ tokyo <- ga.data$data[data[2]=="Tokyo", ][3]$ga tottori <- ga.data$data[data[2]=="Tottori",

    ][3]$ga plot(density(tokyo), xlim=c(0, 1000), ylim=c(0, 0.02), lty=1, ann=F) par(new=T) plot(density(tottori), xlim=c(0, 1000), ylim=c(0, 0.02), lty=2, ann=F) legend(700, 0.005, c("tokyo", "tottori"), lty=1:2, ncol=1) 変数の準備 描画 凡例
  10. ArbeitStock(PC版) データ解析 ~密度推定曲線の描画~ 東京と鳥取でのセッション平均時間(秒) の分布の特徴は?   (2009-05-01~2011-06-30)

  11. boxplot(tokyo, tottori, names=c("tokyo", "tottori"), ylim=c(0, 700)) ArbeitStock(PC版) データ解析 ~箱ひげ図の描画~ 東京と鳥取での

    セッション平均時間(秒)の 分布の特徴は? (2009-05-01~2011-06-30) 最小値 第1四分位点(Q1) 最小値 中央値(第2四分位点、Med) 第3四分位点(Q3) 最大値 IQR (interquartile  range) 外れ値 ひげ 分布のばらつきの代表値
  12. 不偏共分散 > var(tokyo, tottori) [1] 526.1022 ArbeitStock(PC版) データ解析 ~統計値の算出~ 東京と鳥取での

    セッション平均時間の 分散度合いは? 相関係数 > cor(tokyo, tottori) [1] 0.0959978        (ほとんど相関なし) 東京と鳥取の セッション平均時間の 類似性の度合いは?
  13. > t.test(tokyo, tottori, var.equal=F)  # 不等分散 Welch Two Sample t-test data: tokyo

    and tottori t = -11.9525, df = 507.686, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -151.5008 -108.7268 sample estimates: mean of x mean of y 148.1075 278.2213 P値<0.05 → 有意水準5%において有意 → 帰無仮説棄却                           → セッション平均時間に差がある ArbeitStock(PC版) データ解析 ~2標本t検定~ (帰無仮説:二群の 母平均は等しい) ※ 2種類のt検定 : Welch's t-test 、 Student's t-test 東京と鳥取でセッション平均時間に差がある?
  14. Prologの深そうな話 次回テーマ