Slide 1

Slide 1 text

データ分析イベントデータ説明 <超簡易版>R AnaliticFlow操作説明 ぶんちん 2025年2月6日 データサイエンティスト集会 in VRC 1

Slide 2

Slide 2 text

使用するデータ VRChatイベントカレンダー 2018年~2025年1月21日までに登録されたデータ

Slide 3

Slide 3 text

基データ概要  配布ファイル形式:CSV  文字コード:UTF-8  ファイルサイズ:約65MB  データ期間:2018年6月21日~2025年1月21日  レコード数:95693  項目数:18 3

Slide 4

Slide 4 text

データ項目  タイムスタンプ  イベント名  日付  開始時刻  終了時刻  イベント詳細  イベント主催者  イベント内容 4  人数制限  参加条件(モデル、人数制限など)  参加方法  備考  Android対応可否  イベントジャンル  海外ユーザー向け告知  告知文 途中から取得したと思われる項目もあるので扱いに注意

Slide 5

Slide 5 text

データ分析にあたっての注意点  イベント名などの入力のないデータ(空白行) ⇒明らかな異常データ  VRChatイベントへの登録データは利用者側で修正・削除不 可であり、正しいデータへの対応は新規登録(データ追加) ⇒不適切な内容のデータ 基本的にデータクレンジングが必要 5 できる範囲でやりました!

Slide 6

Slide 6 text

配布データ 2種類のデータを配布します  生データ  前処理済データ <初心者はこちらがオススメ> イベント名の記載がない異常データ(空白行)を削除 同一イベント名が同じ日に複数回開催登録されているデータの重複 削除(タイムスタンプが最新のレコードを採用) イベントジャンル列をカテゴリごとに扱いやすいよう整理 6 どれを使ってもらってもOKです 後述の理由からそれぞれ ・UTF-8版 ・Shift-JIS版(特殊文字削除) の2種類、計4種類を配布します

Slide 7

Slide 7 text

ちょっとだけ、 データ分析ソフト「R AnaliticFlow」の 使い方(超ダイジェスト)と注意点 7

Slide 8

Slide 8 text

R AnalyticFlow 8 https://r.analyticflow.com/ja/ Rベースで動く、GUI操作を基本とする“データ解析ソフトウェア” 日本で作られたソフトで、 UIやチュートリアルなど 全てが日本語対応! 注意) Rの導入も必要です 私の仕事(データ分析教育)で メインに使っているソフトです 導入方法の詳細は公式の情報見てください。 基本的にexeファイルでインストールし、指示に従って進めばOKです。

Slide 9

Slide 9 text

画面の基本的な見方 9 一番基本のエリア 分析フローの作成 ノード (分析・データ処理機能) データ・グラフ・ ヘルプなどの表示 Rのコンソール 選択中のノードの 設定を入力 ノードの格納場所

Slide 10

Slide 10 text

起動後の画面  作業フォルダの作成 10 初めてのデータのときは ここを選択してプロジェ クトフォルダを作成 分析を再開する場合は ここから該当のプロジェクトを選択

Slide 11

Slide 11 text

データの読み込み 11 ここを右クリックすると作業 フォルダを開ける ⇒データを入れておくとよい 読み込みたいデータを ドラッグ&ドロップ ヘッダーがTRUE 文字コードを確認 ⇒フローを実行 or ノードを実行 注意! 今回使用するデータの特殊文字を読み込めない 今回に限り特殊文字を消すため、 文字コードをShift-JISに変換したデータを 読み込むのが楽です( Shift-JIS 版データも配布予定)

Slide 12

Slide 12 text

分析例 12 集計ノードで カテゴリごとに統計量算出 グラフノードで 見たいグラフ描画 分析フローを示す矢印は右クリックのドラッグ&ドロップで引けます 処理(コード)の実行順にノードを配置して分析する 集計条件を設定 描画条件を設定

Slide 13

Slide 13 text

Orange Data Mining  こちらは処理順ではなく、データの流れをフローで描画  UTF-8をそのまま読み込めます 13 使用方法は過去のLT資料を見てみてください