Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

データ整形について

 データ整形について

Avatar for 株式会社Curious Vehicle

株式会社Curious Vehicle

February 28, 2025
Tweet

Transcript

  1. もくじ
 1. データ解析のフロー
 2. デモの概要
 3. 加工・整形の環境
 4. CSVデータのロード
 5.

    trainとtestデータの作成
 6. まとめ
 -- Curious Vehicle Confidential. -- 
 2

  2. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 3
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 • 本題の解析に至るまで のプロセスが長い • ここを速くできれば本 題の解析に使う工数が 増やせる
  3. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 4
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 • 環境や内容に依存する ためパターンは様々
  4. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 5
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 今回はここには触れません
  5. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 6
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 • プログラミングでここを 簡単に対応する方法を 紹介 • 一部解析も入ります
  6. CSVデータのロード 
 -- Curious Vehicle Confidential. -- 
 13
 1行目のヘッダー行はスキップ

    デリミターは “;” セミコロン (拡張子はcsvになっているが、、) データファイルから ndarray 形式のオブジェクトが作成される
  7. trainとtestデータの作成 
 -- Curious Vehicle Confidential. -- 
 15
 今回は質を

    8 以上、6以上7以下、6未満の3カテゴリに変更した ※ 質はだいたい正規分布になっているためボリュームを考慮した
  8. trainとtestデータの作成 
 -- Curious Vehicle Confidential. -- 
 16
 データの90%をtrainに10%をtestに設定

    randomが毎回同じになるように seed を設定 この関数だけでtrainとtestの分析用データとラベルが作成される train のデータを使用して分類モデルを作成
  9. まとめ
 -- Curious Vehicle Confidential. -- 
 18
 • CSVデータのロードは

    loadtxt 関数
 • train と test データの作成部分は train_test_split 関数 • 面倒なデータ整形は便利なライブラリで解決
 • ついでに機械学習と精度の出力もライブラリの関 数をつかって完了
 • 余った時間をモデルの精度向上に充てよう