Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ整形について

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 データ整形について

Avatar for 株式会社Curious Vehicle

株式会社Curious Vehicle

February 28, 2025
Tweet

Transcript

  1. もくじ
 1. データ解析のフロー
 2. デモの概要
 3. 加工・整形の環境
 4. CSVデータのロード
 5.

    trainとtestデータの作成
 6. まとめ
 -- Curious Vehicle Confidential. -- 
 2

  2. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 3
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 • 本題の解析に至るまで のプロセスが長い • ここを速くできれば本 題の解析に使う工数が 増やせる
  3. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 4
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 • 環境や内容に依存する ためパターンは様々
  4. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 5
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 今回はここには触れません
  5. データ解析のフロー 
 -- Curious Vehicle Confidential. -- 
 6
 データ解析までの一般的な流れ


    1. 収集
 2. 選択
 3. 加工・整形
 4. 解析
 • プログラミングでここを 簡単に対応する方法を 紹介 • 一部解析も入ります
  6. CSVデータのロード 
 -- Curious Vehicle Confidential. -- 
 13
 1行目のヘッダー行はスキップ

    デリミターは “;” セミコロン (拡張子はcsvになっているが、、) データファイルから ndarray 形式のオブジェクトが作成される
  7. trainとtestデータの作成 
 -- Curious Vehicle Confidential. -- 
 15
 今回は質を

    8 以上、6以上7以下、6未満の3カテゴリに変更した ※ 質はだいたい正規分布になっているためボリュームを考慮した
  8. trainとtestデータの作成 
 -- Curious Vehicle Confidential. -- 
 16
 データの90%をtrainに10%をtestに設定

    randomが毎回同じになるように seed を設定 この関数だけでtrainとtestの分析用データとラベルが作成される train のデータを使用して分類モデルを作成
  9. まとめ
 -- Curious Vehicle Confidential. -- 
 18
 • CSVデータのロードは

    loadtxt 関数
 • train と test データの作成部分は train_test_split 関数 • 面倒なデータ整形は便利なライブラリで解決
 • ついでに機械学習と精度の出力もライブラリの関 数をつかって完了
 • 余った時間をモデルの精度向上に充てよう