Slide 18
Slide 18 text
構造化データ
• 元の状態
• RDBMSやデータウェアハウス、
ファイルなどに表形式で格納
• 取り込み
• CSVファイルはそのまま取り込
めるライブラリが多い
• データベースやデータウェアハウ
スのようにディスク上に格納さ
れている場合はCSV形式に変
換
• データ量が⼤規模(数百MB
以上)の場合、TFRecordや
Parquet形式に変換
画像データ
• 元の状態
• 画像ファイル(png,jpeg…)
• 取り込み
• TFRecordなどの形式でバイト
⽂字列として変換
• ⾼圧縮された画像の場合で
も、そのまま使うのがベター(デ
コードした際にサイズが想定
以上に⼤きくなる可能性)
テキストデータ
• 元の状態
• テキストコーパス(テキストデー
タを⼤量に集めたもの)
• 取り込み
• テキストデータは⼤規模にな
ることが多いため、 TFRecord
やParquet形式に変換
• データベースなどに格納しても
良いが、トラフィックのコストや
ボトルネックに注意
データの取り込み戦略
Copyright © 2022, Oracle and/or its affiliates
18
データ取り込み
データ検証
データ前処理
モデル
分析/検証
モデルデプロイ
モデル学習
http://news.livedoor.com/article/detail/6918105/
2012-09-04T12:45:00+0900
ジャンプ連載漫画が終了に、ユーザが新たな提案!?
『ONE PIECE』や『NARUTO』、『BLEACH』といった⼈気漫画で
もお馴染み、集英社『週刊少年ジャンプ』で今年連載がス
タートした『パジャマな彼⼥。』(濱⽥浩輔)が、3⽇発売の
最新号=No.40をもって連載終了となった。
コーパス例