Slide 15
Slide 15 text
使えるデータを用意する手順を考える
収集 整理
拡張
保存 検索
集計
取得
データの
要件定義
データを作る
パイプライン
データを使う
必要なデータを
定義する
ライセンスチェッ
ク
既存データとの
差異
コスト
期限
・・・
データソース
から収集
ネットワークや
IOバウンド
多様な収集
方法をサポート
する必要がある
データを解析し
保存したい形式
に変換
データの説明
(README)
検索・抽出の
メタデータ定義
IO, CPU, メモリ
バウンド
キャプション等
生成AIで重要な
データを付与
テキストの
トークン変換
CPU, GPU
取得条件に応じ
て整理して保存
ストレージ、
DWH、検索等
利便性、規模、コ
スト
ヒアリン
グ
データViewer &
検索システム
VS
データ圧縮