Slide 29
Slide 29 text
運用を開始して…
● ファイルフォーマットの変更
○ 開発初期はログフォーマットとしてAvroを採用
■ 理由
● スキーマ定義が必要だったためJSONは除外
● ORCも使えるソフトウェアが限られるため除外
● kafka streamsとの高い互換性によってAvroを採用
○ 中盤で標準をParquetに変更
■ 理由
● Spark2.2ではAvroの読み込みにパッケージインポートが必要で
あり保守が困難であった
● 今後追加されていく予定の大量なデータを見据えてカラムナ
フォーマットに変更したかった