分析システムにR Markdownを組み込む

Slide 1

Slide 1 text

分析システムにR Markdownを組み込む Tokyo.R #102 kazutan 2022-10-22

Slide 2

Slide 2 text

はじめに 2 / 23

Slide 3

Slide 3 text

はじめに自己紹介名前/アカウント前田和寛(Maeda Kazuhiro) @kazutan Twitter GitHub Qiita, r-wakalang, etc... 3 / 23

Slide 4

Slide 4 text

はじめに書籍 4 / 23

Slide 5

Slide 5 text

はじめに所属 LINE Fukuoka株式会社 Data Scientist DataLabs - Senior Manager Data Science Team Machine Learning Team Data Engineering & Solution Team LINE株式会社 CDO Office 5 / 23

Slide 6

Slide 6 text

はじめに今回のお話分析のシステムにR Markdownを組み込んで構築したときのお話具体的なところについては、すでに発表済み週次KPIレポートをconfluenceへUpするためにやったこと R, Git, Droneを使ってconfluenceへのKPI予測レポートを自動化した話今回はこれらを構築するときに私が意識したことや設計時のポイントについてお話します R Markdownを組み込んだKPI予測システム全体設計をするときに考えたこと Rでシステムを組むときに考えたこと R Markdownをシステムに組み込むときに考えたこと 6 / 23

Slide 7

Slide 7 text

R Markdownを組み込んだ予測システム 7 / 23

Slide 8

Slide 8 text

Background KPIsを予測して可視化/レポート化するのを自動化 daily KPIを算出算出したKPIスコアを用いてモデリング fitting, forecast レポート作成各KPI指標をplot, table化関係者が閲覧できる、confluence Wiki上の適切な場所へレポートs区政上記をすべて自動で定期的に実行できるようにする詳細は「 R, Git, Droneを使ってconfluenceへのKPI予測レポートを自動化した話」を参照 8 / 23

Slide 9

Slide 9 text

Overview システムアーキテクチャ 9 / 23

Slide 10

Slide 10 text

全体設計をするときに考えたこと 10 / 23

Slide 11

Slide 11 text

プロセスを意味のあるまとまりで分離プロセスを大きく分割する 1. データ加工 2. モデリング 3. Rmd生成/加工 4. render/publish できるかぎり「疎」な結合にするブロック別での開発をスムーズにするため最適化のために必要(次のスライド) それぞれのブロックを差し替え可能にするため -> 1枚のRmdファイルで組まないこと 11 / 23

Slide 12

Slide 12 text

実行(利用)環境を最適化すべてをR上で処理する必要はないデータ加工プロセスはPresto/Sparkなどで実行「Rは読めないけどSQLは読める」という人はたくさんいるデータエンジニアリングを他のメンバーに託せるあるいはDWHやData Martを準備してもらう時系列モデリングについても、適切なツールがあるならそれを利用ただし、組み合わせるものが増えるとコストも上がる主にメンテナンスやトラブルシューティングパフォーマンスとのバランスなどで決定 12 / 23

Slide 13

Slide 13 text

Rでシステムを組むときに考えたこと 13 / 23

Slide 14

Slide 14 text

関数化・モジュール化の徹底処理は関数に書き出すプロセスを構造化後のメンテナンスコストを低下各処理でのI/Oを明確化テスト設計がスムーズにバグ対策にもパッケージ化とは異なることを意識パッケージの関数は汎用性などを求めるシステムにおける関数化の目的は上述の通り汎用性は二の次 14 / 23

Slide 15

Slide 15 text

テスト/エラー検知を意識するちゃんと動くのが前提動作確認はきっちりする必要ありテストは重要単体/ユニットテストをできるように組む「テストがしやすい」粒度での関数化/モジュール化を増やしすぎるとコストが跳ね上がるバグを見つけやすいレベルを意識して想定できないからエラーは発生するエラーが発生しないシステムなんてないどの処理でエラーが発生したのかをnoticeするように 15 / 23

Slide 16

Slide 16 text

自分ではない人がメンテできるようにマニアックよりもクオリティを高い技術力を発揮できるのは気持ちいいでも、あなたがずっとそれを見続けるのですか? 属人化に直結する複雑な構成にするのは避けようどうせメンテナンス性も低下する資料をちゃんと作る他の人が読んでも理解できるようにする工夫をコメント充実ドキュメントを作成資料作成まで含めての工数を見積もることそして、1ヶ月後の自分は別人だと考えよう 16 / 23

Slide 17

Slide 17 text

R Markdownをシステムに組み込むときに考えたこと 17 / 23

Slide 18

Slide 18 text

要件定義を忠実にRmdへ使われないレポートは価値がない価値 = ユーザーの期待に応えることユーザーニーズをきっちりと把握することそのうえで、R Markdownを設計するテンプレート化 Rmdの特徴はテンプレート化できること定常的/定型的なレポートがいい Rmdは基本テキストファイル(md) 普通にRから文字列をいじれる glue パッケージなどを利用して動的に書き換えると楽 18 / 23

Slide 19

Slide 19 text

極力Rの処理を入れない Rmd内のチャンクで複雑な処理はしない Rチャンク内でのエラーは追いにくい Rでの実行環境など想定しにくいものが多い Rmdでのデバッキングはめんどくさい毎回renderするのは大変あくまで表出層のみに留めるだいたいこんな感じに整形済みの必要なデータ読み込み可視化数値の動的な代入 (必要なら)文字列の加工など 19 / 23

Slide 20

Slide 20 text

R Markdownを使うメリットって? 表出層を作成するときのコストがかなり少ないベースがmd UIエンジニアリングスキルがなくても作れる Skeletonがシンプルになる表現力が高い Pandocを活用できる非常にパワフル Publishもいろいろできるシステム的に連携しやすい分析環境からそのまま処理できる render 一発でいけるのは、やっぱりすごい 20 / 23

Slide 21

Slide 21 text

まとめ 21 / 23

Slide 22

Slide 22 text

要点のまとめ全体設計プロセスを意味のあるまとまりで分離実行(利用)環境を最適化 Rでの実装について関数化・モジュール化の徹底テスト/エラー検知を意識自分ではない人がメンテできるように R Markdownの実装について要件定義を忠実にRmdへ極力Rの処理を入れない 22 / 23

Slide 23

Slide 23 text

Enjoy! 23 / 23