Slide 1

Slide 1 text

アドベントカレンダー のお礼とマーケットAI 開発プロジェクトにお けるプロジェクトマネ ジメントのエッセンス 補講 Tomoya Kitayama STRICTLY CONFIDENTIAL

Slide 2

Slide 2 text

アドベントカレンダー参加のお礼 皆様、アドベントカレンダーへの参加ありがとうございました! すべて大変おもしろいネタでしたが、本日は私の「マーケットAI開発プロジェクトにおけ るプロジェクトマネジメントのエッセンス」を掘り下げてみたいと思います。 トピック一覧 • tomo: マケデコのDiscordでおもしろかった議論を振り返ってみる • shinshin999: その昔、機能していた後場のアノマリー • pegion_HOLE: 謎の指標X • NT1123: feature neutralizationについて • shinshin999: 配当アノマリーから考えたペアトレード。 • s-jquants: J-Quants プロジェクト振り返り • tomo: マーケットAI開発プロジェクトにおけるプロジェクトマネジメントのエッセン ス • uki: 【保存版】株のトレーディング手法まとめ

Slide 3

Slide 3 text

なお、今年のアドベントカレンダーの目標 今年の12月はこのカレンダーが埋まるのを目標に盛り上げたいと思いますので、ご協力・ ご参加を是非皆様ご検討ください!11月初旬の早めに告知するようにいたします!

Slide 4

Slide 4 text

本日の発表内容 2017-2020年までに20程度のAIプロジェクトですべてPMを実施。発表されていないもの も含めると20以上のプロジェクトを実施。2021年以降はJ-Quantsのみを実施。この中で 学んだ「AIプロジェクトのPMのエッセンス」を共有します。 MUFG 2017年決算資料より 日本の大手金融機関などを対象としたプロジェクト

Slide 5

Slide 5 text

プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 ● 先行研究の探索 ● 先行ビジュアリゼーションの探索 ● 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 ● スコア設計 ● ベースラインモデルづくり ● 業務マッピング ● 研究計画立案 4 モデル研究 ● 研究計画通りにモデルを作っていく ● ポイントとなる要素の探索 ● モデルの改善 3 モデルのLive 化にむけて ● 再学習の仕組み化 ● 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )

Slide 6

Slide 6 text

プロジェクト開始前に ● 先行研究の探索 ○ 同一のテーマを扱っていることは殆どないが、以下の観点で探してみることが大事 ■ 他のアセットで似たようなことをやっていないか ● 例: 株式の短期予測はすくないが為替の短期予測はよく見つかる ● 例: 株式のローテンションは少ないが、金利やクレジットサイクルの研究がある ● 先行ビジュアリゼーションの探索 ○ 先行ビジュアリゼーションは以下のようなものをチェックする ■ Bloomberg端末の各種データの見せ方 ● プロの洗礼をうけているので、良くも悪くも業界標準の見せ方がわかる ■ 投信の目論見書 ● これは結構頑張っているものがある。特にto Cを意識してビジュアリゼーションを しているものが多いので、わかりやすさを重視している ■ これも先行研究の論文をいろいろなアセットで横断的に探すと結構見つかります。 ● 捨てモデルによる勝算の見積もり ○ これはなんでもいいので適当なモデルをあらかじめプロジェクト前に一回作っておくこと ■ コードもやり方もなんでもいいので、一度作ってみると、全然気づいていない論点がみ つることが多く、次のステップでめちゃくちゃ活きる

Slide 7

Slide 7 text

プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 ● 先行研究の探索 ● 先行ビジュアリゼーションの探索 ● 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 ● メトリクス設計 ● ベースラインモデルづくり ● 業務マッピング ● 研究計画立案 4 モデル研究 ● 研究計画通りにモデルを作っていく ● ポイントとなる要素の探索 ● モデルの改善 3 モデルのLive 化にむけて ● 再学習の仕組み化 ● 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )

Slide 8

Slide 8 text

メトリクス設計について メトリクス設計と結果のビジュアライゼーションが非常に重要です。特に良いモデルかど うかを業務レベルで判断してもらう場合、精度やスコアだけを見るとモデルの特性を見逃 すことがあります。ある特定期間の挙動などテーマやレジームごとの挙動も大事です。 1. メトリクス設計をプロジェクトの最初のタスクにする、これがある程度確定するまで はプロジェクトをすすめない 2. 合意したメトリクスを評価するビジュアライゼーション手法を決める、特に時系列方 向の動きは人間が直感的に把握するのは非常に難しいので、どのビジュアライゼー ションが最も直感的にこれは良いモデルかを理解するためのビジュアライゼーション が必須となる 3. ライブ化した場合の意思決定のしきい値を検討しておく。あくまで参考にするだけな のか、ポジションを変えるのか、などなど、そもそもモデルができたときにライブの 利用方法を決めておきます

Slide 9

Slide 9 text

ビジュアリゼージョンって何をやるの? https://tech.takibi.net/?p=112 に掲載しているようなビジュアリ ゼージョンをプロジェクトごとに 設計するイメージです。

Slide 10

Slide 10 text

ベースラインの作り方 なぜベースラインが重要なのかは以下のとおりです。ベースラインモデルの作り方にはと ことん拘ると、良いプロジェクトになります。 • スタティックに計算できる特徴量を運用に利用している場合と比較すると、他の人に ロジックを説明することが非常に難しくなります • 仮説に準拠し設計された特徴量であれば、実際にうまく行かないときも何らかの理由 を考えることは容易ですが、機械学習による複雑なステップを通して構築した予測モ デルがうまく動かなくなったときにその理由を推測するのは簡単ではありません。 • 特徴量設計で良い結果が得られないまま、機械学習モデルを活用すると、仮説が良い のか、モデルのチューニングが良かったのかの区別することが難しくなります • 機械学習モデルを利用する場合、学習・検証・テストのために、データを3分割する 必要が生まれます。大量の過去データがあるのであれば問題ないのですが、実務的に はそこまでの長い期間のデータは用意できないことがあります。 • 実際の運用時に再学習のタイミングなど機械学習モデル特有の問題を考慮する必要が 生まれます。

Slide 11

Slide 11 text

プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 ● 先行研究の探索 ● 先行ビジュアリゼーションの探索 ● 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 ● スコア設計 ● ベースラインモデルづくり ● 業務マッピング ● 研究計画立案 4 モデル研究 ● 研究計画通りにモデルを作っていく ● ポイントとなる要素の探索 ● モデルの改善 3 モデルのLive 化にむけて ● 再学習の仕組み化 ● 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )

Slide 12

Slide 12 text

モデル開発の進め方 研究計画と一緒です。なにを実施したら、どのメトリクスがどのように良くなったかをア イディアごとにまとめていきます。アイディアはできるだけ独立のアイディアをまずリス ト化し、アイディアに対するメトリクスとビジュアライゼーションの改善を資料にまとめ ていきます。過去にJQuantsの資料で見せた以下のような特徴量とラベルに対する性能の 計測のスプレッドシートみたいなアプローチを取ります。この部分は興味がある人が多い ようなので、研究計画の立て方の勉強会を開催しても良いかと思っています。

Slide 13

Slide 13 text

モデルは必ず群で評価しましょう 大量の実験を設計して、パラメータ軸や仮説軸でバイオリンプロットを実施するのがおす すめです。たとえば、1000個のモデルを作って、XYZの仮説やパラメータXYZ単位でメト リクスをグループしてあげて、比較して群としての効果を見ましょう。モデル単体では絶 対に仮説を評価しないこと。

Slide 14

Slide 14 text

プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 ● 先行研究の探索 ● 先行ビジュアリゼーションの探索 ● 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 ● スコア設計 ● ベースラインモデルづくり ● 業務マッピング ● 研究計画立案 4 モデル研究 ● 研究計画通りにモデルを作っていく ● ポイントとなる要素の探索 ● モデルの改善 3 モデルのLive 化にむけて ● 再学習の仕組み化 ● 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )

Slide 15

Slide 15 text

Liveあるある? • Liveにするととにかく想定外のことが起きるので、気をつけましょう • 当たり前ですが、金利はマイナスになります! • 金利を普通の特徴量で扱いたい場合は、0基準ではなく、シフトして100基準に してあげると特徴量として一気に扱いやすくなります。 • これは全然当たり前ではないのですが、先物はマイナスになります! • 原油先物がマイナス価格になってモデルが止まって、謝ることになる可能性があ りますので注意しましょう。マイナスになった場合を検討するより、マイナスに なったらおとなしく前の日の価格でfillしてあげるとかでも十分かもしれませ ん。 • ブルームバーグのTickerはなくなったりします。 • ブルームバーグの一部のデータは突然基本パックから消えて有料になったりする ので、特にクレジット系のデータを扱う場合はめちゃくちゃ注意しましょう • とにかくなんでも起きます • 自分で使うならともかく、他の人も使う可能性ある場合は過去のデータで擬似的 なライブテストをするのがおすすめ

Slide 16

Slide 16 text

Thank You! STRICTLY CONFIDENTIAL