J-Quants表彰会資料 - 上位入賞者解法総評 #JQuants

Slide 1

Slide 1 text

STRICTLY CONFIDENTIAL 2021/07/19 J-Quants 上位入賞者解法総評

Slide 2

Slide 2 text

STRICTLY CONFIDENTIAL 問題設計の狙い実際のトレーディングを想定したコンペ(といっても利食い・損切りなどがないなど制限はあるが) • 自分の投資戦略に近いものをそのまま利用可能(第3章) • ファンダメンタルズ分析チャレンジの成果を活かすことが可能(第4章) • ニュースデータのようなオルタナティブデータを活用するアドバンスな手法を試すことが可能(第 5,6章) 2 データサイエンティストの研究・工夫がそのままスコアに反映されるコンペとして設計 • トレーディング知識が薄くてもEDAの研究的なアプローチですすめることができる(第2章) • 特徴量・モデル評価やCVの設計方針がそのままスコアに反映され、努力してスコアを上げる楽しみを体験できる(第2章) • 一方でトレーディングに詳しい方がドメイン知識を利用したアプローチも十分に可能(第7章)

Slide 8

Slide 8 text

STRICTLY CONFIDENTIAL 上位入賞者の解法についてモデル作成トレード手法の種別 • チュートリアルをベースに作成 2 / ファンダメンタルチャレンジをベースに作成 2 • オリジナルなトレードロジックを構築 4 / ニュースデータを利用したモデル 2 8 トレンドフォロー (順張り) 戦略を採用して、予測期間の直前 3営業日の株価上昇率の高い銘柄を選択しました。ファンダメンタルチャレンジの特徴量を作成した後、 XGBRegressorを用いて最終的な予測値を求め、上位 5銘柄によるポートフォリオを構築する。 1. 短期的な上昇率 (20営業日)を算出。 2. 長期的な上昇率 (120営業日)を算出。 3. 短期的に株価が下降しているものは、 1で算出した上昇率を 0に置き換える。 3. 短期・長期比率=短期上昇率(20営業日) / 長期変化率(120営業日)を算出。 4. 短期・長期比率が上位の 25銘柄を購入。 - 予測対象: リターン((金曜日のclose価格 - 月曜日のopen価格) / 月曜日のopen価格) - 入力はテクニカル分析でよく用いられる手法 - 予測に基づきポートフォリを組むファンダメンタル分析で作成した LightGBMのモデルを利用予測ロジックはチュートリアル（ Chapter6）ほぼそのままです。 1 点、N日間ボラティリティの箇所を logからlog1pに変えました。（ 0があるとエラーになると思ったので。）６週間の変化率 1. 投資対象銘柄群と各セクターのセンチメントスコア算出のために、ニュースデータを利用して LSTMモデルにより予測　⇒チュートリアルモデルを参考にし、データセット、出力層数、モデル構造の一部を変更 2. BERT特徴量のクラスタリングには K-meansを使用。インディケータやラグ特徴量の追加、、ポートフォーリオの組み方もチュートリアルよりも低い金額で多く分散させたことがいい結果を生んだのではないかと思っております。 1. ５日間の株価変化率【（５日目最安値ー１日目最高値） ÷１日目最高値とすべきところを（当日最安値ー５日前最高値） ÷５日前最高値としている】を算出し、その株価変化率を 5％刻みで５クラスに分類し目的変数とした。なお、株価は様々な要因で１日の中でも変動するので、変化率の算出には始め値、終値ではなく、最安値、最高値を利用した。 2. 株価情報をもとに作成した特徴量と目的変数を使用して lightGBMで予測モデルを作成した。 3. 株価変化率とソフトマックス関数の出力値を元に、投資銘柄および投資金額を決定した。

Slide 9

Slide 9 text

STRICTLY CONFIDENTIAL 上位入賞者の解法についてモデルの評価方法 9 汎化性能を計測するために採用した評価方法評価時に特に重要視したメトリクス特に評価してません。自身の投資経験から、順張りは逆張りに比べてリスクは低いと考えてました。株価上昇率ニュース分析チャレンジでの予測モデルは、ファンダメンタルズ分析チャレンジのモデルを採用しました。以下はファンダメンタルズ分析チャレンジのモデリングにおける評価方法です。 PublicLBの評価期間は 2020年の通年でしたが、Privateの評価期間は3/27～5/15までのおよそ 1.5ヶ月であるため、モデリングの評価もこれに準じた期間で行いました。ニュース分析チャレンジでの予測モデルは、ファンダメンタルズ分析チャレンジのモデルを採用しました。以下はファンダメンタルズ分析チャレンジのモデリングにおいて重視したメトリクスです。特に重視した評価メトリクスは、高値と安値それぞれのランク相関値です。学習データより未来の日付における株取引の利益を算出株取引における利益（機械学習モデル作成時には、スピアマン順位相関係数も活用）上昇トレンド、下降トレンドの日時探して、シャープレシオを評価シャープレシオ特になし RMSE 特にありません。特にありません。特にありません。特にありません。ホールドアウト法モデルの重み決定には損失値を重視、複数モデル作成したわけでは無いためモデル間の比較は行っていない。ピアソン相関係数、スピアマン相関係数 mae 特に行っていません。特にありません。５年間のデータのうち、対象年度を変えながら、３年間を学習、１年を検証、１年をテストに分割して評価。 Accuracy

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text