Slide 1

Slide 1 text

POL主催 / MILIZE協催 Fintech Data Championship チャート画像を用いた株価の予想 Team SDQ いのいち

Slide 2

Slide 2 text

自己紹介 京都大学薬学研究科 D1 体内時計の基礎研究 普段は細胞とかマウスとか、がっつりWetの実験 Fintech DCをきっかけにコンペにも出始めました! LINE主催の国際大会AI RUSHで本戦出場、最終13位 Kaggle Expert Twitter (@inoichan) イラストは@shunsukedayoon さん

Slide 3

Slide 3 text

Fintech Data Championshipとは? 企業が提示する機械学習を用いたデータ分析や推定に関する課題 を解決するコンペティション形式の大会です。 優秀なAIエンジニアに学生の間に金融に興味を持ってもらうともに、 金融に携わる有望な人材の発掘を目的としています。 ( 引用:https://ps.nikkei.co.jp/fdc2019/contents/03/index.html )

Slide 4

Slide 4 text

本大会の概要 今回のコンテストでは機械学習・AIを活用して、株ポートフォリオ による運用をしてもらいます。スタート時の仮想運用資金は1000 万円、市場データ(株価・為替・原油・先物など)、企業財務デ ータ、ニュースデータ、天候データ、その他ビッグデータを提供 します。それらのデータを使用し、次の1カ月後に、最も上昇す る銘柄の組み合わせを検討します。5銘柄以上、10銘柄未満の株 式の組み合わせを考えていただきます。 ( 引用:https://ps.nikkei.co.jp/fdc2019/contents/02/index.html )

Slide 5

Slide 5 text

本大会の概要 今回のコンテストでは機械学習・AIを活用して、株ポートフォリオ による運用をしてもらいます。スタート時の仮想運用資金は1000 万円、市場データ(株価・為替・原油・先物など)、企業財務デ ータ、ニュースデータ、天候データ、その他ビッグデータを提供 します。それらのデータを使用し、次の1カ月後に、最も上昇す る銘柄の組み合わせを検討します。5銘柄以上、10銘柄未満の株 式の組み合わせを考えていただきます。 ( 引用:https://ps.nikkei.co.jp/fdc2019/contents/02/index.html ) "*ͰגՁΛ༧૝͠Α͏ʂʂʂ

Slide 6

Slide 6 text

ルール ・データを活用して5〜10銘柄を選ぶ。 ・各チーム1000万円で選んだ銘柄の購入割合は自由に決められる。 ・途中で売ったり買い足したりはできない。 ・銘柄選定に使ったコードと方法をGithubで提出する。

Slide 7

Slide 7 text

① 定量審査: シミュレーション運用でどの程度の収益を生むことができたか ・選定銘柄の2019年2月8日終値〜2019年2月28日終値で計算 ②定性審査: 運用アイデアがどれだけ斬新なものか、発展性があるか ・アイデア(奇抜性、実行可能性) ・高度な手法 (機械学習の最新取り組み) ・論理性 (アイデアから結論までの論理的な考え方) ・論文の質 (論文の作法、簡潔さ) ・コードの質 (実行可能性、簡潔さ、可読性) 評価方法

Slide 8

Slide 8 text

① 定量審査: シミュレーション運用でどの程度の収益を生むことができたか ・選定銘柄の2019年2月8日終値〜2019年2月28日終値で計算 ②定性審査: 運用アイデアがどれだけ斬新なものか、発展性があるか ・アイデア(奇抜性、実行可能性) ・高度な手法 (機械学習の最新取り組み) ・論理性 (アイデアから結論までの論理的な考え方) ・論文の質 (論文の作法、簡潔さ) ・コードの質 (実行可能性、簡潔さ、可読性) 評価方法 選んだ株価がどれだけ上がったか Github & レポート

Slide 9

Slide 9 text

アプローチ方法 ϑΝϯμϝϯλϧ ػցֶशϞσϧ ϑΝϯμϝϯλϧ ػցֶशϞσϧ 手法① 手法②

Slide 10

Slide 10 text

手法①:ファンダメンタルアプローチ ストップ高、株式公開買付け

Slide 11

Slide 11 text

① 定量審査: シミュレーション運用でどの程度の収益を生むことができたか ・選定銘柄の2019年2月8日終値〜2019年2月28日終値で計算 ②定性審査: 運用アイデアがどれだけ斬新なものか、発展性があるか ・アイデア(奇抜性、実行可能性) ・高度な手法 (機械学習の最新取り組み) ・論理性 (アイデアから結論までの論理的な考え方) ・論文の質 (論文の作法、簡潔さ) ・コードの質 (実行可能性、簡潔さ、可読性) 評価方法

Slide 12

Slide 12 text

① 定量審査: シミュレーション運用でどの程度の収益を生むことができたか ・選定銘柄の2019年2月8日終値〜2019年2月28日終値で計算 ②定性審査: 運用アイデアがどれだけ斬新なものか、発展性があるか ・アイデア(奇抜性、実行可能性) ・高度な手法 (機械学習の最新取り組み) ・論理性 (アイデアから結論までの論理的な考え方) ・論文の質 (論文の作法、簡潔さ) ・コードの質 (実行可能性、簡潔さ、可読性) 評価方法 ここに注目した!!!

Slide 13

Slide 13 text

値上がりしそうなのに買えない株:ストップ高 1日の株価の変動には上限と下限がある。これは「値幅制限」とい う仕組みで日本の証券取引所の全上場銘柄に適用されている。投 資家を不測の損害から保護するための仕組み。 値幅制限の上限に達しったものをストップ高銘柄といい、普通は その日にはもう買えない。 今回のルール上、ストップ柄銘柄も購入できた!

Slide 14

Slide 14 text

公開買付けの値段は、発表された時点での市場の株価より高い値 段なので、それに合わせて株価が上昇する。何回かのストップ高 を繰り返し、公開買付けの値段付近まで上がっていく。 公開買付けとは、経営権の掌握等を目的にその会社の株券や資本 性証券を市場外で一定期間のうちに一定価格で買い取ることを公 告して取得する方法をいう[1]。 (引用 wikipedia) 株式公開買付け(TOB)

Slide 15

Slide 15 text

公開買付けの値段は、発表された時点での市場の株価より高い値 段なので、それに合わせて株価が上昇する。何回かのストップ高 を繰り返し、公開買付けの値段付近まで上がっていく。 上昇しそうな銘柄の候補をいくつか選んでおい て、手法②のモデルので確認した。 公開買付けとは、経営権の掌握等を目的にその会社の株券や資本 性証券を市場外で一定期間のうちに一定価格で買い取ることを公 告して取得する方法をいう[1]。 (引用 wikipedia) 株式公開買付け(TOB)

Slide 16

Slide 16 text

ネットイヤーグループの株がちょ うどいいタイミングで株式公開買 付けされていた。2月8日終値の時 点で676円。 https://www.nttdata.com/jp/ja/news/release/2019/020500/ ネットイヤーグループの株式公開買付け

Slide 17

Slide 17 text

ネットイヤーグループの株がちょ うどいいタイミングで株式公開買 付けされていた。2月8日終値の時 点で676円。 https://www.nttdata.com/jp/ja/news/release/2019/020500/ ネットイヤーグループの株式公開買付け

Slide 18

Slide 18 text

図はMilizeProより ネットイヤーグループの株式公開買付け

Slide 19

Slide 19 text

図はMilizeProより ネットイヤーグループの株式公開買付け 公開買付け開始

Slide 20

Slide 20 text

図はMilizeProより ネットイヤーグループの株式公開買付け 対象期間初日 2月8日の終値 676円 公開買付け開始

Slide 21

Slide 21 text

図はMilizeProより ネットイヤーグループの株式公開買付け 対象期間初日 2月8日の終値 676円 2月12日の終値 790円 公開買付け開始 開始1日で16%のプラスになった。また、手法②で作成したモデルで の予測も「上がる」とでた。最終的に20%のプラスとなった。

Slide 22

Slide 22 text

手法②:モデルアプローチ チャート画像を用いた株価の予想

Slide 23

Slide 23 text

画像分類を選んだ理由 ・CNNの手法自体はかなり成熟してるから、 モデルの構築と評価がちゃんとできる。 ・CNN × Stock Priceについてはあまり報告がなかった。 ・テクニカル分析は人がチャートを「見て」やってる。 ・画像データを用いる手法は有効

Slide 24

Slide 24 text

使用データについて データソース 全銘柄の株価のデータをYahoo! Financeよりダウンロードして用いた。 使用したデータの種類 日足の終値を使用した。 株式分割や結合が行われると株価が大きく変動するように見える。 実際に予測したい値動きとは異なった動きをモデルが学習してしまう可能性がある。 株式分割・結合を考慮して補正された「調整後終値」を用いた。

Slide 25

Slide 25 text

前処理・加工法・ラベル 画像データ作成に用いた指標 学習させる株価チャート画像は、下記の3つの指標をもつよう作成した。さらに、そ れぞれの指標にRGBの一つの色を割り当てて、一つのチャンネルで表現されるように した。 調整後終値 : 赤色 25日移動平均線 : 緑色 75日移動平均線 : 青色 ラベル 14日後に5%以上増加したものを1 それ以外を0とした。

Slide 26

Slide 26 text

データセットの作成 訓練データ 検証データ テストデータ 訓練データと検証データ、テストデータを期間で分けた。

Slide 27

Slide 27 text

データセットの作成 訓練データ 検証データ テストデータ 訓練データと検証データ、テストデータを期間で分けた。 訓練データ期間: 2010年以前のデータ ラベル(0,1)が20,000枚ずつ 検証データ期間: 2012年〜2016年のデータ ラベル(0,1)が7,000枚ずつ

Slide 28

Slide 28 text

モデルについて ・VGG16のモデルを特徴抽出部として用いた。 ・ImageNetによってプレトレインされたモデル ・ブロック3, 4, 5をファインチューニングした。 ・Input sizeは(128, 128, 3)である。

Slide 29

Slide 29 text

モデルの評価とポートフォリオの作成 Accuracy:約56% ROCのAUC:約0.578 上位20社のRSIをみて低いもの、つまり売られ 過ぎている傾向にあるものを最終ポートフォ リオとして選んだ。 *RSI : 一定期間の相場における「値上がり幅」と「値下がり幅」 を活用して、値動きの強弱を数値で表し、買われ過ぎなのか売 られ過ぎなのかを判断するための指標です。 (引用 : https://www.jibunbank.co.jp/products/foreign_deposit/chart/help/rsi/) ϑΝϯμϝϯλϧ

Slide 30

Slide 30 text

結果:4社でプラス、値幅ランキングは2位 レポートも評価され結果は優勝!!! 購入銘柄 収支% (株)新川 +31.8% 川澄化学工業(株) +7.4% (株)松屋 +4.2% 西川ゴム工業(株) +3.1% 三菱鉛筆(株) -1.2%

Slide 31

Slide 31 text

さらなる精度向上のために 他の特徴量もモデルに組み込んで学習させる。 CNN RSIなどの他の評価指標のデータ 特徴ベクトル 機械学習モデル

Slide 32

Slide 32 text

モデルの有用性のさらなる検証 機械学習モデル シミュレータ システムの運用 仕掛けのルール 手仕舞いのルール 時間枠 データの考察 (cf. システムトレードと検証の実践) MLモデルの最適化、システムの最適化 期間の設定

Slide 33

Slide 33 text

Thank you!!!