Upgrade to Pro — share decks privately, control downloads, hide ads and more …

株式価格情報を用いた金融極性辞書の作成(文献紹介)

 株式価格情報を用いた金融極性辞書の作成(文献紹介)

2018/04/27文献紹介の発表内容

Yuto Kamiwaki

April 26, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. 概要 • ニュースデータと株式価格データから金融分野 に特化した極性辞書の作成をする. • 研究手法の有効性は,作成した極性辞書を用い てニュース記事の分類をして検証した. • 検証の結果: •

    ニュース記事配信日の株式リターンに関して,将来 のニュース記事分類が可能. • 異なるメディアのニュース記事も分類可能. • ニュース記事配信日から2営業日以上離れると, ニュース記事分類が困難. 2
  2. 極性辞書の自動生成に関する 先行研究との違い • 先行研究のアプローチは,半教師あり学習に分 類される. • 本研究では,(機関)投資家向けのニュースデー タに注目し,外部のデータベース(株式価格 データ)から極性情報を獲得. •

    人手による極性判断を介さずに金融分野に特化 した極性辞書を作成. 最初に,少量ではあるが教師データが必要. 教師データは,人手で用意するか,人手で既にラベル付けされたGeneral Inquirer のような辞書を用意する必要がある. 金融分野に特化した極性辞書を作成するには,専門家によるラベル付けが必要. 3
  3. はじめに • ファイナンス理論の発展と共に,数値情報を用 いた分析手法は多く報告されている. • 投資家にとって数値情報だけでなくテキスト情 報も重要な意思決定材料である. • ファイナンスや会計の分野の研究では,極性辞 書による分析が標準的な手法になっている.

    • 金融分野では,独自の語彙が用いられる傾向に あるから金融分野に特化した極性辞書を用いる ことで分析精度が上がる. 先行研究との比較の容易さ,ブラックボックス化してしまう 機械学習より説明が容易.(説明責任等の問題がある.) 4
  4. データ 株式価格情報からキーワードの極性評価を行う. 個別銘柄の株式リターンのデータ • Thomson Reuters Datastreamからトータルリ ターンの日次データ. リスクファクター・リターンのデータ •

    日本版Fama-Frenchから • マーケットリターンの日次データ. • リスクフリーレートの日次データ. • バリューファクター・リターンの日次データ. • サイズファクター・リターンの日次データ. 5
  5. キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.

    SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 9 経済上のイベントが株式価値にどのような影響を与えるかを測定する方法論. 各銘柄と各時期の共変動リスクを調整した株式価格変動である以上リターン を算出する為に用いた.
  6. ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •

    キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 10
  7. ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •

    キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 11 正常リターン(イベントが起こらなかった時のリターン) AR=異常リターン(「実際のリターン」-「正常リターン」) CAR=累積異常リターン(その期までのARの合計) SCAR=ニュース記事配信日の当日から1営業日後までの標準化された累積異常リターン
  8. キーワードリストを用いた分類検証 • 作成したキーワードリストをもとに,ニュース を5つのクラス(Very Positive, Positive, Neutral, Negative, Very Negative)に分類.

    • 一般的な極性辞書との比較のため,日本語評価 極性辞書(名詞編)を用いて同様にニュース記事 の分類をする. 13 Table3 学習データと評価データの対応