2018/04/27文献紹介の発表内容
株式価格情報を用いた金融極性辞書の作成長岡技術科学大学自然言語処理研究室上脇優人五島圭一・高橋大志自然言語処理Vol.24(2017)No.5 pp547-5774月文献紹介
View Slide
概要• ニュースデータと株式価格データから金融分野に特化した極性辞書の作成をする.• 研究手法の有効性は,作成した極性辞書を用いてニュース記事の分類をして検証した.• 検証の結果:• ニュース記事配信日の株式リターンに関して,将来のニュース記事分類が可能.• 異なるメディアのニュース記事も分類可能.• ニュース記事配信日から2営業日以上離れると,ニュース記事分類が困難.2
極性辞書の自動生成に関する先行研究との違い• 先行研究のアプローチは,半教師あり学習に分類される.• 本研究では,(機関)投資家向けのニュースデータに注目し,外部のデータベース(株式価格データ)から極性情報を獲得.• 人手による極性判断を介さずに金融分野に特化した極性辞書を作成.最初に,少量ではあるが教師データが必要.教師データは,人手で用意するか,人手で既にラベル付けされたGeneral Inquirerのような辞書を用意する必要がある.金融分野に特化した極性辞書を作成するには,専門家によるラベル付けが必要.3
はじめに• ファイナンス理論の発展と共に,数値情報を用いた分析手法は多く報告されている.• 投資家にとって数値情報だけでなくテキスト情報も重要な意思決定材料である.• ファイナンスや会計の分野の研究では,極性辞書による分析が標準的な手法になっている.• 金融分野では,独自の語彙が用いられる傾向にあるから金融分野に特化した極性辞書を用いることで分析精度が上がる.先行研究との比較の容易さ,ブラックボックス化してしまう機械学習より説明が容易.(説明責任等の問題がある.)4
データ株式価格情報からキーワードの極性評価を行う.個別銘柄の株式リターンのデータ• Thomson Reuters Datastreamからトータルリターンの日次データ.リスクファクター・リターンのデータ• 日本版Fama-Frenchから• マーケットリターンの日次データ.• リスクフリーレートの日次データ.• バリューファクター・リターンの日次データ.• サイズファクター・リターンの日次データ.5
データ株式価格からキーワードリストを作成する.日経QUICKニュース(2008-2011) 719633本• 「ニュース記事の配信日付」・「ニュース記事本文に含まれるキーワード」・「対象ニュース記事と関連する主要銘柄名(証券コード)」のタグ情報を付与.ニュース記事分析をする.日経QUICKニュース(2008-2011) 719633本ロイターニュース(2009-2011) 395819本• 「ニュース記事の配信日付」・「対象ニュース記事と関連する主要銘柄名(証券コード)」のタグ情報を付与.6
前処理と前処理後のデータ数前処理• ニュース記事配信日の調整• 東証1部上場企業と関連するニュースを抽出• 「ニュース記事本文に含まれるキーワード」が付与されていない記事の削除7Table1 ニュース記事数 Table2 キーワード数
キーワードリストの作成方法キーワードリストを作成する方法論の概略1. 株式価格情報からイベントスタディ分析によって各ニュース記事へ教師スコアを付与.2. ニュースデータに付与されているキーワードをもとに,ニュース記事内容をbag-of-wordsによってベクトルで表現.3. SVRによって教師あり学習を行い,学習器から各キーワードの極性情報を抽出し,キーワードリストを作成.8
キーワードリストの作成方法キーワードリストを作成する方法論の概略1. 株式価格情報からイベントスタディ分析によって各ニュース記事へ教師スコアを付与.2. ニュースデータに付与されているキーワードをもとに,ニュース記事内容をbag-of-wordsによってベクトルで表現.3. SVRによって教師あり学習を行い,学習器から各キーワードの極性情報を抽出し,キーワードリストを作成.9経済上のイベントが株式価値にどのような影響を与えるかを測定する方法論.各銘柄と各時期の共変動リスクを調整した株式価格変動である以上リターンを算出する為に用いた.
ニュース記事内容のベクトル表現方法とキーワードの極性評価• ニュース記事内容をbag-of-wordsによってベクトルで表現する.• 日経QUICKニュースには,ニュース記事の内容を表すキーワード郡が付与されている.これらをニュース記事のベクトルの特徴量とした.• キーワードの極性評価は,算出した教師スコアをニュース記事ベクトルに紐付け,入力・出力を下記とし,SVRによって学習器を作成.• 入力(X):bag-of-wordsのベクトル• 出力(Y):SCAR[0,+1]10
ニュース記事内容のベクトル表現方法とキーワードの極性評価• ニュース記事内容をbag-of-wordsによってベクトルで表現する.• 日経QUICKニュースには,ニュース記事の内容を表すキーワード郡が付与されている.これらをニュース記事のベクトルの特徴量とした.• キーワードの極性評価は,算出した教師スコアをニュース記事ベクトルに紐付け,入力・出力を下記とし,SVRによって学習器を作成.• 入力(X):bag-of-wordsのベクトル• 出力(Y):SCAR[0,+1]11正常リターン(イベントが起こらなかった時のリターン)AR=異常リターン(「実際のリターン」-「正常リターン」)CAR=累積異常リターン(その期までのARの合計)SCAR=ニュース記事配信日の当日から1営業日後までの標準化された累積異常リターン
ニュース記事内容のベクトル表現方法とキーワードの極性評価• 学習器から法線ベクトルを各キーワードの極性情報と見なして抽出することでキーワードリストの作成を試みた.• パラメータチューニングに関しては,10分割交差検定を繰り返し,平均二乗誤差が最小になるようなハイパーパラメータを決定.• キーワードリストには,極性を持つと考えにくい語も入っている.12
キーワードリストを用いた分類検証• 作成したキーワードリストをもとに,ニュースを5つのクラス(Very Positive, Positive,Neutral, Negative, Very Negative)に分類.• 一般的な極性辞書との比較のため,日本語評価極性辞書(名詞編)を用いて同様にニュース記事の分類をする.13Table3 学習データと評価データの対応
分類結果14Table4 各ニュース記事クラスのスコアの要約統計量(評価データ3年分)
分類結果15本研究 日本語評価極性辞書
おわりに• 金融分野に特化した極性辞書の作成が目的.• ニュース記事を金融分野に特化していない一般的な極性辞書よりもうまく分類できているから本研究で作成した辞書は,金融分野に特化した辞書である.• ニュース記事配信日から2営業日以上離れると,ニュース記事分類が困難.• 完全な新単語への対応,長期間のデータを用いた実験,ニュース以外のメディアへの応用が今後の課題.16