Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
株式価格情報を用いた金融極性辞書の作成(文献紹介)
Search
Yuto Kamiwaki
April 26, 2018
Research
0
370
株式価格情報を用いた金融極性辞書の作成(文献紹介)
2018/04/27文献紹介の発表内容
Yuto Kamiwaki
April 26, 2018
Tweet
Share
More Decks by Yuto Kamiwaki
See All by Yuto Kamiwaki
Emo2Vec: Learning Generalized Emotion Representation by Multi-task Training
yuto_kamiwaki
0
99
Modeling Naive Psychology of Characters in Simple Commonsense Stories
yuto_kamiwaki
1
190
Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
yuto_kamiwaki
0
96
Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach
yuto_kamiwaki
0
130
Tensor Fusion Network for Multimodal Sentiment Analysis
yuto_kamiwaki
0
190
Sentiment Analysis: It’s Complicated!
yuto_kamiwaki
0
70
ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task
yuto_kamiwaki
0
120
EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet
yuto_kamiwaki
0
93
ATTENTION-BASED LSTM FOR PSYCHOLOGICAL STRESS DETECTION FROM SPOKEN LANGUAGE USING DISTANT SUPERVISION
yuto_kamiwaki
0
140
Other Decks in Research
See All in Research
Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical
nttcom
0
110
[研究室用] 2038年問題研究の現状報告
ran350
0
290
床面圧力センサ開発における感圧導電シート分離方式の検討 / WISS2023
yumulab
0
260
Breaking Tradeoffs: Extremely Scalable Multi-Agent Pathfinding Algorithms
kei18
0
140
眠眠ガチャ:ガチャを活用した睡眠意欲向上アプリの開発 / EC71inui
yumulab
0
120
How to Perform Manual Classification for Deep Learning Using CloudCompare
kentaitakura
0
590
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
160
10-ot-generic-bio.pdf
gpeyre
0
120
Embodied AIについて / About Embodied AI
nttcom
1
510
[2023 CCSE] ZOZOTOWN検索における 研究開発の取り組みについて
tomoyayama
0
130
Alternative Photographic Processes Reimagined: The Role of Digital Technology in Revitalizing Classic Printing Techniques【SIGGRAPH Asia 2023】
toremolo72
0
430
Sosiaalisen median katsaus 02/2024
hponka
0
2.4k
Featured
See All Featured
WebSockets: Embracing the real-time Web
robhawkes
59
7k
Robots, Beer and Maslow
schacon
PRO
154
7.9k
Designing on Purpose - Digital PM Summit 2013
jponch
110
6.4k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
1
3.4k
How GitHub (no longer) Works
holman
304
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.8k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
115
18k
How To Stay Up To Date on Web Technology
chriscoyier
781
250k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
352
28k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
272
13k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
243
20k
Transcript
株式価格情報を用いた 金融極性辞書の作成 長岡技術科学大学 自然言語処理研究室 上脇優人 五島圭一・高橋大志 自然言語処理Vol.24(2017)No.5 pp547-577 4月文献紹介
概要 • ニュースデータと株式価格データから金融分野 に特化した極性辞書の作成をする. • 研究手法の有効性は,作成した極性辞書を用い てニュース記事の分類をして検証した. • 検証の結果: •
ニュース記事配信日の株式リターンに関して,将来 のニュース記事分類が可能. • 異なるメディアのニュース記事も分類可能. • ニュース記事配信日から2営業日以上離れると, ニュース記事分類が困難. 2
極性辞書の自動生成に関する 先行研究との違い • 先行研究のアプローチは,半教師あり学習に分 類される. • 本研究では,(機関)投資家向けのニュースデー タに注目し,外部のデータベース(株式価格 データ)から極性情報を獲得. •
人手による極性判断を介さずに金融分野に特化 した極性辞書を作成. 最初に,少量ではあるが教師データが必要. 教師データは,人手で用意するか,人手で既にラベル付けされたGeneral Inquirer のような辞書を用意する必要がある. 金融分野に特化した極性辞書を作成するには,専門家によるラベル付けが必要. 3
はじめに • ファイナンス理論の発展と共に,数値情報を用 いた分析手法は多く報告されている. • 投資家にとって数値情報だけでなくテキスト情 報も重要な意思決定材料である. • ファイナンスや会計の分野の研究では,極性辞 書による分析が標準的な手法になっている.
• 金融分野では,独自の語彙が用いられる傾向に あるから金融分野に特化した極性辞書を用いる ことで分析精度が上がる. 先行研究との比較の容易さ,ブラックボックス化してしまう 機械学習より説明が容易.(説明責任等の問題がある.) 4
データ 株式価格情報からキーワードの極性評価を行う. 個別銘柄の株式リターンのデータ • Thomson Reuters Datastreamからトータルリ ターンの日次データ. リスクファクター・リターンのデータ •
日本版Fama-Frenchから • マーケットリターンの日次データ. • リスクフリーレートの日次データ. • バリューファクター・リターンの日次データ. • サイズファクター・リターンの日次データ. 5
データ 株式価格からキーワードリストを作成する. 日経QUICKニュース(2008-2011) 719633本 • 「ニュース記事の配信日付」・「ニュース記事本文に含 まれるキーワード」・「対象ニュース記事と関連する主 要銘柄名(証券コード)」のタグ情報を付与. ニュース記事分析をする. 日経QUICKニュース(2008-2011)
719633本 ロイターニュース(2009-2011) 395819本 • 「ニュース記事の配信日付」・「対象ニュース記事と関 連する主要銘柄名(証券コード)」のタグ情報を付与. 6
前処理と前処理後のデータ数 前処理 • ニュース記事配信日の調整 • 東証1部上場企業と関連するニュースを抽出 • 「ニュース記事本文に含まれるキーワード」が付 与されていない記事の削除 7
Table1 ニュース記事数 Table2 キーワード数
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 8
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 9 経済上のイベントが株式価値にどのような影響を与えるかを測定する方法論. 各銘柄と各時期の共変動リスクを調整した株式価格変動である以上リターン を算出する為に用いた.
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 10
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 11 正常リターン(イベントが起こらなかった時のリターン) AR=異常リターン(「実際のリターン」-「正常リターン」) CAR=累積異常リターン(その期までのARの合計) SCAR=ニュース記事配信日の当日から1営業日後までの標準化された累積異常リターン
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • 学習器から法線ベクトルを各キーワードの極性 情報と見なして抽出することでキーワードリス トの作成を試みた. • パラメータチューニングに関しては,10分割 交差検定を繰り返し,平均二乗誤差が最小にな るようなハイパーパラメータを決定.
• キーワードリストには,極性を持つと考えにく い語も入っている. 12
キーワードリストを用いた分類検証 • 作成したキーワードリストをもとに,ニュース を5つのクラス(Very Positive, Positive, Neutral, Negative, Very Negative)に分類.
• 一般的な極性辞書との比較のため,日本語評価 極性辞書(名詞編)を用いて同様にニュース記事 の分類をする. 13 Table3 学習データと評価データの対応
分類結果 14 Table4 各ニュース記事クラスのスコアの要約統計量(評価データ3年分)
分類結果 15 本研究 日本語評価極性辞書
おわりに • 金融分野に特化した極性辞書の作成が目的. • ニュース記事を金融分野に特化していない一般 的な極性辞書よりもうまく分類できているから 本研究で作成した辞書は,金融分野に特化した 辞書である. • ニュース記事配信日から2営業日以上離れると,
ニュース記事分類が困難. • 完全な新単語への対応,長期間のデータを用い た実験,ニュース以外のメディアへの応用が今 後の課題. 16