Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
株式価格情報を用いた金融極性辞書の作成(文献紹介)
Search
Yuto Kamiwaki
April 26, 2018
Research
0
430
株式価格情報を用いた金融極性辞書の作成(文献紹介)
2018/04/27文献紹介の発表内容
Yuto Kamiwaki
April 26, 2018
Tweet
Share
More Decks by Yuto Kamiwaki
See All by Yuto Kamiwaki
Emo2Vec: Learning Generalized Emotion Representation by Multi-task Training
yuto_kamiwaki
0
110
Modeling Naive Psychology of Characters in Simple Commonsense Stories
yuto_kamiwaki
1
210
Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
yuto_kamiwaki
0
100
Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach
yuto_kamiwaki
0
130
Tensor Fusion Network for Multimodal Sentiment Analysis
yuto_kamiwaki
0
220
Sentiment Analysis: It’s Complicated!
yuto_kamiwaki
0
76
ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task
yuto_kamiwaki
0
140
EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet
yuto_kamiwaki
0
110
ATTENTION-BASED LSTM FOR PSYCHOLOGICAL STRESS DETECTION FROM SPOKEN LANGUAGE USING DISTANT SUPERVISION
yuto_kamiwaki
0
150
Other Decks in Research
See All in Research
Tiaccoon: コンテナネットワークにおいて複数トランスポート方式で統一的なアクセス制御
hiroyaonoe
0
340
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
230
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
440
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
130
PetiteSRE_GenAIEraにおけるインフラのあり方観察
ichichi
0
250
LLM 시대의 Compliance: Safety & Security
huffon
0
560
サーブレシーブ成功率は勝敗に影響するか?
vball_panda
0
490
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
3.6k
The many faces of AI and the role of mathematics
gpeyre
1
1.6k
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
560
Building Height Estimation Using Shadow Length in Satellite Imagery
satai
2
100
尺度開発における質的研究アプローチ(自主企画シンポジウム7:認知行動療法における尺度開発のこれから)
litalicolab
0
410
Featured
See All Featured
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.5k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
220
Done Done
chrislema
182
16k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Producing Creativity
orderedlist
PRO
343
39k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.3k
Git: the NoSQL Database
bkeepers
PRO
427
64k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Statistics for Hackers
jakevdp
797
220k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
3k
Writing Fast Ruby
sferik
628
61k
Become a Pro
speakerdeck
PRO
26
5.1k
Transcript
株式価格情報を用いた 金融極性辞書の作成 長岡技術科学大学 自然言語処理研究室 上脇優人 五島圭一・高橋大志 自然言語処理Vol.24(2017)No.5 pp547-577 4月文献紹介
概要 • ニュースデータと株式価格データから金融分野 に特化した極性辞書の作成をする. • 研究手法の有効性は,作成した極性辞書を用い てニュース記事の分類をして検証した. • 検証の結果: •
ニュース記事配信日の株式リターンに関して,将来 のニュース記事分類が可能. • 異なるメディアのニュース記事も分類可能. • ニュース記事配信日から2営業日以上離れると, ニュース記事分類が困難. 2
極性辞書の自動生成に関する 先行研究との違い • 先行研究のアプローチは,半教師あり学習に分 類される. • 本研究では,(機関)投資家向けのニュースデー タに注目し,外部のデータベース(株式価格 データ)から極性情報を獲得. •
人手による極性判断を介さずに金融分野に特化 した極性辞書を作成. 最初に,少量ではあるが教師データが必要. 教師データは,人手で用意するか,人手で既にラベル付けされたGeneral Inquirer のような辞書を用意する必要がある. 金融分野に特化した極性辞書を作成するには,専門家によるラベル付けが必要. 3
はじめに • ファイナンス理論の発展と共に,数値情報を用 いた分析手法は多く報告されている. • 投資家にとって数値情報だけでなくテキスト情 報も重要な意思決定材料である. • ファイナンスや会計の分野の研究では,極性辞 書による分析が標準的な手法になっている.
• 金融分野では,独自の語彙が用いられる傾向に あるから金融分野に特化した極性辞書を用いる ことで分析精度が上がる. 先行研究との比較の容易さ,ブラックボックス化してしまう 機械学習より説明が容易.(説明責任等の問題がある.) 4
データ 株式価格情報からキーワードの極性評価を行う. 個別銘柄の株式リターンのデータ • Thomson Reuters Datastreamからトータルリ ターンの日次データ. リスクファクター・リターンのデータ •
日本版Fama-Frenchから • マーケットリターンの日次データ. • リスクフリーレートの日次データ. • バリューファクター・リターンの日次データ. • サイズファクター・リターンの日次データ. 5
データ 株式価格からキーワードリストを作成する. 日経QUICKニュース(2008-2011) 719633本 • 「ニュース記事の配信日付」・「ニュース記事本文に含 まれるキーワード」・「対象ニュース記事と関連する主 要銘柄名(証券コード)」のタグ情報を付与. ニュース記事分析をする. 日経QUICKニュース(2008-2011)
719633本 ロイターニュース(2009-2011) 395819本 • 「ニュース記事の配信日付」・「対象ニュース記事と関 連する主要銘柄名(証券コード)」のタグ情報を付与. 6
前処理と前処理後のデータ数 前処理 • ニュース記事配信日の調整 • 東証1部上場企業と関連するニュースを抽出 • 「ニュース記事本文に含まれるキーワード」が付 与されていない記事の削除 7
Table1 ニュース記事数 Table2 キーワード数
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 8
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 9 経済上のイベントが株式価値にどのような影響を与えるかを測定する方法論. 各銘柄と各時期の共変動リスクを調整した株式価格変動である以上リターン を算出する為に用いた.
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 10
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 11 正常リターン(イベントが起こらなかった時のリターン) AR=異常リターン(「実際のリターン」-「正常リターン」) CAR=累積異常リターン(その期までのARの合計) SCAR=ニュース記事配信日の当日から1営業日後までの標準化された累積異常リターン
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • 学習器から法線ベクトルを各キーワードの極性 情報と見なして抽出することでキーワードリス トの作成を試みた. • パラメータチューニングに関しては,10分割 交差検定を繰り返し,平均二乗誤差が最小にな るようなハイパーパラメータを決定.
• キーワードリストには,極性を持つと考えにく い語も入っている. 12
キーワードリストを用いた分類検証 • 作成したキーワードリストをもとに,ニュース を5つのクラス(Very Positive, Positive, Neutral, Negative, Very Negative)に分類.
• 一般的な極性辞書との比較のため,日本語評価 極性辞書(名詞編)を用いて同様にニュース記事 の分類をする. 13 Table3 学習データと評価データの対応
分類結果 14 Table4 各ニュース記事クラスのスコアの要約統計量(評価データ3年分)
分類結果 15 本研究 日本語評価極性辞書
おわりに • 金融分野に特化した極性辞書の作成が目的. • ニュース記事を金融分野に特化していない一般 的な極性辞書よりもうまく分類できているから 本研究で作成した辞書は,金融分野に特化した 辞書である. • ニュース記事配信日から2営業日以上離れると,
ニュース記事分類が困難. • 完全な新単語への対応,長期間のデータを用い た実験,ニュース以外のメディアへの応用が今 後の課題. 16