Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
株式価格情報を用いた金融極性辞書の作成(文献紹介)
Search
Yuto Kamiwaki
April 26, 2018
Research
0
470
株式価格情報を用いた金融極性辞書の作成(文献紹介)
2018/04/27文献紹介の発表内容
Yuto Kamiwaki
April 26, 2018
Tweet
Share
More Decks by Yuto Kamiwaki
See All by Yuto Kamiwaki
Emo2Vec: Learning Generalized Emotion Representation by Multi-task Training
yuto_kamiwaki
0
120
Modeling Naive Psychology of Characters in Simple Commonsense Stories
yuto_kamiwaki
1
210
Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
yuto_kamiwaki
0
110
Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach
yuto_kamiwaki
0
130
Tensor Fusion Network for Multimodal Sentiment Analysis
yuto_kamiwaki
0
260
Sentiment Analysis: It’s Complicated!
yuto_kamiwaki
0
82
ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task
yuto_kamiwaki
0
160
EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet
yuto_kamiwaki
0
110
ATTENTION-BASED LSTM FOR PSYCHOLOGICAL STRESS DETECTION FROM SPOKEN LANGUAGE USING DISTANT SUPERVISION
yuto_kamiwaki
0
150
Other Decks in Research
See All in Research
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
280
Combinatorial Search with Generators
kei18
0
920
長期・短期メモリを活用したエージェントの個別最適化
isidaitc
0
170
Remote sensing × Multi-modal meta survey
satai
4
460
Time to Cash: The Full Stack Breakdown of Modern ATM Attacks
ratatata
0
160
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
140
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
560
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
3
1.3k
CVPR2025論文紹介:Unboxed
murakawatakuya
0
180
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
560
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
190
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
2
680
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
75
5k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
The Power of CSS Pseudo Elements
geoffreycrofte
79
6k
Practical Orchestrator
shlominoach
190
11k
GitHub's CSS Performance
jonrohan
1032
470k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
GraphQLとの向き合い方2022年版
quramy
49
14k
Site-Speed That Sticks
csswizardry
11
890
Designing for Performance
lara
610
69k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
Transcript
株式価格情報を用いた 金融極性辞書の作成 長岡技術科学大学 自然言語処理研究室 上脇優人 五島圭一・高橋大志 自然言語処理Vol.24(2017)No.5 pp547-577 4月文献紹介
概要 • ニュースデータと株式価格データから金融分野 に特化した極性辞書の作成をする. • 研究手法の有効性は,作成した極性辞書を用い てニュース記事の分類をして検証した. • 検証の結果: •
ニュース記事配信日の株式リターンに関して,将来 のニュース記事分類が可能. • 異なるメディアのニュース記事も分類可能. • ニュース記事配信日から2営業日以上離れると, ニュース記事分類が困難. 2
極性辞書の自動生成に関する 先行研究との違い • 先行研究のアプローチは,半教師あり学習に分 類される. • 本研究では,(機関)投資家向けのニュースデー タに注目し,外部のデータベース(株式価格 データ)から極性情報を獲得. •
人手による極性判断を介さずに金融分野に特化 した極性辞書を作成. 最初に,少量ではあるが教師データが必要. 教師データは,人手で用意するか,人手で既にラベル付けされたGeneral Inquirer のような辞書を用意する必要がある. 金融分野に特化した極性辞書を作成するには,専門家によるラベル付けが必要. 3
はじめに • ファイナンス理論の発展と共に,数値情報を用 いた分析手法は多く報告されている. • 投資家にとって数値情報だけでなくテキスト情 報も重要な意思決定材料である. • ファイナンスや会計の分野の研究では,極性辞 書による分析が標準的な手法になっている.
• 金融分野では,独自の語彙が用いられる傾向に あるから金融分野に特化した極性辞書を用いる ことで分析精度が上がる. 先行研究との比較の容易さ,ブラックボックス化してしまう 機械学習より説明が容易.(説明責任等の問題がある.) 4
データ 株式価格情報からキーワードの極性評価を行う. 個別銘柄の株式リターンのデータ • Thomson Reuters Datastreamからトータルリ ターンの日次データ. リスクファクター・リターンのデータ •
日本版Fama-Frenchから • マーケットリターンの日次データ. • リスクフリーレートの日次データ. • バリューファクター・リターンの日次データ. • サイズファクター・リターンの日次データ. 5
データ 株式価格からキーワードリストを作成する. 日経QUICKニュース(2008-2011) 719633本 • 「ニュース記事の配信日付」・「ニュース記事本文に含 まれるキーワード」・「対象ニュース記事と関連する主 要銘柄名(証券コード)」のタグ情報を付与. ニュース記事分析をする. 日経QUICKニュース(2008-2011)
719633本 ロイターニュース(2009-2011) 395819本 • 「ニュース記事の配信日付」・「対象ニュース記事と関 連する主要銘柄名(証券コード)」のタグ情報を付与. 6
前処理と前処理後のデータ数 前処理 • ニュース記事配信日の調整 • 東証1部上場企業と関連するニュースを抽出 • 「ニュース記事本文に含まれるキーワード」が付 与されていない記事の削除 7
Table1 ニュース記事数 Table2 キーワード数
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 8
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 9 経済上のイベントが株式価値にどのような影響を与えるかを測定する方法論. 各銘柄と各時期の共変動リスクを調整した株式価格変動である以上リターン を算出する為に用いた.
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 10
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 11 正常リターン(イベントが起こらなかった時のリターン) AR=異常リターン(「実際のリターン」-「正常リターン」) CAR=累積異常リターン(その期までのARの合計) SCAR=ニュース記事配信日の当日から1営業日後までの標準化された累積異常リターン
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • 学習器から法線ベクトルを各キーワードの極性 情報と見なして抽出することでキーワードリス トの作成を試みた. • パラメータチューニングに関しては,10分割 交差検定を繰り返し,平均二乗誤差が最小にな るようなハイパーパラメータを決定.
• キーワードリストには,極性を持つと考えにく い語も入っている. 12
キーワードリストを用いた分類検証 • 作成したキーワードリストをもとに,ニュース を5つのクラス(Very Positive, Positive, Neutral, Negative, Very Negative)に分類.
• 一般的な極性辞書との比較のため,日本語評価 極性辞書(名詞編)を用いて同様にニュース記事 の分類をする. 13 Table3 学習データと評価データの対応
分類結果 14 Table4 各ニュース記事クラスのスコアの要約統計量(評価データ3年分)
分類結果 15 本研究 日本語評価極性辞書
おわりに • 金融分野に特化した極性辞書の作成が目的. • ニュース記事を金融分野に特化していない一般 的な極性辞書よりもうまく分類できているから 本研究で作成した辞書は,金融分野に特化した 辞書である. • ニュース記事配信日から2営業日以上離れると,
ニュース記事分類が困難. • 完全な新単語への対応,長期間のデータを用い た実験,ニュース以外のメディアへの応用が今 後の課題. 16