Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
株式価格情報を用いた金融極性辞書の作成(文献紹介)
Search
Yuto Kamiwaki
April 26, 2018
Research
0
480
株式価格情報を用いた金融極性辞書の作成(文献紹介)
2018/04/27文献紹介の発表内容
Yuto Kamiwaki
April 26, 2018
Tweet
Share
More Decks by Yuto Kamiwaki
See All by Yuto Kamiwaki
Emo2Vec: Learning Generalized Emotion Representation by Multi-task Training
yuto_kamiwaki
0
120
Modeling Naive Psychology of Characters in Simple Commonsense Stories
yuto_kamiwaki
1
220
Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
yuto_kamiwaki
0
110
Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach
yuto_kamiwaki
0
140
Tensor Fusion Network for Multimodal Sentiment Analysis
yuto_kamiwaki
0
270
Sentiment Analysis: It’s Complicated!
yuto_kamiwaki
0
83
ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task
yuto_kamiwaki
0
170
EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet
yuto_kamiwaki
0
110
ATTENTION-BASED LSTM FOR PSYCHOLOGICAL STRESS DETECTION FROM SPOKEN LANGUAGE USING DISTANT SUPERVISION
yuto_kamiwaki
0
150
Other Decks in Research
See All in Research
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
450
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
590
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability
yuukit
1
480
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
300
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
110
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
470
湯村研究室の紹介2025 / yumulab2025
yumulab
0
280
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
0
150
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
110
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
160
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
200
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Un-Boring Meetings
codingconduct
0
170
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
190
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
76
Writing Fast Ruby
sferik
630
62k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
180
Raft: Consensus for Rubyists
vanstee
141
7.3k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
How to build a perfect <img>
jonoalderson
1
4.8k
Facilitating Awesome Meetings
lara
57
6.7k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Transcript
株式価格情報を用いた 金融極性辞書の作成 長岡技術科学大学 自然言語処理研究室 上脇優人 五島圭一・高橋大志 自然言語処理Vol.24(2017)No.5 pp547-577 4月文献紹介
概要 • ニュースデータと株式価格データから金融分野 に特化した極性辞書の作成をする. • 研究手法の有効性は,作成した極性辞書を用い てニュース記事の分類をして検証した. • 検証の結果: •
ニュース記事配信日の株式リターンに関して,将来 のニュース記事分類が可能. • 異なるメディアのニュース記事も分類可能. • ニュース記事配信日から2営業日以上離れると, ニュース記事分類が困難. 2
極性辞書の自動生成に関する 先行研究との違い • 先行研究のアプローチは,半教師あり学習に分 類される. • 本研究では,(機関)投資家向けのニュースデー タに注目し,外部のデータベース(株式価格 データ)から極性情報を獲得. •
人手による極性判断を介さずに金融分野に特化 した極性辞書を作成. 最初に,少量ではあるが教師データが必要. 教師データは,人手で用意するか,人手で既にラベル付けされたGeneral Inquirer のような辞書を用意する必要がある. 金融分野に特化した極性辞書を作成するには,専門家によるラベル付けが必要. 3
はじめに • ファイナンス理論の発展と共に,数値情報を用 いた分析手法は多く報告されている. • 投資家にとって数値情報だけでなくテキスト情 報も重要な意思決定材料である. • ファイナンスや会計の分野の研究では,極性辞 書による分析が標準的な手法になっている.
• 金融分野では,独自の語彙が用いられる傾向に あるから金融分野に特化した極性辞書を用いる ことで分析精度が上がる. 先行研究との比較の容易さ,ブラックボックス化してしまう 機械学習より説明が容易.(説明責任等の問題がある.) 4
データ 株式価格情報からキーワードの極性評価を行う. 個別銘柄の株式リターンのデータ • Thomson Reuters Datastreamからトータルリ ターンの日次データ. リスクファクター・リターンのデータ •
日本版Fama-Frenchから • マーケットリターンの日次データ. • リスクフリーレートの日次データ. • バリューファクター・リターンの日次データ. • サイズファクター・リターンの日次データ. 5
データ 株式価格からキーワードリストを作成する. 日経QUICKニュース(2008-2011) 719633本 • 「ニュース記事の配信日付」・「ニュース記事本文に含 まれるキーワード」・「対象ニュース記事と関連する主 要銘柄名(証券コード)」のタグ情報を付与. ニュース記事分析をする. 日経QUICKニュース(2008-2011)
719633本 ロイターニュース(2009-2011) 395819本 • 「ニュース記事の配信日付」・「対象ニュース記事と関 連する主要銘柄名(証券コード)」のタグ情報を付与. 6
前処理と前処理後のデータ数 前処理 • ニュース記事配信日の調整 • 東証1部上場企業と関連するニュースを抽出 • 「ニュース記事本文に含まれるキーワード」が付 与されていない記事の削除 7
Table1 ニュース記事数 Table2 キーワード数
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 8
キーワードリストの作成方法 キーワードリストを作成する方法論の概略 1. 株式価格情報からイベントスタディ分析に よって各ニュース記事へ教師スコアを付与. 2. ニュースデータに付与されているキーワード をもとに,ニュース記事内容をbag-of- wordsによってベクトルで表現. 3.
SVRによって教師あり学習を行い,学習器か ら各キーワードの極性情報を抽出し,キー ワードリストを作成. 9 経済上のイベントが株式価値にどのような影響を与えるかを測定する方法論. 各銘柄と各時期の共変動リスクを調整した株式価格変動である以上リターン を算出する為に用いた.
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 10
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • ニュース記事内容をbag-of-wordsによってベ クトルで表現する. • 日経QUICKニュースには,ニュース記事の内容を 表すキーワード郡が付与されている.これらを ニュース記事のベクトルの特徴量とした. •
キーワードの極性評価は,算出した教師スコア をニュース記事ベクトルに紐付け,入力・出力 を下記とし,SVRによって学習器を作成. • 入力(X):bag-of-wordsのベクトル • 出力(Y):SCAR[0,+1] 11 正常リターン(イベントが起こらなかった時のリターン) AR=異常リターン(「実際のリターン」-「正常リターン」) CAR=累積異常リターン(その期までのARの合計) SCAR=ニュース記事配信日の当日から1営業日後までの標準化された累積異常リターン
ニュース記事内容のベクトル表現 方法とキーワードの極性評価 • 学習器から法線ベクトルを各キーワードの極性 情報と見なして抽出することでキーワードリス トの作成を試みた. • パラメータチューニングに関しては,10分割 交差検定を繰り返し,平均二乗誤差が最小にな るようなハイパーパラメータを決定.
• キーワードリストには,極性を持つと考えにく い語も入っている. 12
キーワードリストを用いた分類検証 • 作成したキーワードリストをもとに,ニュース を5つのクラス(Very Positive, Positive, Neutral, Negative, Very Negative)に分類.
• 一般的な極性辞書との比較のため,日本語評価 極性辞書(名詞編)を用いて同様にニュース記事 の分類をする. 13 Table3 学習データと評価データの対応
分類結果 14 Table4 各ニュース記事クラスのスコアの要約統計量(評価データ3年分)
分類結果 15 本研究 日本語評価極性辞書
おわりに • 金融分野に特化した極性辞書の作成が目的. • ニュース記事を金融分野に特化していない一般 的な極性辞書よりもうまく分類できているから 本研究で作成した辞書は,金融分野に特化した 辞書である. • ニュース記事配信日から2営業日以上離れると,
ニュース記事分類が困難. • 完全な新単語への対応,長期間のデータを用い た実験,ニュース以外のメディアへの応用が今 後の課題. 16