Slide 1

Slide 1 text

大規模言語モデルを用いた ニュースデータのセンチメント判定モデルの開発 および 実体経済センチメントインデックスの構成 2024年11月9日 Japan Digital Design株式会社 MUFG AI Studio 野間 修平 1 本報告の内容は筆者に帰属し,所属する組織としての見解を示すものではない. また,本報告にある誤りは全て筆者の責に帰する. 日本ファイナンス学会 第6回秋季研究大会 報告資料

Slide 2

Slide 2 text

本研究の概要 本研究の概要 • ニュースから物価動向と労働市場に対するセンチメントを判定して定量化 • センチメントの判定には大規模言語モデルを活用 • センチメントの判定結果を要約したインデックスは ➢ 実体経済の強さを代理する高頻度の指標に ➢ 主要な経済指標の予測因子に ➢ 債券市場の相場を判定する 2 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 3

Slide 3 text

本報告のアウトライン ⚫ 序論 ⚫ 提案手法 ⚫ センテンスの抽出 ⚫ マクロ経済トピックの判定 ⚫ センチメントの判定 ⚫ 数値実験 ⚫ 結論 ⚫ 補論 3 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 4

Slide 4 text

先行研究 金融ドメインにおけるニュースデータの活用 • 活用の目的は3種に大別される 1. 実体経済の様子を捉える高頻度な指標を構成⋅1 • 経済指標の算出はコストが高く,公表頻度も月次 • ニュースは日次で算出可能 • 意思決定への活用 2. 経済指標の予測因子を構成⋅2 3. 市場分析への応用⋅3 (予測,要因分解) 4 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論 1 (Nguyen et al. 2020), (Shapiro et al. 2022), (Seki et al. 2022) 2 (Barbaglia et al. 2023), (Ashwin et al. 2021) 3 (Oritz 2023), (Beetsma et al.2013), (Sayer 2018)

Slide 5

Slide 5 text

先行研究 センチメントの判定方法 • 辞書ベース⋅1 : 古くは単語と極性が紐づけられた辞書を用意して判定 • ルールベース⋅2: 辞書の情報 + 否定などの構文を考慮 • 機械学習ベース ➢ 大規模言語モデルなどを用いて判定 ➢ より複雑な構文や文脈を考慮することが可能 ➢ 事前にセンチメント判定用の辞書を構成する必要がない 5 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論 1 (Sebastiani and Esuli 2006), (Loughran and McDonald 2011) 2 (Hutto and Gilbert 2014)

Slide 6

Slide 6 text

トピックの選定 センチメントを判定する対象 • センチメントを判定するトピックの選択には任意性が • 株式市場,債券市場,成長,物価動向,労働市場,etc. • 本研究では物価動向と労働市場に関するセンチメントを判定する • Fedの調整対象(デュアル・マンデート)に対応 6 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 7

Slide 7 text

センチメントインデックスの構成方法 ニュースからセンチメントインデックスを構成するまでの流れ 7 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論 ニュース本文 センテンス キーワードを含むセンテンス マクロ経済トピックに言及するセンテンス センチメント 本文の前処理とセンテンスの抽出 キーワードによる絞り込み LLMを用いたトピック判定による絞り込み LLMを用いたセンチメントの判定 トピック判定に 基づく センテンスの抽出

Slide 8

Slide 8 text

本報告のアウトライン ⚫ 序論 ⚫ 提案手法 ⚫ センテンスの抽出 ⚫ マクロ経済トピックの判定 ⚫ センチメントの判定 ⚫ 数値実験 ⚫ 結論 ⚫ 補論 8 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 9

Slide 9 text

使用するニュースデータ 使用するニュースデータ = Reutersニュース • 1996年から2023年までに公表された約1400万記事⋅1を分析対象とした • ストーリー • Reutersが用意するニュース記事の改訂履歴を管理する概念 • 改訂が多いストーリーに属する記事にセンチメントを判定するセンテンスが 偏ることを避けるべく,各ストーリーにつき1つの記事を分析対象とする 9 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論 1 本文が存在し,英語で執筆されたもの. 24/11/07 24/11/08

Slide 10

Slide 10 text

センテンスの抽出 ニュース本文からセンテンスを抽出する意義 • 不要な情報の排除 • 記事中にはヘッダー,フッター,タグ,表など 記事が報じる事象とは直接的な関係がない文字列が含まれる • 相異なるセンチメントの存在 • 例えば,足元の労働市場に関して多角的に論じている記事を考える • 記事中のセンテンスが全て同一のセンチメントを持つとは考えにくい • 単一のセンチメントを持つことを期待してセンテンスへ分割する⋅1 10 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論 1 もちろん1文中に相反するセンチメントに対応する表現が含まれることもある.

Slide 11

Slide 11 text

本文の前処理 ニュース本文からセンテンスを抽出するまでの流れ • ヘッダー,フッター,タグ,表などの消去 • ブロックへの分割(空行,仕切り線) • 箇条書きの分割 • センテンスへの分割 11 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 12

Slide 12 text

本報告のアウトライン ⚫ 序論 ⚫ 提案手法 ⚫ センテンスの抽出 ⚫ マクロ経済トピックの判定 ⚫ センチメントの判定 ⚫ 数値実験 ⚫ 結論 ⚫ 補論 12 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 13

Slide 13 text

トピックを判定する意義 センチメントを判定するセンテンスの絞り込み • Reutersニュースは本研究において関心がある経済に関する記事以外にも 司法,政治,スポーツなど,多様な事象について報じる記事が存在 • 一方,センチメント判定モデルを得るためにはファインチューニングに 用いる訓練データが必要 • マクロ経済トピックに言及するセンテンスを抽出することで 訓練データが「中庸」に偏ることを避ける 13 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論 経済 司法 政治 スポーツ 人権 Positive Negative Neutral Neutral

Slide 14

Slide 14 text

1段階目のトピックの判定手法 キーワードによるトピックの判定 • 本研究では2段階の手続きで「マクロ経済」トピックを判定 • 1段階目は「キーワードを含むか否か」というシンプルなもの • しかし,これでは「我々に残された仕事(job)は~」といった センテンスが誤って選ばれてしまう 14 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 15

Slide 15 text

2段階目のトピックの判定手法 LLMによるトピックの判定 • RoBERTaをファインチューニングすることにより 「マクロ経済」トピックに言及しているか否かを判定するモデルを得る • 訓練データはどのように用意するか → GPT-4 Turboを用いてアノテーションを行う 15 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 キーワードを含むセンテンス 一部を抽出 GPT-4 Turbo アノテーション 訓練データ ファインチューニング RoBERTa センテンス 抽出

Slide 16

Slide 16 text

トピック判定のプロンプト アノテーションに用いたプロンプト • マクロ経済への言及と企業による意思決定(値上げ,レイオフ)を指定 • 他のトピックと,著者による予想や考えは除外 • Accuracy は 84.8% 16 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 17

Slide 17 text

本報告のアウトライン ⚫ 序論 ⚫ 提案手法 ⚫ センテンスの抽出 ⚫ マクロ経済トピックの判定 ⚫ センチメントの判定 ⚫ 数値実験 ⚫ 結論 ⚫ 補論 17 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 18

Slide 18 text

既存の金融特化LLMを用いる問題点 金融特化LLMによって実体経済センチメントを判定する問題点 • 金融ドメインの文章は語彙や表現に特異性がみられる → 多くの金融特化LLMが提案されている • しかし,金融特化LLMの事前学習に用いられるデータセットは 株価に対する影響に基づいてアノテートされているものが多い • 株価に対するセンチメントと実体経済に対するセンチメントが 相異なるケースが考えられる → 本研究では汎用モデルを選択 18 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 仕入れ価格の 下落 物価動向 株価 株価 労働市場 レイオフ Neg Pos Neg Pos センテンス 抽出

Slide 19

Slide 19 text

センチメント判定モデルの学習 LLMによるセンチメント判定 • 「マクロ経済トピック」判定モデルと同様の手続きでRoBERTaを ファインチューニングする 19 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 「マクロ経済トピック」と判定されたセンテンス 一部を抽出 GPT-4 Turbo アノテーション 訓練データ ファインチューニング RoBERTa センテンス 抽出

Slide 20

Slide 20 text

プロンプト(物価動向) 物価動向に関するセンチメントを判定するプロンプト • ポイント ➢ ラベル名を “HIGH” のように定義を表象するものに( “Label_1”) ➢ 中立ラベルを具体的に定義(変化が小さい or 相反するものを含む) ➢ “estimated from” なる表現を用いて積極的に推論させる ➢ Accuracy は 86.6% 20 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 21

Slide 21 text

労働市場に関するセンチメントを判定するプロンプト • ポイント ➢ 物価動向と同様(”TIGHT”, “LOOSE”, “NEUTRAL”) • Accuracy は 81.3% プロンプト(労働市場) 21 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 22

Slide 22 text

本報告のアウトライン ⚫ 序論 ⚫ 提案手法 ⚫ センテンスの抽出 ⚫ マクロ経済トピックの判定 ⚫ センチメントの判定 ⚫ 数値実験 ⚫ 結論 ⚫ 補論 22 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 23

Slide 23 text

センチメントの判定結果からインデックスを構成する方法 • ディフュージョン・インデックスとして定義 • 指数が過度に振動的にならないよう,直近20営業日の判定結果を使用 • 休日の取り扱い • 債券休場日に報じられたニュースは翌営業日分のものとしてカウント インデックスの構成 23 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出 𝐼𝑡 𝜏 ≝ σ 𝑘∈ 𝑡,𝑡−1,⋯,𝑡−𝜏+1 𝑃𝑘−𝑁𝑘 σ 𝑘∈ 𝑡,𝑡−1,⋯,𝑡−𝜏+1 𝑃𝑘+𝑁𝑘

Slide 24

Slide 24 text

センチメントインデックスとハードデータの連動性 • 物価動向インデックスは消費者物価指数の減速と連動 • 労働市場インデックスは景気後退と連動 インデックスと指標の連動性① 24 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 25

Slide 25 text

センチメントインデックスとマインドデータの連動性 • 物価動向インデックスはISM支払い価格指数と連動(相関:76.9%) • 労働市場インデックスはISM雇用指数と連動(相関:63.7%) インデックスと指標の連動性② 25 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出 ISM:ISM製造業景況感指数.米国の企業に対して景況感に関するアンケートを行い,その結果を要約した指数.

Slide 26

Slide 26 text

センチメントインデックスは経済指標の予測因子として有用か? • 予測因子としての有用性をどのように示すか → 変数選択 • L1正則化を施した線形予測モデルを学習し,正則化を強めても インデックスが非0の回帰係数を持つことを確認する • 予測対象:ISM支払い価格指数 • 予測モデル • 外れ値の存在を勘案し,中央値回帰モデルを採用する 予測因子としての有用性① 26 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出 ℒ 𝛼, 𝛽 𝜆 = ෍ 𝑡 𝑦𝑡 − 𝛼 + 𝛽⊤𝑥𝑡 + 𝜆 ⋅ 𝛽 1

Slide 27

Slide 27 text

説明変数のリスト • ISMの前月値以外の説明変数は予測対象とする指数値の調査期間中に構成される 予測因子としての有用性② 27 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 28

Slide 28 text

解パス • 正則化を強めていくにつれ,5つの説明変数が選択された • うち1つがセンチメントインデックス → 予測因子として有用 予測因子としての有用性③ 28 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 29

Slide 29 text

金利とセンチメントインデックスの関係 • センチメントインデックスの変化は金利変化をよく説明する • なぜか? → インデックスは実体経済の代理変数としての性質を持つ • ローリング相関を確認(両者の5営業日変化について相関を計算) • 平均:23.4% / 最大:62.7% 債券市場における相場の検出① 29 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 30

Slide 30 text

相関が低いレジームの解釈 • 「金利とインデックスの相関が低位である」相場の定性的解釈 • タームプレミアムなど「ファンダメンタルズ以外の要因」が支配的な相場 → 仮説:大きな変化には揺り戻しが伴う? • その後にリバーサルがみられるかを確認 → 「低相関レジーム」ではリバーサルが生じやすい 債券市場における相場の検出② 30 序論 トピック 判定 センチ メント判定 数値実験 結論 補論 センテンス 抽出

Slide 31

Slide 31 text

本報告のアウトライン ⚫ 序論 ⚫ 提案手法 ⚫ センテンスの抽出 ⚫ マクロ経済トピックの判定 ⚫ センチメントの判定 ⚫ 数値実験 ⚫ 結論 ⚫ 補論 31 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 32

Slide 32 text

結論 本研究のまとめ • ニュースから物価動向と労働市場に対するセンチメントを判定して定量化 • センチメントインデックスを構成するプロセス: ➢ センテンスの抽出 ➢ キーワードによるトピックの判定 ➢ LLMによるトピック判定 ➢ LLMによるセンチメントの判定 • センチメントインデックスの有用性: ➢ 経済指標との連動性が高い高頻度の指標 ➢ ISM製造業景況感指数の予測因子として有用 ➢ 債券市場におけるリバーサル相場を検出する 32 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 33

Slide 33 text

本報告のアウトライン ⚫ 序論 ⚫ 提案手法 ⚫ センテンスの抽出 ⚫ マクロ経済トピックの判定 ⚫ センチメントの判定 ⚫ 数値実験 ⚫ 結論 ⚫ 補論 33 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論 序論

Slide 34

Slide 34 text

タグを用いたトピック判定 タグを用いたトピック判定 • 本研究ではキーワードとLLMを用いてセンテンスのトピックを判定 • 一方,Reutersニュースでは記事にタグが紐づけられている • 地域(米国,新興国,etc.) • 資産クラス(株,為替,etc.) • トピック(中央銀行,地政学,etc.) • 用意されたマクロ経済トピックのタグを用いればよいのでは? • タグを用いる問題点 = 検出漏れのリスク • マクロ経済タグが付されていない記事中にも経済に言及するセンテンスが 34 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 35

Slide 35 text

ファインチューニングの意義 GPT-4 Turboを用いてセンチメントを判定しない理由 • 本研究では GPT-4 Turbo を用いてファインチューニングに用いる 訓練データのアノテーションを行っている • なぜ全てのセンテンスに対して GPT-4 Turbo を用いてセンチメントを 判定しないのか? → コスト • 1996年から2023年の28年間において,センチメントの判定対象となる センテンスは 5,381,440文 • 入出力の平均トークン長から費用を概算するとおよそ 350万円 35 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論

Slide 36

Slide 36 text

センチメントインデックスのバイアス センチメントインデックスが正のバイアスを有している理由 • センチメントインデックスの平均値: • 物価動向:16.7% • 労働市場: 1.7% • 正のバイアスを持つのはなぜか? → 物価も雇用者数も上昇基調 36 序論 センテンス 抽出 トピック 判定 センチ メント判定 数値実験 結論 補論