Slide 1
Slide 1 text
企業・業界動向抽出のための
経済情報ラベルの定義とタグ付きコーパスの構築
増田太郎*1, 櫻井亮佑*1, 桐井智弘*1, 渡邊英介*2, 石原祥太郎*1
*1: 日経新聞, *2: 東京大学
研究の背景
● 記事データなどの自然言語文書中から企業動向
や業界動向など重要な記述を効率的に抽出する
手法が重要
● 自動抽出のために教師あり学習に向けた訓練
データ構築が必要になるが,経済情報の記述は
ミクロ・マクロ両視点の表現が混在しており,
画一的なラベル定義が困難
今後の展望
● 本定義が幅広く経済情報抽出に活用可能とす
るための社内外への継続的ヒアリング
● 公開可能なタグ付きコーパス構築の検討
種
別
ラベル名 定義・含む例
ミ
ク
ロ
事業概要 - 継続的に取り組んでいる事業
- シェア1位,などの事実
- A社・B社〜が出資する事業会社,という説
明
- 具体的な会社の設立目的
提携 - 資本関係が発生しない協力関係
- 共同研究・開発
出資・投資 - 資本関係が生じる協力関係の発生/解消
- 工場・発電所の設備投資
- 新会社・JVの設立
- 資金調達 (する側/される側両方)
事業現況 - 突発的に取り組んだ事業
- 新商品・サービス
- 参入,販売増,活用の拡大など
買収 - 合併,事業譲渡,第三者株式取得
背景・狙い - 特定の会社が直面している(主観的に見
た)特定の市場環境,自社のポジショニング
- 特定の会社から見た市場の動向・予測
- 特定の企業の将来像を語っているところ,
展望,狙い,目的,ゴールなど
サービス
説明
- サービスの名称とサービスの概要を端的に
示したもの
マ
ク
ロ
市況 - 特定の会社に限定しない市場環境全体
- 需給・法整備・政策など
- リサーチ会社・記者が語る解説
技術
動向
個別の会社の技術ではなく,普遍的に注目さ
れている技術の強み
競合
情報
- 競合などキープレーヤーの情報
- 市場シェア(競争動向)への言及,複数社
の列挙
提案
● 部分的な階層関係を含む経済情報ラベルの定義
(右表2)とそのラベルを含む
タグ付きコーパスを新たに構築
● ①アノテーション作成→②モデル学習・評価→
③ラベル統廃合というHuman-in-the-Loopを
3度回した結果,右表2の定義に落ち着いた
①新規ラベル定義で学習データ用の
アノテーション追加
● 3名のアノテーター間で担当範囲を等分し,
認識を合わせながら進行
● 少しでも判断に迷ったものは定例会議や
コメント機能で議論
● ピアレビューによる等質性の確保
②モデル学習・評価
● センテンス単位でラベル付けを行い
,ku-nlp/deberta-v2-large-japaneseを用いた
マルチラベル分類問題としてFine-tuning
● ラベル定義確定前のアノテーションで学習させ
た場合よりも,確定後のアノテーションの方が
性能が向上した
独自のテキストデータに対して体系立てた
ラベル定義でのアノテーションおよび
教師ありモデルを構築
②モデル学習・評価
図1 ラベリングとモデル学習を反復更新する
Human-in-the-Loop
③ラベル統廃合の検討
新商品
開発
事業
現況
①新規ラベル定義で
学習データ用のアノテーション作成
学習データ 評価データ Precision Recall macro-F1
ラベル定義
確定前
ラベル定義
確定前
0.612 0.583 0.594
ラベル定義
確定前
ラベル定義
確定後
0.612 0.556 0.571
ラベル定義
確定後
ラベル定義
確定後
0.636 0.585 0.598
表2 部分的な階層関係を含む経済情報ラベルの定義
③ラベル統廃合の検討
例1)「新商品」ラベルと「開発」ラベルを
統合して「事業現況」ラベルとした
理由:両者の区別が困難なケースも多く,
ユースケース上同一視して問題ない
例2)「競合情報」「技術動向」といった
情報の重要さに途中で気づいたため,
新規ラベルを作成
表1 ラベル定義確定前後のアノテーションの差異が性能に与える影響