Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について

 言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について

知識強化型言語モデルLUKEミートアップ投影資料

田村光太郎

January 29, 2025
Tweet

Other Decks in Research

Transcript

  1. • 企業・経済情報を提供するSaaSプラットフォームを提供する 株式会社ユーザベースの紹介 2 創業 今年で 16 年目 規模 (2024年末時点)

    1,093 人 事業 経済情報に特化した事業 事業 9事業 創業:2008年4月 経済情報プラットフォーム BtoB ソーシャル経済メディア BtoC 経済情報の力で、誰もがビジネスを楽しめる世界をつくる
  2. • コンピュータサイエンス分野の研究を通じて「あらゆるデータを“活きた経済情報”として利用可能にす る」ことを目標として、UB Researchがデータの高付加価値化する研究開発の役割を担う。 • 保有する大規模な経済・企業情報のデータの構造化と、分析インサイトの創出を行う。 ユーザベースの技術研究所:UB Researchの紹介 4 主な研究(UB全体含む)

    AI・ML技術の提案 ◦ 新井和弥 et al. ,”Account-Based Marketingのためのターゲット企 業推薦モデルの改善“, 会誌「情報処理」Vol.63 No.2 (2022) ◦ 大知正直 et al. ,“M&A後の業績変化を考慮した買収候補推薦のた めの内容ベースニューラル協調フィルタリング法”, 第32回人工知 能学会全国大会論文集 (2018) データサイエンス ◦ “スタートアップ企業の上場後の成長に関する実態調査報告書”, 令和4年度産業経済研究委託事業 各事業と連携して、技術的な研究を行うため、 2023年1月にUB Researchが設立
  3. • 世の中には経済・企業に関する大量の情報があるが、それぞれのテキストはそのドメインでの利用が想 定されているため、適切な処理をしないと有機的使うことができない。 • 定性情報であるテキストやコンテンツからそのデータにラベル(企業名・業種など)を与え、一つの整 理されたデータとして扱えるようにする。 UBKE開発の背景:データを有効活用するための情報の構造化 7 有価証券報告書 XXX

    グループの新しい製品が特許を 取得しました.この製品は,従来の プロセスに比べて生産効率を大幅に 向上させます.この製品は,生産量 を大幅に向上させるとともに,コス トを削減し,サプライチェーンの一 貫性を向上させることができます. YYY グループは,XXX グループが発 表したこの新製品に注目しています. YYY グループは,この製品が自社の 既存の製品と競合する可能性がある と懸念しています.(略) ニュース記事(仮) XXX グループの新しい製品が特許を 取得しました.この製品は,従来の プロセスに比べて生産効率を大幅に 向上させます.この製品は,生産量 を大幅に向上させるとともに,コス トを削減し,サプライチェーンの一 貫性を向上させることができます. YYY グループは,XXX グループが発 表したこの新製品に注目しています. YYY グループは,この製品が自社の 既存の製品と競合する可能性がある と懸念しています.(略) FlashOpinionの質問回答文(仮)
  4. • 日々、新しく生まれる多種多様な経済・企業情報データを構造化するために、情報の紐づけは重要な技 術となる。 • 特に、UBに求められる情報抽出は… ◦ ドメイン固有の情報や企業名などの重要な経済単語への感度が高いこと ◦ ニュースデータなど高頻度・即時的にマッピングできること ◦

    企業名やタグの改変が頻繁に行われる状況でも柔軟に対応できること ユーザベースにおける企業・経済情報の紐づけ 8 ニュース 記事 プレスリ リース 有報 UBデータ UBデータが扱うドメイン の特殊な用語への感度 課題 ・企業名 (略称・別名・統廃合) ・経済/金融 ・コーポレートアクション ・技術名 ・製品名 モデル タググラフ化 ニュース 記事 プレスリ リース 有報 製造業 3Dプリンター 自動車 自動運転 AI 画像処理 画像処理 金型 製造業 企業A 企業B 企業B
  5. データ組成と価値創造における事業部との連携と研究成果 9 • 事業部が持つさまざまなデータに対して、データリンキングやデータ分析を実施 記事文面への企業名紐づけ FlashOpinion質問文へのタグ紐づけ 企業課題文への部署・課題タグ紐づけ ターゲット企業推薦モデル M&A後の業績変化を考慮した買収候補推薦 スタートアップ企業の上場後の成長

    距離学習 ◼大規模言語モデルによるデータ拡張を利用した文章タグ付けタス クの距離学習への転換 (JSAI 2024) 固有表現抽出の適用 ◼ニュース記事テキストにおける組織名の抽出 (NLP 2024) ◼固有表現抽出によるニューステキスト内の企業名抽出 (JSAI 2023) ◼金融・証券記事における表構造を含んだテキストに対する組織名 抽出 (JSAI 2024) データ拡張 ◼疑似ニュース生成による固有表現抽出タスクのデータ拡張 (WI2 2023) ◼系列ラベリングデータにおける CutMIX によるデータ拡張 (NLP 2024) ◼固有表現抽出タスクにおける文章のランダム連結によるデータ拡 張 (IFAT 2023) 企業分析 ◼Account-Based Marketingのためのターゲット企業推薦モデルの改 善 (情報処理, Vol.63 No.2) ◼Account-Based Marketingのためのターゲット企業推薦システムの 構築 (JSAI 2019) ◼M&A後の業績変化を考慮した買収候補推薦のための内容ベースニ ューラル協調フィルタリング法 (JSAI 2018) 調査分析 ◼‘上場後の成長戦略 スタートアップ飛躍のカギを握る’, 11月24日号, 週間金融財政事情 ◼令和4年度産業経済研究委託事業「スタートアップ企業の上場後 の成長に関する実態調査報告書」 テキスト情報抽出 経済・企業分析
  6. • 従来のLUKE: ◦ Wikipediaのページタイトル名をエンティティとして、Wikipediaのテキストを学習 ◦ Wikipedia 本文中でエンティティが言及されるタイプのデータで学習 • UBKEで求められること: ◦

    実際にニュースなどの経済情報に企業を紐づけにあたっては、企業名をエンティティとして構成 したい。 ◦ 本文中で企業名が言及されない、全体の主題となっている企業名も認識したい • 実際に、UBKEを作る(経済情報に企業を紐づける目的のモデル構築)にあたって、行ったこと ◦ Wikipediaの企業名ページを収集する。 ▪ Wikipediaで学習済LUKEのエンティティを企業名のものに置換 ◦ 企業名エンティティに関わる説明型・言及型のデータを収集・構築する。 ◦ 説明型・言及型のデータを学習できるようにモデルのアーキテクチャを変更する。 ▪ 説明型のCLSトークンから多ラベルとして複数の企業名をあてる UBKE-LUKEのための工夫 14
  7. • UBKEがエンティティ 企業名エンティティの知識を持つUBKE 15 説明型: 文章全体が特定の企業に対応するタイプのデータ 言及型: 文章中の語句が特定の企業に対応するタイプのデータ 経済情報プラットフォーム「SPEEDA」やニュースメディア「NewsPicks」を提 供する日本の企業で、ビジネスパーソン向けのデータ・コンテンツサービスを展

    開している。2008年に設立され、独自のデータ解析と専門家の知見を組み合わせ た情報提供を強みとしている。 国内のビジネス情報市場では、データ活用の高度化が進んでいる。株式会社ユー ザベースは、経済情報プラットフォーム「SPEEDA」に生成AIを活用した分析機 能を追加し、企業の意思決定を支援する取り組みを強化。一方、競合のXXX も独自のリアルタイム経済指標を強化し、金融機関向けのサービス展開を加速さ せている。 {“text”:‘国内のビジネス情報市場では、(中略) 金融機関向けのサービス展開を加速させている。’, “entities”:[‘株式会社ユーザベース’,’株式会社XXX’], "entity_spans":[[31,40], [108,111]], "topic_entities":[‘株式会社ユーザベース’]} 具体的なデータの持ち方
  8. • Hugging FaceのUBKEは、公開用に権利関係がクリアされたデータで学習したものを公開している。 ◦ データ量の均衡を保つため、説明・言及、各データごとに重みを設定して学習している。 企業名エンティティの知識を持つUBKE 16 公開 非公開 有価証券報告書

    説明:〇 説明:〇 Wikipedia(説明文・言及文) 説明:〇 言及:〇 説明:〇 言及:〇 ニュース(公開可能なもの) 説明:〇 言及:〇 企業特色(上場) 説明:〇 企業概要(非上場) 説明:〇 企業課題サジェスト文 説明:〇 自社組成ニュースリリース集 説明:〇 ニュース(外部パートナー) 説明:〇 言及:〇
  9. • UBKEによって、企業名エンティティを獲得したモデルを構築した。 エンティティの知識を持つLUKE 18 レクサスは主に北米の高級車マーケットにおいて、 一定の地位を築いた。 企業名 スコア トヨタ自動車 2.22

    KLASS 2.08 三和エナジー 1.91 大阪トヨペット 1.81 ソフト99コーポレーション 1.81 企業名 スコア トヨタ自動車 3.42 大阪トヨペット 2.87 動力 2.70 マツダ 2.57 善都 2.50 入力 出力(公開版) 出力(社内版) ◦ 名寄せ ◦ テキストの企業タグ付け 東電 企業名 スコア 東鉄工業 1.80 ハイメディック 1.73 東日本旅客鉄道 1.70 トーエネック 1.69 四電工 1.68 企業名 スコア 東京電力ホールディングス 1.90 九電工 1.69 トーエネック 1.67 四電工 1.65 山本製粉 1.38 入力 出力(公開版) 出力(社内版)
  10. • UBKEによって、企業名エンティティを獲得したモデルを構築した。 エンティティの知識を持つLUKE 19 清涼飲料水 企業名 スコア えひめ飲料 1.76 アサヒ飲料販売

    1.73 JR東日本ウォータービジネス 1.70 ヨギー 1.69 JUNS 1.68 企業名 スコア サントリーフーズ 2.79 サッポロ飲料株式会社 2.30 木村飲料 2.25 アサヒ飲料 2.19 日本コカ・コーラ 2.18 入力 出力(公開版) 出力(社内版) ◦ 類似企業 ◦ 企業検索 東電 企業名 スコア スズキ 0.0436 日産自動車 0.0444 いすゞ自動車 0.0446 東芝 0.0447 日野自動車 0.0453 企業名 スコア スズキ 0.0419 日産自動車 0.0426 日野自動車 0.0432 いすゞ自動車 0.0433 マツダ 0.0442 入力 出力(公開版) 出力(社内版) ※モデルから埋め込み表現を取り 出して、ある企業の近傍を見る
  11. • UBKEによって、企業名エンティティを獲得したモデルを構築した。 エンティティの知識を持つLUKE 20 「東京電力」-「電気」+「ガス」 企業名 スコア 三菱瓦斯化学 2.61 西部ガスホールディングス

    2.24 北陸瓦斯 2.23 JUNS 2.23 旭川ガス 2.19 企業名 スコア 東京瓦斯 2.57 西部ガスホールディングス 2.31 三菱瓦斯化学 2.26 東京電力ホールディングス 2.25 センチュリオン 2.09 埋め込み表現の四則 出力(公開版) 出力(社内版) ◦ 企業の四則演算
  12. • UBKE-LUKEによって、企業名エンティティの知識(=埋め込み表現)を獲得したモデルを構築した。 ◦ 構築の方法 ▪ 経済・金融データの大量の学習 ▪ LUKEのアーキテクチャの変更 ◦ 定性的な機能として、企業名エンティティに関するさまざまなタスクをこなせるモデルができた

    • モデルはHugging Faceで公開しているので、学習に必要なデータをそろえて、ユーザ独自のモデル開発 ができるようになっている。(使って下さい!) • 今回は、企業名エンティティを題材としたモデル構築を行ったが、経済・金融に関する多種のエンティ ティを学習し、データの網羅的なナレッジグラフ化に有効なモデルへの発展の可能性を探りたい。 さいごに 21
  13. 22