Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DEIM2024_発表スライド_中山

snoo_py
April 03, 2024
23

 DEIM2024_発表スライド_中山

snoo_py

April 03, 2024
Tweet

Transcript

  1. 1 DEIM T2-B-4-02 中⼭ 樹, 菊地 良将, 中⻄ 宏和, 佐々⽊

    勇和, 荒瀬 由紀, ⻤塚 真 ⼤阪⼤学 グラフ深層学習を⽤いた 類似特許検索の精度向上
  2. 特許検索 ・新規性調査…出願予定の発明が既に特許出願されていないか調べる 研究背景 8 既存の特許 申請したい発明 … … 発明に類似した特許 (類似特許検索)

    新規性調査︕ 新規性を否定する特許があり,検索結果に含まれない場合 →特許出願をするが,特許として認定されない 検索精度︓低
  3. 既存⼿法 類似特許検索 ・全⽂検索 ・⽂書の分散表現による検索 ・分類情報による検索 13 利点︓上⼿く活⽤すれば範囲を絞ることができる ⽋点︓分類情報の選択,条件式の作成が難しい →上⼿く活⽤したい 4M118AA03

    OR 4M118BA06 →全31377件 Fターム IPC 4M118AA03 →全 1739件 4M118AA03 AND 4M118BA06 →全 1172件 (4M118AA03 AND 4M118BA06) AND (H04N25/704) →全 1件 (4M118AA03 OR 4M118BA06) AND (H04N25/704) →全 20件 4M118AA03︓電荷転送効率の向上 4M118BA06︓半導体結晶型 H04N25/704︓焦点合わせに特に適した画素 クエリ 検索結果
  4. 提案⼿法︓⽅針 ⽅針︓メタデータを類似特許検索に活⽤する メタデータ︓ ・分類情報 ・Fターム…先⾏技術調査に⽤いられる ・IPC…国際特許分類 ・引⽤情報 特許審査官が定めた特許間の関係 拒絶理由,参考⽂献などが存在 15

    Fタームの例︓9A001 HZ 01 コンピュータサイエンス コンピュータ⽅法論 ⼈⼯知能 IPCの例︓H 01 C 10/00 電気 電気素⼦ 抵抗器 可調整抵抗器 引⽤情報の例 拒絶理由通知 引⽤⽂献番号( 特開2009-172458号公報 ) 引⽤⽂献番号( 特開2001-104997号公報 ) 引⽤⽂献番号( 特開2008-126128号公報 )
  5. 提案⼿法︓⽅針 ⽅針︓メタデータを類似特許検索に活⽤する メタデータ︓ ・分類情報 ・Fターム…先⾏技術調査に⽤いられる ・IPC…国際特許分類 ・引⽤情報 特許審査官が定めた特許間の関係 拒絶理由,参考⽂献などが存在 →これらのメタデータをどのように活⽤するか︖

    16 Fタームの例︓9A001 HZ 01 コンピュータサイエンス コンピュータ⽅法論 ⼈⼯知能 IPCの例︓H 01 C 10/00 電気 電気素⼦ 抵抗器 可調整抵抗器 引⽤情報の例 拒絶理由通知 引⽤⽂献番号( 特開2009-172458号公報 ) 引⽤⽂献番号( 特開2001-104997号公報 ) 引⽤⽂献番号( 特開2008-126128号公報 )
  6. 提案⼿法︓概要 概要図 20 ຒΊࠐΈ จॻ ຒΊࠐΈ (1) ⽂書の分散表現に よる初期特徴量の作成 (2)

    GNNによる分類情報の反映 (3) 2値分類タスクによる 引⽤情報の反映 ϕΫτϧݕࡧ
  7. 提案⼿法︓(1) ⽂書の分散表現による初期特徴量の作成 22 ファインチューニング 𝑇𝑟𝑖𝑝𝑙𝑒𝑡 𝐿𝑜𝑠𝑠 = - (",$,%) ∈)*+$,-./

    max 𝑠" − 𝑠$ 0 − 𝑠" − 𝑠% 0 + 𝑚𝑎𝑟𝑔𝑖𝑛, 0 (margin︓距離の差に関する制約の度合い) Sentence-BERT ⽂書2 ⽂書3 ⽂書1 ⽂書2 埋め込み空間 ⽂書1 ⽂書3
  8. 提案⼿法︓(1) ⽂書の分散表現による初期特徴量の作成 23 ファインチューニング 𝑇𝑟𝑖𝑝𝑙𝑒𝑡 𝐿𝑜𝑠𝑠 = - (",$,%) ∈)*+$,-./

    max 𝑠" − 𝑠$ 0 − 𝑠" − 𝑠% 0 + 𝑚𝑎𝑟𝑔𝑖𝑛, 0 (margin︓距離の差に関する制約の度合い) Sentence-BERT ⽂書2 ⽂書3 ⽂書1 ⽂書2 埋め込み空間 ⽂書1 ⽂書3 anchor positive negative 特許間の 引⽤関係 ランダム に選択
  9. 提案⼿法︓(1) ⽂書の分散表現による初期特徴量の作成 24 ファインチューニング 𝑇𝑟𝑖𝑝𝑙𝑒𝑡 𝐿𝑜𝑠𝑠 = - (",$,%) ∈)*+$,-./

    max 𝑠" − 𝑠$ 0 − 𝑠" − 𝑠% 0 + 𝑚𝑎𝑟𝑔𝑖𝑛, 0 (margin︓距離の差に関する制約の度合い) Sentence-BERT ⽂書2 ⽂書3 ⽂書1 ⽂書2 埋め込み空間 ⽂書1 ⽂書3 anchor positive negative 𝑠! 𝑠" 𝑠# 特許間の 引⽤関係 ランダム に選択 anchor positive negative
  10. 提案⼿法︓(1) ⽂書の分散表現による初期特徴量の作成 25 ファインチューニング 𝑇𝑟𝑖𝑝𝑙𝑒𝑡 𝐿𝑜𝑠𝑠 = - (",$,%) ∈)*+$,-./

    max 𝑠" − 𝑠$ 0 − 𝑠" − 𝑠% 0 + 𝑚𝑎𝑟𝑔𝑖𝑛, 0 (margin︓距離の差に関する制約の度合い) Sentence-BERT ⽂書2 ⽂書3 ⽂書1 ⽂書2 埋め込み空間 ⽂書1 ⽂書3 anchor positive negative 𝑠! 𝑠" 𝑠# 特許間の 引⽤関係 ランダム に選択 anchorとpositiveを近づけ, anchorとnegativeを遠ざける anchor positive negative 引⽤関係を踏まえた 分散表現が⽣成できる
  11. 提案⼿法︓(2) GNNによる分類情報の反映 キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 27 A 1 2 B

    C 3 D 4 5 特許 ノード Fターム ノード 特許 Fターム 1 A 2 A, B 3 C, D 4 B 5 D 特許 IPC 1 E 2 E, F 3 F 4 E, F 5 F E 1 2 F 3 4 5 特許 ノード IPC ノード ,
  12. 提案⼿法︓(2) GNNによる分類情報の反映 キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 31 "   #

    $  %   "   # $  %   ಛڐϊʔυ 'λʔϜϊʔυ "   # $  %   (// 𝑋! 𝑋" 𝑋! 𝑋′" 𝑋! # " 𝑋′"      𝑋′!!
  13. 提案⼿法︓(2) GNNによる分類情報の反映 キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 32 ノードの特徴量は 隣接ノードの 特徴量で初期化 "

      # $  %   "   # $  %   ಛڐϊʔυ 'λʔϜϊʔυ "   # $  %   (// 𝑋! 𝑋" 𝑋! 𝑋′" 𝑋! # " 𝑋′"      𝑋′!! (1) ⽂書の分散 表現による初期 特徴量の作成, で得られた特徴量
  14. 提案⼿法︓(2) GNNによる分類情報の反映 キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 33 "   #

    $  %   "   # $  %   ಛڐϊʔυ 'λʔϜϊʔυ "   # $  %   (// 𝑋! 𝑋" 𝑋! 𝑋′" 𝑋! # " 𝑋′"      𝑋′!! 1層⽬︓特許ノードから Fタームノードへ伝搬
  15. 提案⼿法︓(2) GNNによる分類情報の反映 キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 34 "   #

    $  %   "   # $  %   ಛڐϊʔυ 'λʔϜϊʔυ "   # $  %   (// 𝑋! 𝑋" 𝑋! 𝑋′" 𝑋! # " 𝑋′"      𝑋′!! 2層⽬︓Fタームノードから 特許ノードへ伝搬
  16. 提案⼿法︓(2) GNNによる分類情報の反映 キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 35 "   #

    $  %   "   # $  %   ಛڐϊʔυ 'λʔϜϊʔυ "   # $  %   (// 𝑋! 𝑋" 𝑋! 𝑋′" 𝑋! # " 𝑋′"      𝑋′!! ⽂書の分散表現にFタームの 情報を取り⼊れた特徴量𝑋′!"
  17. 提案⼿法︓(2) GNNによる分類情報の反映 36   & '   

      & '      & '    ಛڐϊʔυ *1$ϊʔυ (// 𝑋! 𝑋$ 𝑋! 𝑋′$ 𝑋! # $ 𝑋′$      𝑋′!" キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 (1) ⽂書の分散 表現による初期 特徴量の作成, で得られた特徴量 ノードの特徴量は 隣接ノードの 特徴量で初期化 ⽂書の分散表現にIPCの 情報を取り⼊れた特徴量𝑋′!$
  18. 提案⼿法︓(3) 2値分類タスクによる引⽤情報の反映 38 キーアイデア︓ 2値分類タスクを解くことで引⽤情報を反映させる 1 3 , , neg

    pair pos pair pair      ಛڐϊʔυ neg pair pos pair 2 4 𝑋′′! 特許間の 引⽤関係 ランダム に選択
  19. 提案⼿法︓(3) 2値分類タスクによる引⽤情報の反映 39 キーアイデア︓ 2値分類タスクを解くことで引⽤情報を反映させる 1 3 , , 0.8

    0.1 neg pair スコア(& 𝑦) pos pair 正解(𝑦) 1 0 pair      ಛڐϊʔυ neg pair pos pair 2 4 𝑋′′! MLP 特許間の 引⽤関係 ランダム に選択
  20. 提案⼿法︓(3) 2値分類タスクによる引⽤情報の反映 40 キーアイデア︓ 2値分類タスクを解くことで引⽤情報を反映させる 1 3 , , 0.8

    0.1 neg pair 𝐵𝑖𝑛𝑎𝑟𝑦 𝐶𝑟𝑜𝑠𝑠 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝐿𝑜𝑠𝑠 𝐵𝐶𝐸𝐿𝑜𝑠𝑠 = −𝑦・ log 4 𝑦 − 1 − 𝑦 ・log(1 − 4 𝑦) スコア(& 𝑦) pos pair 正解(𝑦) 1 0 pair      ಛڐϊʔυ neg pair pos pair 2 4 𝑋′′! MLP このロスを最⼩化することで, 𝑋′′" が引⽤関係の有無が予測できるような特徴量になることが期待される 特許間の 引⽤関係 ランダム に選択
  21. 提案⼿法︓(3) 2値分類タスクによる引⽤情報の反映 41 キーアイデア︓ 2値分類タスクを解くことで引⽤情報を反映させる 1 3 4 5 ,

    , 0.8 0.1 neg pair 𝐵𝑖𝑛𝑎𝑟𝑦 𝐶𝑟𝑜𝑠𝑠 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝐿𝑜𝑠𝑠 𝐵𝐶𝐸𝐿𝑜𝑠𝑠 = −𝑦・ log 4 𝑦 − 1 − 𝑦 ・log(1 − 4 𝑦) スコア(& 𝑦) pos pair 正解(𝑦) 1 0 pair      ಛڐϊʔυ hard neg pair neg pair pos pair hard neg pair 2 4 , 0.4 0.2 𝑋′′! (1) ⽂書の分散表現による 初期特徴量の作成, で得た特徴量が似ているが, 引⽤関係のないペア MLP 引⽤関係の判定が難しいネガティブペアを学習に取り⼊れることで, 𝑋′′! をより検索に有効な特徴量にする
  22. 実験1︓⼿法の⽐較 ・⽬的︓提案⼿法が類似特許検索に有効か検証する ・評価指標︓MEAN Recall@K...漏れなく類似特許を⾒つけることが⽬標 ・実験設定 ・データセット ・IPC︓A〜H 8種類のうち,D,Eの2種類を使⽤ ・分割は,train :

    validation : test = 8:1:1 (特許の申請⽇順) 44 IPC (国際特許分類) 概要 特許数 Fターム数 1つの特許あたりの 平均Fターム数 IPC数 1つの特許あたりの 平均IPC数 平均引⽤数 D 繊維,紙 164075 74783 27.20 2807 2.53 1.24 E 固定構造物 470066 106855 12.03 3075 1.76 1.27
  23. 実験1︓⼿法の⽐較 45 [2] Hamilton, Will, Zhitao Ying, and Jure Leskovec,

    "Inductive representation learning on large graphs.”, 2017 ⼿法 詳細 要約⽂ メタデータ 引⽤情報 分類情報 全⽂検索 Elasticsearch 転置インデックス ー ー ⽂書の分散表現による検索 Sentence-BERT 分散表現 ファイン チューニング ー 分類情報による検索 FタームのJaccard係数 ー ー Fタームを使⽤ 提案⼿法 GNNに GraphSAGE[2]を使⽤ 分散表現 ファイン チューニング BCE loss FタームとIPCを使⽤ (⼆部グラフ) ・⽐較⼿法
  24. 実験2︓ablation study 48 ・実験結果 各要素が再現率の向上に貢献していることが確認できた ⼿法 Recall@100(IPC D) Recall@100(IPC E)

    提案⼿法 0.482 0.421 w/o Fターム 0.446 0.396 w/o IPC 0.464 0.385 w/o ハードネガティブ 0.456 0.415 表︓ablation studyの結果
  25. 付録︓GraphSAGE キーアイデア︓ 分類情報を基に⼆部グラフを作成し, GNNによって多クラス分類の情報を特徴量に反映 53 ノードの特徴量は 隣接ノードの 特徴量で初期化 " 

     # $  %   "   # $  %   ಛڐϊʔυ 'λʔϜϊʔυ "   # $  %   (// 𝑋! 𝑋" 𝑋! 𝑋′" 𝑋! # " 𝑋′"      𝑋′!! (1) ⽂書の分散 表現による初期 特徴量の作成, で得られた特徴量
  26. 付録︓GraphSAGE 54 "   # $  % 

     "   # $  %   ಛڐϊʔυ 'λʔϜϊʔυ "   # $  %   (// 𝑋! 𝑋" 𝑋! 𝑋′" 𝑋! # " 𝑋′"      𝑋′!! <latexit sha1_base64="FBuHI1tOqsEYDYbeDFZcvU5aksI=">AAADBnichVFNSxtRFL0zrTa1amKFWujm0WBNKIQXkVYEQS0FN4rRxgiODDOTl/h0vph5CdFhFu7EP+Ciqxa6kIK74rbQjX/ARX5BEZcW3LjonQ9arFTvMPPuO/ec+86bq7sm9wWlXUl+8LCn91Hmcd+T/oHBbG7o6arvtDyDVQ3HdLw1XfOZyW1WFVyYbM31mGbpJqvp2++ieq3NPJ879gex47INS2vavMENTSCk5vYU3Qo64ZgaBG4jVHlIponi86alFaJKLVQjnChG3REk4SIS8V6ThDB2gyFYRwQL72cXkdZQt4jCbRIsxpQCyophSP6ciPWwSNRcnpZoHOR2Uk6TPKSx5OROQIE6OGBACyxgYIPA3AQNfHzWoQwUXMQ2IEDMw4zHdQYh9KG2hSyGDA3Rbfw2cbeeojbuo55+rDbwFBNfD5UERukZPaKX9JR+pef0+r+9grhH5GUHVz3RMlfNHjxfubpXZeEqYPOv6k7PAhowGXvl6N2NkegWRqJv7x5erkwtjwav6Gd6gf4/0S79gTew27+MLxW2/PEOPzp6wT+GAyr/O47byep4qfymNFGZyM/MpaPKwAt4CQWcx1uYgXlYgir2/ykNSM+kEXlfPpa/yScJVZZSzTDcCPn7b6BTwes=</latexit> x0 pfi = (Wpf · xpi + W 0 pf · MEANfj 2Npf (pi) x0 fj ) <latexit sha1_base64="n8oayl1lcWfWaEY8djT5SH1DlSc=">AAADAHichVFJSxxBFH7dJnHJYo9eBC+Fg3EkMNQEUREEFwK5RNzGEWxputuaSTm90V0zqE1dPPoHPHhKIJCQg3gSvHrJH/Dg0WPIUSGXHPJ6IZtEX9Ndr773fa+/qmcFDo8EpZeK2vHg4aPOru6ex0+ePuvVCn1rkd8KbVa1fccP1y0zYg73WFVw4bD1IGSmazmsZjXnk3qtzcKI+96q2A3Ypms2PF7ntikQMrRYt9x4R44Ycd3gkkwTPeIN1ywlcE0iKolub/mCZLyc9oJk9ZE/CYLtiPjNq9kFZAXGNtG5R+IFzOuyhKpRKX81wbIko4ZWpGWaBrmdVPKkCHks+top6LAFPtjQAhcYeCAwd8CECJ8NqACFALFNiBELMeNpnYGEHtS2kMWQYSLaxG8Ddxs56uE+6Rmlahv/4uAbopLAML2gn+g1/UI/06/0x397xWmPxMsurlamZYHRezCw8v1elYurgLe/VXd6FlCHydQrR+9BiiSnsDN9e+/wemVqeTh+Tt/Tb+j/Hb2k53gCr31jf1hiy0d3+LHQC94YDqjy7zhuJ2svy5Xx8tjSWHFmLh9VFwzCEJRwHhMwA69hEarY/0rpVDSloO6rH9Vj9SSjqkqu6Ye/Qj37CUaQv0A=</latexit> x0 fi = (Wf · xfi + W 0 f · MEANpj 2Npf (fi) xpj )
  27. 付録︓試しているアイデア ・全⽂検索の良さを取り⼊れたい →重要な単語を含んでいるものに⾼いスコアを付ける アイデア︓単語もノードとして扱う 55 "   # $

     %   "   # $  %   ಛڐϊʔυ ୯ޠϊʔυ "   # $  %   𝑋! 𝑋% 𝑋! 𝑋′% 𝑋! # % 𝑋′%      𝑋′!# 電位 電圧 抵抗 電⼒