Slide 1

Slide 1 text

© 2024 Wantedly, Inc. 非競プロ勢によるUSPTOコンペ参加記 第2回 関東 kaggler 会 Aug. 3 2024 - chimuichimu

Slide 2

Slide 2 text

自己紹介 © 2024 Wantedly, Inc. kaggle name: chimuichimu 仕事: データサイエンティスト@ウォンテッドリー Tier: Competition Expert @chimuichimu1

Slide 3

Slide 3 text

お話しすること © 2024 Wantedly, Inc. USPTO コンペとはどんなコンペだったか? どう取り組んだか?

Slide 4

Slide 4 text

USPTO - Explainable AI for Patent Professionals © 2024 Wantedly, Inc. ● テーマ ○ USPTO(米国特許商標庁)がホストの「特許」がテーマのコンペ ● 期間 ○ 2024/4/24 ~ 7/24 ● 参加チーム数 ○ 571 チーム https://www.kaggle.com/competitions/uspto-explainable-ai

Slide 5

Slide 5 text

USPTO - Explainable AI for Patent Professionals © 2024 Wantedly, Inc. タスク:類似特許を効率良く取得する boolean ク エリを作る

Slide 6

Slide 6 text

USPTO - Explainable AI for Patent Professionals © 2024 Wantedly, Inc. ・・・ 各特許に対し、embedding から抽出された 類似特許が50個与えられる 特許X 近傍_1 近傍_2 近傍_3 近傍_50

Slide 7

Slide 7 text

USPTO - Explainable AI for Patent Professionals © 2024 Wantedly, Inc. ・・・ それぞれの特許はタイトルなどのメタ情報を持つ 特許X 近傍_1 近傍_2 近傍_3 近傍_50 ● title: “System and method for …” ● abstract: “A method for customizing …” ● cpc_codes: ['G06K9/00892', 'G06T15/20', … ] ● ・・・

Slide 8

Slide 8 text

USPTO - Explainable AI for Patent Professionals © 2024 Wantedly, Inc. ・・・ メタ情報から類似特許を取得するクエリを boolean 演算子(AND, OR, NOT, XOR)を使いトークン数の制限内で作る 特許X 近傍_1 近傍_2 近傍_3 近傍_50 (ti:beam AND cpc:H01J41/20) OR (ti:tube AND cpc:H01J2235/205) OR … → クエリにより「類似特許」の解釈性を特許の専門家に提供する

Slide 9

Slide 9 text

USPTO - Explainable AI for Patent Professionals © 2024 Wantedly, Inc. ・・・ 類似特許の集合とクエリを実行した検索結果のランキングから MAP@50で評価 特許X 類似特許 ・・・ クエリ検索結果 MAP@50で評価

Slide 10

Slide 10 text

なぜ参加したのか? © 2024 Wantedly, Inc. 今までやったことのないタスクで面白そう LB上位にいる競プロ勢から色々学べそう LEAP が盛り上がっている今、こっそり参加して 結構良いとこまでいけるのでは...

Slide 11

Slide 11 text

コンペ中の取り組み © 2024 Wantedly, Inc. アプローチ (ti:tube AND cpc:H01J2235/205) (ti:gettering AND cpc:H01J41/04) (ti:beam AND cpc:H01J41/20) ・・・ (ti:beam AND cpc:H01J41/20) OR (ti:tube cpc:H01J2235/205) OR (ti:gettering cpc:H01J41/04) OR (ti:electron cpc:H01J1/304) OR (ti:compact cpc:H01J49/147) STEP1:類似特許のメタ情報から 候補となる子クエリを TF-IDFスコアなどをもとに作成

Slide 12

Slide 12 text

コンペ中の取り組み © 2024 Wantedly, Inc. アプローチ (ti:tube AND cpc:H01J2235/205) (ti:gettering AND cpc:H01J41/04) (ti:beam AND cpc:H01J41/20) ・・・ (ti:beam AND cpc:H01J41/20) OR (ti:tube cpc:H01J2235/205) OR (ti:gettering cpc:H01J41/04) OR (ti:electron cpc:H01J1/304) OR (ti:compact cpc:H01J49/147) STEP2:子クエリを組み合わせて 最終的なクエリを作成

Slide 13

Slide 13 text

コンペ中の取り組み © 2024 Wantedly, Inc. アプローチ (ti:tube AND cpc:H01J2235/205) (ti:gettering AND cpc:H01J41/04) (ti:beam AND cpc:H01J41/20) ・・・ (ti:beam AND cpc:H01J41/20) OR (ti:tube cpc:H01J2235/205) OR (ti:gettering cpc:H01J41/04) OR (ti:electron cpc:H01J1/304) OR (ti:compact cpc:H01J49/147) STEP2:子クエリを組み合わせて 最終的なクエリを作成 類似特許が所与なので 推論時に良い組合せを探索することが可能

Slide 14

Slide 14 text

コンペ中の取り組み © 2024 Wantedly, Inc. 探索アルゴリズム ● 良いクエリの組合せを探索するアルゴリズムを実験 ○ 貪欲法 ○ 焼きなまし法 ○ 遺伝的アルゴリズム など ● 知識がなかったので期間中に書籍で学習 ○ 右の本はコードや図解が豊富でとてもわかりやす かった https://amzn.asia/d/acp6O9M

Slide 15

Slide 15 text

結果 © 2024 Wantedly, Inc. ・・・

Slide 16

Slide 16 text

まとめ © 2024 Wantedly, Inc. ベースの知識がなくても走りながら学んで戦える 普段参加しないタイプのコンペに出るのも楽しい