ニュース配信における固有表現抽出の取り組み / Extraction of Unique Expressions in News Distribution

Slide 1

Slide 1 text

ニュース配信における固有表現抽出の取り組み第48回 Machine Learning 15minutes!

Slide 2

Slide 2 text

Data Strategy and Operation Center Contents 名刺とニュースルールベースによる固有表現抽出深層学習による固有表現抽出実務で使うための後処理

Slide 3

Slide 3 text

名刺とニュース

Slide 4

Slide 4 text

Data Strategy and Operation Center 名刺とニュース名刺取り込みに関連するニュースを提供⽇々取り込まれる名刺⽇々発信されるニュース⽇々Sansanをご利⽤いただいているユーザさま

Slide 5

Slide 5 text

Data Strategy and Operation Center 企業の動向をニュースでお知らせ

Slide 6

Slide 6 text

Data Strategy and Operation Center 企業の動向をニュースでお知らせ記事本⽂から固有表現抽出器により取得した企業名をキーとして利⽤し配信を実現

Slide 7

Slide 7 text

Data Strategy and Operation Center 固有表現抽出⾃然⾔語で記述されたテキスト中に含まれている組織名や⼈名、⽇付け表現など、定義に従ったチャンクのこと Sansan株式会社の⾼橋寛治が 2019年10⽉23⽇に本発表を⾏います。組織名⼈名⽇付固有表現抽出とは、これら固有表現をテキスト中から抽出すること

Slide 8

Slide 8 text

Data Strategy and Operation Center ハイブリッド⽅式による固有表現抽出ルールベースと深層学習による⽅式の組み合わせ各⽅式のざっくりとした特徴 • ルールベース • 確実に企業名と思われる⽂字列を抽出 • 深層学習 • ⽂脈から企業名らしいものを抽出

Slide 9

Slide 9 text

Data Strategy and Operation Center ルールベースの企業名抽出器 ※闇雲に企業名を追加しても、うまくいかない：髙橋寛治, 奥⽥裕樹. 辞書に基づく組織名抽出における辞書整備の影響. ⾔語処理学会第26回年次⼤会発表論⽂集, pp.1245-1248 確実に企業名と思われる⽂字列を抽出するために、辞書作りを⼯夫⽅法 1. 名刺交換枚全組織名をリストに持つ 2. 数が⼀定以上の組織の正式組織名を辞書に追加 • スコアは⽂字数に応じて変更 3. 再現率をあげるために、組織名から法⼈格を削除し、次の条件に合致するものを辞書に追加 • 3⽂字以上 • 数字だけで構成されない • 形態素解析辞書の⼀般名詞と同じ⽂字列ではない

Slide 10

Slide 10 text

Data Strategy and Operation Center 辞書に基づく組織名抽出における辞書整備の影響⾼橋寛治, 奥⽥裕樹 (Sansan株式会社 DSOC)

Slide 11

Slide 11 text

Data Strategy and Operation Center 深層学習による固有表現抽出⽅針としては、BERT の事前学習モデルを fine tuning する具体的には、⼊⼒されたトークン列に対して、それぞれにクラス分類を⾏う以前は Bidirectional LSTM-CNNs-CRF(Ma et al. 2016) を利⽤ IOB2(Inside-outside-beggining) という表現を利⽤ • B：固有表現の先頭 • I ：2トークン以上で構成される固有表現の先頭以外の単語 • O：固有表現以外のトークン B, I に固有表現の種類（組織、⼈名など）を組み合わせて、ひとつのクラスを表現⼊⼒名刺管理サービスの Sansan 株式会社が出⼒ O O O O B I O

Slide 12

Slide 12 text

Data Strategy and Operation Center データの作成 1. 固有表現の種類を定義 • 例：会社名、⼈名、⽇付 2. アノテーションマニュアルの作成 • 種類⼀覧や例を載せる 3. アノテーション • 最初は⼗数件⾏い、不明瞭な点を洗い出し、明確にしておく • ある程度割り切りは必要 • まずは1,000⽂くらいアノテーションして、試しに学習 4. データ整形・分割 • Train, Dev, Test に分けるときには、⽂単位でランダムよりかは⽂書単位でランダムがいいと思う

Slide 13

Slide 13 text

Data Strategy and Operation Center アノテーション例表層形 IOB2 種類 BOS Sansan B 企業名株式 I 企業名会社 I 企業名は O 、 O サンサン B ⼈名太郎 I ⼈名が O 、 O ･･･

Slide 14

Slide 14 text

Data Strategy and Operation Center 学習や推論時の環境 • 学習 • 何かしらの GPU マシンが快適 • CPU 8コアだと、3 epoch で 10 時間くらい • 推論 • 量と応答速度要件によるが、ニュース配信なら CPU でもなんとかなるコード例は、ブログに書いていますので、Sansan Builders Blog で BERT と検索してみてください

Slide 15

Slide 15 text

Data Strategy and Operation Center サービス提供⽔準にするために抽出結果から除外するリストをメンテナンスしやすいようにしておく • メンテナンスの例 • 「コロナ」や「COVID-19」が誤判定されやすかった → 株式会社コロナさまが誤配信されてしまう • どう気づくかは難しいが、抽出結果を⽬で⾒るようにする • 学習データをいつ作り直す・追加するかのタイミングの⾒極めは、まだよくわからない（ルール追加が要望から対応までのスピードが早い）

Slide 16

Slide 16 text

Data Strategy and Operation Center まとめニュース配信における固有表現抽出の取り組みについて紹介 • 名刺とニュース • ルールベースによる固有表現抽出 • 深層学習による固有表現抽出 • 実務で使うための後処理

Slide 17

Slide 17 text

No content