固有表現抽出をドメイン外の弱いラベリングたちから学習する

Named Entity Recognition without Labelled Data: A Weak Supervision Approach
の紹介固有表現抽出をドメイン外の弱いラベリングたちから学習する Pierre Lison, Jeremy Barnes, Aliaksandr Hubin, Samia Touileb. Named Entity Recognition without Labelled Data: A Weak Supervision Approach. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. https://www.aclweb.org/anthology/2020.acl-main.139/ 2020 年 08 月 05 日三原千尋原論文

Well repairs to lift Heidrun oil output - Statoil .
OSLO 1996-08-22 Three plugged water injection wells on the Heidrun oilfield off mid-Norway will be reopened over the next month , … 状況 2 製品名政治的機能をもつ地名地名会社名日付その他数値多様なジャンルの文書を含む公開コーパスで学習した NER モデル Well repairs to lift Heidrun oil output - Statoil . OSLO 1996-08-22 Three plugged water injection wells on the Heidrun oilfield off mid-Norway will be reopened over the next month , … Well repairs to lift Heidrun oil output - Statoil . OSLO 1996-08-22 Three plugged water injection wells on the Heidrun oilfield off mid-Norway will be reopened over the next month , … Well repairs to lift Heidrun oil output - Statoil . OSLO 1996-08-22 Three plugged water injection wells on the Heidrun oilfield off mid-Norway will be reopened over the next month , … 固有表現の凡例：会社名辞書日付、時刻、金額などの数詞に特化したヒューリスティックな抽出ルール各エンティティに対して、色々なラベリング関数の結果を文書レベルで多数決したもの Heidrun (地名) を製品名に誤っている。 Statoil 社を拾えていない。会社名特化型で Statoil 社を拾えるが、それしか拾えない。数字特化型でこの範囲は正しそうだが…。この範囲は正しそうだが…。固有表現抽出 (NER) を学習したいが対象ドメインのラベル付きデータがない。 • 多少でもラベル付きデータがあれば転移学習できるかもしれないが、全くない。対象ドメイン向けではない「弱い」ラベリング関数なら色々用意できる。

固有表現抽出 (NER) を学習したいが対象ドメインのラベル付きデータがない。 • 多少でもラベル付きデータがあれば転移学習できるかもしれないが、全くない。対象ドメイン向けではない「弱い」ラベリング関数なら色々用意できる。 • 他の様々なドメインで学習したNERモデル、辞書 (ウィキペディア、会社名辞書、地名辞書、…)、ヒューリスティックな抽出ルール
(時刻、日付、金額、…)、…。提案手法個々の「弱い」ラベリングは対象ドメインのラベルを隠れ状態とする HMM から生成されたものと考えて隠れている対象ドメインのラベルを推定する。その推定分布を正解ラベルとして改めて適当なモデルを学習する。状況 (再掲) 3 𝑠0 𝑠1 𝑃1,𝑗 𝛼 𝑗 𝑠1 𝜔(𝑠1,𝑠0) 𝑠2 𝑃2,𝑗 𝛼 𝑗 𝑠2 𝜔(𝑠2,𝑠1) 𝑠3 𝑃3,𝑗 𝛼 𝑗 𝑠3 𝜔(𝑠3,𝑠2) 𝑠4 𝑃4,𝑗 𝛼 𝑗 𝑠4 𝜔(𝑠4,𝑠3) 𝑠5 𝑃5,𝑗 𝛼 𝑗 𝑠5 𝜔(𝑠5,𝑠4) Well repairs to lift Heidrun O O O O PRODUCT 真のラベル (みえない) ラベリング関数 j が付けたラベル (みえる) 遷移しやすさのパラメータ (みえない) 真のラベルが s 1 のときラベリング関数 j がどんな結果を出すかのパラメータ (みえない)

𝑖 番目のトークンの真のラベルを 𝑠𝑖 とすると、系列 𝑠𝑖 は以下の確率 𝑝 𝑠𝑖 𝑠𝑖−1 で
遷移し、ラベリング関数 𝑗 が出すラベルの確率分布 𝑃𝑖𝑗 は以下の Dirichlet(𝛼 𝑗 𝑠𝑖) から生成されていると考える。 𝑝 𝑠𝑖 𝑠𝑖−1 = exp(𝜔(𝑠𝑖,𝑠𝑖−1)) 1 + exp(𝜔(𝑠𝑖,𝑠𝑖−1)) 𝑃𝑖𝑗 |𝛼 𝑗 𝑠𝑖 ~ Dirichlet(𝛼 𝑗 𝑠𝑖) この遷移パラメータ 𝜔(𝑠𝑖,𝑠𝑖−1) とディリクレ分布のパラメータ 𝛼 𝑗 𝑠𝑖 を推定し、系列 𝑠𝑖 を推定する。隠れマルコフモデル 4 𝑠0 𝑠1 𝑃1,𝑗 𝛼 𝑗 𝑠1 𝜔(𝑠1,𝑠0) 𝑠2 𝑃2,𝑗 𝛼 𝑗 𝑠2 𝜔(𝑠2,𝑠1) 𝑠3 𝑃3,𝑗 𝛼 𝑗 𝑠3 𝜔(𝑠3,𝑠2) 𝑠4 𝑃4,𝑗 𝛼 𝑗 𝑠4 𝜔(𝑠4,𝑠3) 𝑠5 𝑃5,𝑗 𝛼 𝑗 𝑠5 𝜔(𝑠5,𝑠4) Well repairs to lift Heidrun O O O O PRODUCT 真のラベル (みえない) ラベリング関数 j が付けたラベル (みえる) 遷移しやすさのパラメータ (みえない) 真のラベルが s 1 のときラベリング関数 j がどんな結果を出すかのパラメータ (みえない) 𝑆 × 𝑆 個 𝑆 × 𝐽 個真のラベルにのみ依存し、トークンや位置には依存しない。 𝑠𝑖 ∈ 1, 2, ⋯ , 𝑆 𝑆 ：ラベルの種類数 𝐽 ：ラベリング関数の数「文頭にこの固有表現はこない」とか、「人名は2つ連続しやすい」とか (適当)。

𝑠𝑖 , 𝜔(𝑠𝑖,𝑠𝑖−1), 𝛼 𝑗 𝑠𝑖 の推定には Baum-Welch アルゴリズム (HMMに対するEMアルゴリ
ズム) を用いる。 𝑠𝑖 , 𝜔(𝑠𝑖,𝑠𝑖−1), 𝛼 𝑗 𝑠𝑖 の初期値は以下のようにする (数式はp1522；全体的に大雑把にみえる)。 • 𝑠𝑖 はラベリング関数の中で最も信頼できるもののラベリングを採用する。 • 𝜔(𝑠𝑖,𝑠𝑖−1) も最も信頼できるラベリングの遷移確率になるようにする。 • 𝛼 𝑗 𝑠𝑖 はそのラベリング関数 𝑗 のラベル 𝑘 に対する感度 𝑟𝑗𝑘 と精度 𝜌𝑗𝑘 を大雑把に見積もって決める。 • その関数 𝑗 のラベル 𝑘 に対する感度 𝑟 𝑗𝑘 が大きいほど真のラベルが 𝑘 であるトークンを 𝑘 と判定する確率が高いと考える。 • その関数 𝑗 のラベル 𝑘 に対する感度 𝑟 𝑗𝑘 と精度 𝜌𝑗𝑘 が小さいほど真のラベルが 𝑘 であるトークンを 𝑘 以外に判定する確率が高いと考える。推定された 𝑠𝑖 との交差エントロピーを最小化するように改めて系列モデルを学習する (各 𝑠𝑖 は分布のまま取り扱う)。 • ただ、ニューラルネットということ以外系列モデルについての詳細はないようにみえる。 • 9頁のような素朴な系列モデルを学習していると思われる。 𝑠𝑖 を分布のまま取り扱っているので IOB のようなエンコードをしていないと思う。CRF層も使用していないと思う。隠れマルコフモデルの推定 5

検証データ 6 データラベルの種類説明 CoNLL 2003 (English) • 統合したラベルでとても
性能がよくなる例ではないがオーソライズドなデータとして検証しているのかもしれない。 ORG, PER, LOC, MISC (4ラベル) 1163 の文書に 35089 のエンティティが含まれるデータセット (英語データは1996～1997年の Reuters のニュース記事のはず)。 Reuters & Bloomberg ニュース記事 (クラウドソーシングでアノテーション) PERSON, NORP, ORG, LOC, PRODUCT, DATETIME, PERCENT, MONEY, QUANTITY (9ラベル → 特に不安定だった QUANTITY を除去) [Ding 2014] の論文で用いられた Reuters & Bloomberg の経済ニュース記事から 1054 の文章にクラウドソーシングでアノテーションしたもの (なのでおそらく2006～2013年の記事のはず)。ラベルの種類は Ontonotes データセットに倣った。個々のラベリング関数 → Appendix A。

比較手法 (主なものを抜粋) 7 比較手法説明 Ontonotes-trained NER ※ ラベリング関数中で単体で最良だった。
Ontonotes 5.0 データセット (多様なジャンルのテキストを含む； 5.0 のリリースは 2012年) で遷移ベースNERモデル (次頁) を学習したモデル。ちなみに他のネットワーク構造より遷移ベースNERモデルの方がよかった。 Majority voting (MV) ラベリング関数たちのシンプルな多数決。ただし、各トークンは O (固有表現ではない) とラベリングされることが多いので、「最低 T 個の関数に固有表現であると判定されているトークンについて、固有表現であるラベルのうち最多のラベルを貼る」としている。 mSDA 教師なしドメイン適応手法のベースラインとして採用されている。ソースドメインとターゲットドメイン両方のデータをオートエンコーダにかけて中間表現を学ぶ。その中間表現を単語ベクトルに concat したものをLSTM の入力として、ソースドメインの正解ラベル付きデータでNERラベリングを学習する。 AdaptaBERT [Han and Eisenstein, 2019] 教師なしドメイン適応手法のSOTAとして採用されている。ソースドメインとターゲットドメイン両方のデータで BERT を事前学習し、ソースドメインの正解ラベル付きデータでNERタスクにチューニングする。提案手法では Ontonotes 5.0 データからドメイン適応させたAdaptaBERT の性能を上回ったこと、提案手法は AdaptaBERT より学習・推論も速いことが強調されている。

【参考】Transition-Based NER [Lample 2016] 8 スタックLSTM アクションスタックバッファアウトプット
[ ] [Mark, Watney, visited, Mars] [ ] SHIFT [Mark] [Watney, visited, Mars] [ ] SHIFT [Mark, Watney] [visited, Mars] [ ] REDUCE PER [ ] [visited, Mars] [(Mark, Watney) PER ] OUT [ ] [Mars] [(Mark, Watney) PER , visited] SHIFT [Mars] [ ] [(Mark, Watney) PER , visited] REDUCE LOC [ ] [ ] [(Mark, Watney) PER , visited, (Mars) LOC ] バッファLSTM アウトプットLSTM アクション履歴LSTM concat MLP 次のアクション文章をバッファに積んでスタックに取り出しながら固有表現部分を判定していくモデル。 SHIFT ＝バッファの先頭をスタックの末尾へ移動する。 REDUCE HOGE ＝スタックの中身に固有表現ラベル HOGE を貼ってアウトプットへ移動する。 OUT ＝バッファの先頭をスタック経由せず直接アウトプットの末尾へ移動する。それぞれのステップで以下のように次のアクションを決める。 • 各単語の特徴は文字レベル Bi-LSTM ＋単語レベルの GloVe 埋め込み (学習済みの埋め込みをfine-tuning) を利用する。 • [Lample 2016] ではもう一つ提案されている LSTM + CRF 層モデルの方が性能がよかったがドメイン外データへの適用ではこちらのモデルがよかったらしい。

【参考】LSTM + CRF層モデル [Lample 2016] 9 ニューラルネットによる系列ラベリング (固有表現抽出、品詞タグ付け) では、単に各ステップの予測確率最大のラベルを拾ったのでは系列として整合性が取れない場合があるので、各
遷移に対するスコアも学ぶ (CRF層)。例えば下図のようなネットワークがあったとき、 concat Bi-LSTM 𝑃1 𝑤1 固有表現ラベルの予測分布 concat Bi-LSTM 𝑃2 𝑤2 単語として埋め込み文字レベル Bi-LSTM 単語として埋め込み文字レベル Bi-LSTM 単語として埋め込み文字レベル Bi-LSTM concat Bi-LSTM 𝑃2 𝑤3 文章中の単語 ℎ 0 𝑓 ℎ 1 𝑓 ℎ 2 𝑓 ℎ 3 𝑓 ℎ1 𝑏 ℎ2 𝑏 ℎ3 𝑏 ℎ4 𝑏 𝑠 𝑦 = ෍ 𝑖=1 𝑛+1 𝐴𝑦𝑖−1,𝑦𝑖 + ෍ 𝑖=1 𝑛 𝑃𝑖,𝑦𝑖 ある系列 𝑦 = (𝑦1 , 𝑦2 , ⋯ , 𝑦𝑛 ) に対するスコアを以下とする。真の系列に割り当てるスコアが大きくなるように 𝐴 も含めてネットワークを学習する。ここまでは素朴 (？) な系列ラベリングモデル

検証結果 10 CoNLL 2003 データセットでは統合したラベル自体のエンティティレベルのF値が最良だった (Table 1) (それを元に学習したモデルのF値は少し減少したが、本文では「統合したラベルで学習しても情報はあまり損なわれなかった」とされている)。
Reuters & Bloomberg データセットでは統合したラベルで学習したモデルのF値が最良だった (トークンレベル、エンティティレベル共に)。

まとめ 11 • 対象ドメイン向けでない弱い固有表現ラベリングを、隠れマルコフモデルを仮定して統合した。統合したラベルにしたがって系列モデルの性能は、Reuters & Bloomberg データにおいて、ドメイン外のデータで学習したモデルで最良であったものや、先行の教師なしドメイン適用手法を上回った。
• 今後の展望は以下がある。 • HMM でラベリング関数間の相関も考慮する。 • ラベリング関数のうちよいサブセットを選ぶ。 • 固有表現抽出以外の系列ラベリングタスクに応用する。所感 • 「個々の弱いラベリングは真のラベリングから確率的に生成されていると考えて、得意分野が異なるラベリングたちを統合する」というのは、AdaptaBERT のような手法よりも断片的な知見を組み込みやすく、実用的なアイデアのように思われる。 • ただし、弱いラベリングたちがいい感じに互いの欠点を補うように揃っている必要があるはずである。手持ちの弱いラベリングたちの揃いっぷりにかなり依存した手法であるようには思われる。 • AdaptaBERT との比較は、提案手法の方がより広い知識を取り込んでいるはずなのでむしろもっとアップリフトがないのかと思った。

参考文献 12 • [Lample 2016] Guillaume Lample, Miguel Ballesteros, Sandeep
Sub-ramanian, Kazuya Kawakami, and Chris Dyer. Neural architectures for named entity recognition. In Proceedings of NAACL-HLT 2016, 2016. • 以下の2つの手法の原論文。前者はNERに限らず系列ラベリング一般に利用できる。 • CRF層 (系列を出力するモデルで出力系列の遷移へのスコア付けも学ぶ) • 遷移ベースNER • [Han and Eisenstein 2019] Xiaochuang Han and Jacob Eisenstein. Unsupervised domain adaptation of contextualized embeddings for sequence labeling. In Proceedings of EMNLP 2019, 2019. • 教師なしドメイン適応の AdaptaBERT の原論文。以下のタスクをやっている。 • PTB 品詞タグ付け → 初期近代英語品詞タグ付け • CoNLL 2003 固有表現抽出 → WNUT (の Twitter データ) 固有表現抽出 • ただし、純粋に固有表現スパンの抽出のみをしている。

固有表現抽出をドメイン外の弱いラベリングたちから学習する

固有表現抽出をドメイン外の弱いラベリングたちから学習する

CookieBox26

More Decks by CookieBox26

Featured

Transcript

Named Entity Recognition without Labelled Data: A Weak Supervision Approach

Well repairs to lift Heidrun oil output - Statoil .

𝑖 番目のトークンの真のラベルを 𝑠𝑖 とすると、系列 𝑠𝑖 は以下の確率 𝑝 𝑠𝑖 𝑠𝑖−1 で

𝑠𝑖 , 𝜔(𝑠𝑖,𝑠𝑖−1), 𝛼 𝑗 𝑠𝑖 の推定には Baum-Welch アルゴリズム (HMMに対するEMアルゴリ

検証データ 6 データラベルの種類説明 CoNLL 2003 (English) • 統合したラベルでとても

比較手法 (主なものを抜粋) 7 比較手法説明 Ontonotes-trained NER ※ ラベリング関数中で単体で最良だった。

【参考】Transition-Based NER [Lample 2016] 8 スタックLSTM アクションスタックバッファアウトプット

【参考】LSTM + CRF層モデル [Lample 2016] 9 ニューラルネットによる系列ラベリング (固有表現抽出、品詞タグ付け) では、単に各ステップの予測確率最大のラベルを拾ったのでは系列として整合性が取れない場合があるので、各

参考文献 12 • [Lample 2016] Guillaume Lample, Miguel Ballesteros, Sandeep