Upgrade to Pro — share decks privately, control downloads, hide ads and more …

固有表現抽出をドメイン外の弱いラベリングたちから学習する

CookieBox26
August 05, 2020
16

 固有表現抽出をドメイン外の弱いラベリングたちから学習する

CookieBox26

August 05, 2020
Tweet

Transcript

  1. Named Entity Recognition without Labelled
    Data: A Weak Supervision Approach の紹介
    固有表現抽出をドメイン外の弱いラベリングたちから学習する
    Pierre Lison, Jeremy Barnes, Aliaksandr Hubin, Samia Touileb. Named Entity
    Recognition without Labelled Data: A Weak Supervision Approach. In Proceedings
    of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.
    https://www.aclweb.org/anthology/2020.acl-main.139/
    2020 年 08 月 05 日
    三原 千尋
    原論文

    View Slide

  2. Well repairs to lift Heidrun oil output - Statoil . OSLO 1996-08-22
    Three plugged water injection wells on the Heidrun oilfield off
    mid-Norway will be reopened over the next month , …
    状況 2
    製品名
    政治的機能をもつ地名 地名 会社名 日付 その他数値
    多様なジャンルの文書を含む公開
    コーパスで学習した NER モデル
    Well repairs to lift Heidrun oil output - Statoil . OSLO 1996-08-22
    Three plugged water injection wells on the Heidrun oilfield off
    mid-Norway will be reopened over the next month , …
    Well repairs to lift Heidrun oil output - Statoil . OSLO 1996-08-22
    Three plugged water injection wells on the Heidrun oilfield off
    mid-Norway will be reopened over the next month , …
    Well repairs to lift Heidrun oil output - Statoil . OSLO 1996-08-22
    Three plugged water injection wells on the Heidrun oilfield off
    mid-Norway will be reopened over the next month , …
    固有表現の凡例:
    会社名辞書
    日付、時刻、金額などの数詞に特
    化したヒューリスティックな抽出
    ルール
    各エンティティに対して、色々な
    ラベリング関数の結果を文書レベ
    ルで多数決したもの
    Heidrun (地名) を製品名に誤っている。
    Statoil 社を拾えていない。
    会社名特化型で Statoil 社を拾えるが、
    それしか拾えない。
    数字特化型でこの範囲は正しそうだが…。
    この範囲は正しそうだが…。
    固有表現抽出 (NER) を学習したいが対象ドメインのラベル付きデータがない。
    • 多少でもラベル付きデータがあれば転移学習できるかもしれないが、全くない。
    対象ドメイン向けではない「弱い」ラベリング関数なら色々用意できる。

    View Slide

  3. 固有表現抽出 (NER) を学習したいが対象ドメインのラベル付きデータがない。
    • 多少でもラベル付きデータがあれば転移学習できるかもしれないが、全くない。
    対象ドメイン向けではない「弱い」ラベリング関数なら色々用意できる。
    • 他の様々なドメインで学習したNERモデル、辞書 (ウィキペディア、会社名辞書、地名辞
    書、…)、ヒューリスティックな抽出ルール (時刻、日付、金額、…)、…。
    提案手法
    個々の「弱い」ラベリングは対象ドメインのラベルを隠れ状態とする HMM から
    生成されたものと考えて隠れている対象ドメインのラベルを推定する。その推定
    分布を正解ラベルとして改めて適当なモデルを学習する。
    状況 (再掲) 3
    𝑠0
    𝑠1
    𝑃1,𝑗
    𝛼
    𝑗
    𝑠1
    𝜔(𝑠1,𝑠0)
    𝑠2
    𝑃2,𝑗
    𝛼
    𝑗
    𝑠2
    𝜔(𝑠2,𝑠1)
    𝑠3
    𝑃3,𝑗
    𝛼
    𝑗
    𝑠3
    𝜔(𝑠3,𝑠2)
    𝑠4
    𝑃4,𝑗
    𝛼
    𝑗
    𝑠4
    𝜔(𝑠4,𝑠3)
    𝑠5
    𝑃5,𝑗
    𝛼
    𝑗
    𝑠5
    𝜔(𝑠5,𝑠4)
    Well repairs to lift Heidrun
    O O O O PRODUCT
    真のラベル
    (みえない)
    ラベリング関数 j
    が付けたラベル
    (みえる)
    遷移しやすさ
    のパラメータ
    (みえない)
    真のラベルが s
    1

    ときラベリング関数 j
    がどんな結果を出す
    かのパラメータ
    (みえない)

    View Slide

  4. 𝑖 番目のトークンの真のラベルを 𝑠𝑖
    とすると、系列 𝑠𝑖
    は以下の確率 𝑝 𝑠𝑖
    𝑠𝑖−1

    遷移し、ラベリング関数 𝑗 が出すラベルの確率分布 𝑃𝑖𝑗
    は以下の Dirichlet(𝛼
    𝑗
    𝑠𝑖) から
    生成されていると考える。
    𝑝 𝑠𝑖
    𝑠𝑖−1
    =
    exp(𝜔(𝑠𝑖,𝑠𝑖−1))
    1 + exp(𝜔(𝑠𝑖,𝑠𝑖−1))
    𝑃𝑖𝑗
    |𝛼
    𝑗
    𝑠𝑖 ~ Dirichlet(𝛼
    𝑗
    𝑠𝑖)
    この遷移パラメータ 𝜔(𝑠𝑖,𝑠𝑖−1) とディリクレ分布のパラメータ 𝛼
    𝑗
    𝑠𝑖 を推定し、系列
    𝑠𝑖
    を推定する。
    隠れマルコフモデル 4
    𝑠0
    𝑠1
    𝑃1,𝑗
    𝛼
    𝑗
    𝑠1
    𝜔(𝑠1,𝑠0)
    𝑠2
    𝑃2,𝑗
    𝛼
    𝑗
    𝑠2
    𝜔(𝑠2,𝑠1)
    𝑠3
    𝑃3,𝑗
    𝛼
    𝑗
    𝑠3
    𝜔(𝑠3,𝑠2)
    𝑠4
    𝑃4,𝑗
    𝛼
    𝑗
    𝑠4
    𝜔(𝑠4,𝑠3)
    𝑠5
    𝑃5,𝑗
    𝛼
    𝑗
    𝑠5
    𝜔(𝑠5,𝑠4)
    Well repairs to lift Heidrun
    O O O O PRODUCT
    真のラベル
    (みえない)
    ラベリング関数 j
    が付けたラベル
    (みえる)
    遷移しやすさ
    のパラメータ
    (みえない)
    真のラベルが s
    1

    ときラベリング関数 j
    がどんな結果を出す
    かのパラメータ
    (みえない)
    𝑆 × 𝑆 個 𝑆 × 𝐽 個
    真のラベルにのみ依存し、
    トークンや位置には依存しない。
    𝑠𝑖
    ∈ 1, 2, ⋯ , 𝑆
    𝑆 :ラベルの種類数
    𝐽 :ラベリング関数の数
    「文頭にこの固有表現はこない」
    とか、「人名は2つ連続しやすい」
    とか (適当)。

    View Slide

  5. 𝑠𝑖
    , 𝜔(𝑠𝑖,𝑠𝑖−1), 𝛼
    𝑗
    𝑠𝑖 の推定には Baum-Welch アルゴリズム (HMMに対するEMアルゴリ
    ズム) を用いる。
    𝑠𝑖
    , 𝜔(𝑠𝑖,𝑠𝑖−1), 𝛼
    𝑗
    𝑠𝑖 の初期値は以下のようにする (数式はp1522;全体的に大雑把にみえる)。
    • 𝑠𝑖
    はラベリング関数の中で最も信頼できるもののラベリングを採用する。
    • 𝜔(𝑠𝑖,𝑠𝑖−1) も最も信頼できるラベリングの遷移確率になるようにする。
    • 𝛼
    𝑗
    𝑠𝑖 はそのラベリング関数 𝑗 のラベル 𝑘 に対する感度 𝑟𝑗𝑘
    と精度 𝜌𝑗𝑘
    を大雑把に
    見積もって決める。
    • その関数 𝑗 のラベル 𝑘 に対する感度 𝑟
    𝑗𝑘
    が大きいほど真のラベルが 𝑘 であるトークンを 𝑘 と
    判定する確率が高いと考える。
    • その関数 𝑗 のラベル 𝑘 に対する感度 𝑟
    𝑗𝑘
    と精度 𝜌𝑗𝑘
    が小さいほど真のラベルが 𝑘 であるトー
    クンを 𝑘 以外に判定する確率が高いと考える。
    推定された 𝑠𝑖
    との交差エントロピーを最小化するように改めて系列モデルを学
    習する (各 𝑠𝑖
    は分布のまま取り扱う)。
    • ただ、ニューラルネットということ以外系列モデルについての詳細はないようにみえる。
    • 9頁のような素朴な系列モデルを学習していると思われる。 𝑠𝑖
    を分布のまま取り扱っているの
    で IOB のようなエンコードをしていないと思う。CRF層も使用していないと思う。
    隠れマルコフモデルの推定 5

    View Slide

  6. 検証データ 6
    データ ラベルの種類 説明
    CoNLL 2003 (English)
    • 統合したラベルでとても
    性能がよくなる例ではな
    いがオーソライズドな
    データとして検証してい
    るのかもしれない。
    ORG, PER, LOC, MISC
    (4ラベル)
    1163 の文書に 35089 のエンティティ
    が含まれるデータセット (英語データ
    は1996~1997年の Reuters のニュー
    ス記事のはず)。
    Reuters & Bloomberg
    ニュース記事 (クラウドソー
    シングでアノテーション)
    PERSON, NORP, ORG,
    LOC, PRODUCT,
    DATETIME, PERCENT,
    MONEY, QUANTITY
    (9ラベル → 特に不安定
    だった QUANTITY を
    除去)
    [Ding 2014] の論文で用いられた
    Reuters & Bloomberg の経済ニュー
    ス記事から 1054 の文章にクラウド
    ソーシングでアノテーションしたもの
    (なのでおそらく2006~2013年の記事
    のはず)。ラベルの種類は Ontonotes
    データセットに倣った。
    個々のラベリング関数
    → Appendix A。

    View Slide

  7. 比較手法 (主なものを抜粋) 7
    比較手法 説明
    Ontonotes-trained NER
    ※ ラベリング関数中で単
    体で最良だった。
    Ontonotes 5.0 データセット (多様なジャンルのテキストを含む;
    5.0 のリリースは 2012年) で遷移ベースNERモデル (次頁) を学習
    したモデル。ちなみに他のネットワーク構造より遷移ベースNERモ
    デルの方がよかった。
    Majority voting (MV) ラベリング関数たちのシンプルな多数決。ただし、各トークンは O
    (固有表現ではない) とラベリングされることが多いので、「最低 T
    個の関数に固有表現であると判定されているトークンについて、固
    有表現であるラベルのうち最多のラベルを貼る」としている。
    mSDA 教師なしドメイン適応手法のベースラインとして採用されている。
    ソースドメインとターゲットドメイン両方のデータをオートエン
    コーダにかけて中間表現を学ぶ。その中間表現を単語ベクトルに
    concat したものをLSTM の入力として、ソースドメインの正解ラ
    ベル付きデータでNERラベリングを学習する。
    AdaptaBERT [Han and
    Eisenstein, 2019]
    教師なしドメイン適応手法のSOTAとして採用されている。ソース
    ドメインとターゲットドメイン両方のデータで BERT を事前学習し、
    ソースドメインの正解ラベル付きデータでNERタスクにチューニン
    グする。提案手法では Ontonotes 5.0 データからドメイン適応させ
    たAdaptaBERT の性能を上回ったこと、提案手法は AdaptaBERT
    より学習・推論も速いことが強調されている。

    View Slide

  8. 【参考】Transition-Based NER [Lample 2016] 8
    スタックLSTM
    アクション スタック バッファ アウトプット
    [ ] [Mark, Watney, visited, Mars] [ ]
    SHIFT [Mark] [Watney, visited, Mars] [ ]
    SHIFT [Mark, Watney] [visited, Mars] [ ]
    REDUCE
    PER
    [ ] [visited, Mars] [(Mark, Watney)
    PER
    ]
    OUT [ ] [Mars] [(Mark, Watney)
    PER
    , visited]
    SHIFT [Mars] [ ] [(Mark, Watney)
    PER
    , visited]
    REDUCE
    LOC
    [ ] [ ] [(Mark, Watney)
    PER
    , visited, (Mars)
    LOC
    ]
    バッファLSTM
    アウトプットLSTM
    アクション履歴LSTM
    concat
    MLP
    次のアクション
    文章をバッファに積んでスタックに取り出しながら固有表現部分を判定していくモデル。
    SHIFT = バッファの先頭をスタックの末尾へ移動する。
    REDUCE
    HOGE
    =スタックの中身に固有表現ラベル HOGE を貼ってアウトプットへ移動する。
    OUT = バッファの先頭をスタック経由せず直接アウトプットの末尾へ移動する。
    それぞれのステップで以下のように次のアクションを決める。
    • 各単語の特徴は文字レベル Bi-LSTM +
    単語レベルの GloVe 埋め込み (学習済み
    の埋め込みをfine-tuning) を利用する。
    • [Lample 2016] ではもう一つ提案されて
    いる LSTM + CRF 層モデルの方が性能
    がよかったがドメイン外データへの適用
    ではこちらのモデルがよかったらしい。

    View Slide

  9. 【参考】LSTM + CRF層モデル [Lample 2016] 9
    ニューラルネットによる系列ラベリング (固有表現抽出、品詞タグ付け) では、単に各ステッ
    プの予測確率最大のラベルを拾ったのでは系列として整合性が取れない場合があるので、各
    遷移に対するスコアも学ぶ (CRF層)。例えば下図のようなネットワークがあったとき、
    concat
    Bi-LSTM
    𝑃1
    𝑤1
    固有表現ラベル
    の予測分布
    concat
    Bi-LSTM
    𝑃2
    𝑤2
    単語として
    埋め込み
    文字レベル
    Bi-LSTM
    単語として
    埋め込み
    文字レベル
    Bi-LSTM
    単語として
    埋め込み
    文字レベル
    Bi-LSTM
    concat
    Bi-LSTM
    𝑃2
    𝑤3
    文章中の単語

    0
    𝑓 ℎ
    1
    𝑓 ℎ
    2
    𝑓 ℎ
    3
    𝑓
    ℎ1
    𝑏 ℎ2
    𝑏 ℎ3
    𝑏 ℎ4
    𝑏
    𝑠 𝑦 = ෍
    𝑖=1
    𝑛+1
    𝐴𝑦𝑖−1,𝑦𝑖
    + ෍
    𝑖=1
    𝑛
    𝑃𝑖,𝑦𝑖
    ある系列 𝑦 = (𝑦1
    , 𝑦2
    , ⋯ , 𝑦𝑛
    ) に対するスコアを以下とする。真の系列に割り当てるスコアが大
    きくなるように 𝐴 も含めてネットワークを学習する。
    ここまでは
    素朴 (?) な
    系列ラベリング
    モデル

    View Slide

  10. 検証結果 10
    CoNLL 2003 データセットでは統合したラベル自体のエンティティレベルのF値が最良だっ
    た (Table 1) (それを元に学習したモデルのF値は少し減少したが、本文では「統合したラベ
    ルで学習しても情報はあまり損なわれなかった」とされている)。
    Reuters & Bloomberg データセットでは統合したラベルで学習したモデルのF値が最良だっ
    た (トークンレベル、エンティティレベル共に)。

    View Slide

  11. まとめ 11
    • 対象ドメイン向けでない弱い固有表現ラベリングを、隠れマルコフモデルを仮定して統合
    した。統合したラベルにしたがって系列モデルの性能は、Reuters & Bloomberg データ
    において、ドメイン外のデータで学習したモデルで最良であったものや、先行の教師なし
    ドメイン適用手法を上回った。
    • 今後の展望は以下がある。
    • HMM でラベリング関数間の相関も考慮する。
    • ラベリング関数のうちよいサブセットを選ぶ。
    • 固有表現抽出以外の系列ラベリングタスクに応用する。
    所感
    • 「個々の弱いラベリングは真のラベリングから確率的に生成されていると考えて、得意分
    野が異なるラベリングたちを統合する」というのは、AdaptaBERT のような手法よりも
    断片的な知見を組み込みやすく、実用的なアイデアのように思われる。
    • ただし、弱いラベリングたちがいい感じに互いの欠点を補うように揃っている必要がある
    はずである。手持ちの弱いラベリングたちの揃いっぷりにかなり依存した手法であるよう
    には思われる。
    • AdaptaBERT との比較は、提案手法の方がより広い知識を取り込んでいるはずなのでむ
    しろもっとアップリフトがないのかと思った。

    View Slide

  12. 参考文献 12
    • [Lample 2016] Guillaume Lample, Miguel Ballesteros, Sandeep Sub-ramanian, Kazuya
    Kawakami, and Chris Dyer. Neural architectures for named entity recognition. In
    Proceedings of NAACL-HLT 2016, 2016.
    • 以下の2つの手法の原論文。前者はNERに限らず系列ラベリング一般に利用できる。
    • CRF層 (系列を出力するモデルで出力系列の遷移へのスコア付けも学ぶ)
    • 遷移ベースNER
    • [Han and Eisenstein 2019] Xiaochuang Han and Jacob Eisenstein. Unsupervised
    domain adaptation of contextualized embeddings for sequence labeling. In
    Proceedings of EMNLP 2019, 2019.
    • 教師なしドメイン適応の AdaptaBERT の原論文。以下のタスクをやっている。
    • PTB 品詞タグ付け → 初期近代英語 品詞タグ付け
    • CoNLL 2003 固有表現抽出 → WNUT (の Twitter データ) 固有表現抽出
    • ただし、純粋に固有表現スパンの抽出のみをしている。

    View Slide