Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_Distinguishing Japanese Non-standard Usages from Standard Ones

論文紹介_Distinguishing Japanese Non-standard Usages from Standard Ones

Lexuss-D

July 08, 2021
Tweet

More Decks by Lexuss-D

Other Decks in Research

Transcript

  1. Data  • 評価データの作成 ◦ 一般的でない用法が存在する単語を対象として、文中で対象単語が一般的な用法かそうでないか をアノテートしたデータセットを作成 ◦ 対象単語選定の条件 ▪ コンピュータ、企業・サービス名、ネットスラングのドメインにおいて一般的ではない用法として

    使用される場合があることが分かっている語 ▪ Web上に一般的ではない用法の説明が存在している語 ▪ 均衡コーパスにおける出現頻度が 100以上の語 ◦ コンピュータ分野 10語、企業・サービス名  10語、ネットスラング 20語、合計40語 ◦ 選定した単語が含まれるツイートに対して形態素解析し、選定した単語が一般名詞であると解析さ れたツイートを無作為に 100ツイート選択() ▪ ソース:Twitter 2016.1.1 ~2016.1.31に投稿されたツイート ▪ 理由:Twitterにおいて、ある語が一般的な用法として使われる場合とそうでない場合が 混在していると考えたため 8
  2. Data • 選択したツイートにおいて、選定した単語の用法が一般的かどうか、固有表現の一 部かどうかという判断を2人のアノテータが行う ◦ 少なくとも一人のアノテータが対象語の用法を決定できないと判断したツイートを除外( 96ツイート) ▪ 例:(* ́

    茸 ` *)の中の茸のような、顔文字の一部となっている事例 ◦ 少なくとも一人のアノテータが対象語が固有表現と判断したツイートを除外 (772ツイート) ▪ 例:「利尻島(りしりとう)」の中の尻のような事例 ◦ 残り3132ツイートの94.9%が、2人のアノテータに同じラベルを付けられた (2973ツイート) ▪ アノテーションが一致したツイートを最終的なデータセット ▪ アノテーションの割合によってさらに分類 • 7割以上一般的用法としてアノテーションされた単語を一般的ラベル優勢 • 7割以上非一般的用法としてアノテーションされた単語を非一般的ラベル優勢 • それ以外は偏りなし 10
  3. Methodology • Skip-gram ◦ 単語列 {w 1 , w 2

    … w T }を訓練データ ◦ ターゲット語w t  文脈語w k ◦ 入力:ターゲット語  w t  のone-hotベクトル x t   ◦ 出力:位置 j に各単語が出現する確率を持つベクトル y j ◦ 単語 w t の周辺に単語 w k 出現する確率 と表される。 v wt IN はw t  の入力ベクトル、v wt OUT はw k の出力ベクトル v wt IN・v wt OUT はドット積 13 x t   入力単語ベク トル行列vIN 出力単語ベク トル行列 vOUT y c y 2 y 1
  4. Methodology • Skip-gram with Negative Sampling (SGNS)で学習コーパスから単語の共起情報 を学習 ◦ 目的関数

    ◦ w t とw t の近くに出現した単語 w k について、logσ( v wt IN ・v wk OUT)の値が大きくなるように学習 ◦ 単語類似度を測るには vINが使われているが、 vOUTを使うことによって、学習した際の単語の共起情 報も考慮するため、本研究は σ( v wt IN ・v wk OUT) を活用する v wt IN   入力ベクトル σ(x) シグモイド関数 v wk OUT   出力ベクトル w t ターゲット語 w k   正例の文脈語 w n 負例の文脈語 15 logσ( v wt IN ・v wk OUT) + Σ wn∊Wneg logσ( v wt IN ・― v wn OUT )
  5. Methodology • 一般性スコア:着目単語とその周辺単語との類似度の加重平均 ◦ スコアが大きい⇒一般的用法 スコアが小さい⇒非一般的用法 ◦ αは任意の値でもよいが、本研究は着目単語と距離の近い単語に大きい重みを付ける ◦ α wj

    =m + 1 - d wj (m: 窓幅,d: ターゲット語との距離) ▪ αは正の整数 ▪ 距離が遠いほど重みが小さい⇒ Decaying weight w t :ターゲット語 w c :文脈語の集合 α wj :wjの重み σ(x) :シグモイド関数 16
  6. Experiment • 提案手法に3つの特徴: ◦ 単語ベクトルを学習する際に均衡コーパスを使用する点 ◦ スコアを計算する際に vINだけでなくvOUTも使用する点 ◦ スコアの計算にdecaying

    weightを採用する点 • 比較実験で有用性を検証 18 4種類の異なる性 質のコーパスを用 意し、どれが本タ スクにより適して いるを調査 SGNS IN-OUT SGNS IN-IN SVD Decaying weight Uniform weight
  7. Experiment • SGNS IN-OUT • SGNS IN-IN • SVD ◦

    相互情報量を用いて学習した単語ベクトルに対して、特異値分解( SVD)によって次元削減を行った 手法 ◦ 一般性スコアの計算には余弦類似度を用いた 20
  8. Experiment • Decaying weight α wj =m + 1 -

    d wj • Uniform weight α wj = 1 21
  9. Experiment • 実験設定 ◦ 窓幅 m=5 ◦ 次元 300 ◦ コーパス内出現頻度が5回未満の単語を<unk>に置き換え ◦

    negative sampling数 10 • 評価 ◦ テストセットの各事例で計算された一般性スコアを昇順にソート ◦ スコアが閾値より下回った事例を非一般的用法として分類 ◦ AUCで評価 22