論文読み会 / HIGITCLASS: Keyword-Driven Hierarchical Classification of GitHub Repositories

論文紹介 2020/02/17 須賀聖 @IEEE ICDM 2019論文読み会

HIGITCLASS: Keyword-Driven Hierarchical Classification of GitHub Repositories Yu Zhang, Frank
F. Xu, Sha Li, Yu Meng, Xuan Wang, Qi Li, Jiawei Han 2

背景 3 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 背景：GitHubでトピック検索がしたい！
トピックラベル機能が追加！トピック検索もできるように！

目的 4 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 問題点：タグの付いていないリポジトリが多い
目的：自動タグ付けを行いたい！ unity gym reinforcement-learning Artificial-life

教師データ GitHubの既存トピックタグ→人によって粒度が異なり不完全 6 ©Miotsukushi Analytics Inc. 2020, All rights reserved.
教師データとなるトピックタグを用意するのは大変教師データ・階層的なトピックラベル情報・葉ノードが持つキーワードを1つだけ

タスクの大まかな流れ 7 ©Miotsukushi Analytics Inc. 2020, All rights reserved. HIGITCLASS
GitHubリポジトリ階層ラベルとキーワード各クラスの確率分布を予測 Image Generation Image Classification CV

チャレンジング性リポジトリデータがマルチモーダル信号である – 異なる性質を持つデータを入力値として扱いたい！ (User，Name，Description，Tag，README…) 教師データ不足とバイアス – 葉ノードのキーワードは1つのみ教師データのフォーマットが合わない 8
©Miotsukushi Analytics Inc. 2020, All rights reserved. CV Image-Generation

9 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 異種情報を扱えるようネットワーク構造に変換
→エンベディング教師データ不足とバイアスを解決するために，キーワードを拡張する教師データ形式の不一致を解決するために，擬似文書生成を行う HIGITCLASS

異種情報ネットワーク変換入力データを異種情報ネットワーク(Heterogenous Information Network(HIN))構造に変換する 10 ©Miotsukushi Analytics Inc. 2020, All
rights reserved. HINスキーマ・User：リポジトリのユーザ名・Name：リポジトリ名，但し一つのリポジトリ名が複数の属性を有している場合はセグメント化する(DCGAN- Pytorch→DCGAN，Pytorch) ・Tags：トピックタグ(存在しない場合が多い) ・Doc：DescriptionとREADMEを連結させたテキスト・Label：教師データのノード・Word：ドキュメント，タグ，セグメント化されたリポジトリ，キーワード，の中に存在する単語

HINのエッジ 12 ©Miotsukushi Analytics Inc. 2020, All rights reserved. HINスキーマ
Word-Docエッジ：単語が文書に出現する回数 (例： , ) Word-Userエッジ：ユーザーが文書に単語を含むリポジトリの所有者である場合ユーザーの各リポジトリ内の単語の用語頻度の合計

Word-Tagsエッジ：タグレベルの単語の共起．単語タグ間の重み＝ Word-Nameエッジ：リポジトリ名はセグメント化する．単語とリポジトリ名の間のエッジの重みも用語頻度によって定義されるタグを有する文書における単語の用語頻度の合計

Word-Labelエッジ：カテゴリレベルの単語の共起を表す．また，ユーザ指定のキーワードのみがLabelノードとその親にリンクされる例： =“dcgan” ={“Image-Generation”, Computer-Vision}

Network Embedding ネットワーク構造を機械学習の特徴量として扱えるよう，分散表現を獲得する． 15 ©Miotsukushi Analytics Inc. 2020, All
rights reserved. ネットワーク表現→分散表現

ESIM ランダムウォークベースのネットワークの表現学習法 16 ©Miotsukushi Analytics Inc. 2020, All rights reserved.
それぞれの頂点からランダムに出発し，得られた頂点の組み合わせをNLPでいう文章のように扱う 1 2 (1 , 2 , … −1 ) ある頂点から出発して得られた頂点 1 , 2 , … , −1 という条件のもと次の頂点を観測する確率について考える ESIMはメタパス(通行可能な道の種類)を導入することで，ランダムウォークを制限する

ESIM HIGITCLASSのメタパス – word-doc-word – word-user-word – word-tags-word – word-name-word
– word-label-word 17 ©Miotsukushi Analytics Inc. 2020, All rights reserved.

ESIMによる分散表現の獲得 18 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 先ほど定義したメタパスℳとその対応するノードシーケンス
= 1 − 2 − ⋯ − が与えられた場合 1次マルコフ連鎖の確率バイアス埋込ベクトル(分散表現) ℳ , ℳ , ℳ , , について尤度を最大化することで学習，分散表現を獲得する Skip-Gram Modelに類似

キーワード強化ユーザーはキーワードを1つしか与えないこのキーワードセットを増やしたい 20 ©Miotsukushi Analytics Inc. 2020, All rights
reserved. 前ステップにおいて，単語の埋め込みベクトルを獲得 – これを用いて以下の手順で，キーワードセットの強化を行っていく

キーワード強化 21 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 1.
全ての埋め込みベクトルが単位球に存在するように正規化 2. カテゴリに属するキーワードを0 にセットする 3. 2つの埋め込みベクトル1 2 の内積を利用し，0 と最も近い埋め込みベクトルを持つ単語をキーワードセットに追加する 4. 各カテゴリについて，1~3を繰り返し行う 5. カテゴリ間，追加する単語に被りが生じた場合，キーワード強化を終了する densenet resnet cifar10 dcgan celeba wgan 強化プロセス続行 densenet resnet dcgan celeba wgan cifar10 単語が被る一つ前の状態に戻して終了する

擬似文書生成クラスラベルのついたドキュメントデータ 24 ©Miotsukushi Analytics Inc. 2020, All rights
reserved. 理想現実 Image-Generation 擬似文書を生成することで学習できるようにする階層的なトピックラベル情報葉ノードが持つキーワード

Speech Image Gen. Image Class. 球面トピックモデリング 25 ©Miotsukushi Analytics Inc.
2020, All rights reserved. densenet dcgan 混合vMF分布を用いて，球面上に存在するデータをトピック分類する球面上のデータの「向き」(=方向)に確率をのせた分布混合vMF分布このとき ()は正規化定数，およびはパラメータ従って，カテゴリからキーワードが生成される確率はこのとき ()は正規化定数， , およびはパラメータ

擬似文書生成 26 ©Miotsukushi Analytics Inc. 2020, All rights reserved. Speech
Image Gen. Image Class. 球面トピックモデルに基づき文書を生成する 1. ・からドキュメントベクトル ෨ をサンプリング 2. 埋め込み空間の ሚ と類似したトップ(本モデルでは=50)の単語で構成されたローカル語彙෨ を作成 3. 確率でバックグラウンド分布から，確率1 − でドキュメント固有分布(ローカル語彙)から多数の単語を繰り返し生成するクラスの擬似文書 ሚ を以下の手順で生成する ෨

擬似文書生成 27 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 確率でバックグラウンド分布から，確率1
− でドキュメント固有分布 (ローカル語彙)から多数の単語を繰り返し生成する ෨ コーパス全体の単語分布ドキュメント固有の単語と ෨ の共起確率

擬似文書生成 28 ©Miotsukushi Analytics Inc. 2020, All rights reserved. word
word word word Image Gen.

クラス分類器学習 30 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 分類タスクにCNNを使用
1. ESIMによって獲得された埋め込みベクトルを用いてCNNを事前学習させる 2. 生成した擬似文書を用いて， CNNを学習させる出力は分布であるため，出力ラベル分布と擬似ラベル分布間のKL ダイバージェンスを損失として計算

実験 MACHINE-LEARNINGとBIOINFORMATICSの２つのドメインに関するリポジトリのデータセットを用いて精度評価を行う 31 ©Miotsukushi Analytics Inc. 2020, All rights
reserved.

評価指標レベル別でF１スコアを使用する 34 ©Miotsukushi Analytics Inc. 2020, All rights reserved.
カテゴリを，1 (2 )を全てのLevel1(Level2)カテゴリのセットと定義する Micro-F1= Macro-F1= LEVEL-２のMicro-F1/Macro-F1の式は1 のところを2 に変更全体のMicro-F1/Macro-F1の式は1 のところを1 ∪ 2 に変更 (LEVEL-１カテゴリセットの場合)

ベースライン次の階層分類アルゴリズムと比較する – HierSVM：ラベル分類法に従ってトレーニングタスクを分解する．各ローカル SVMは，同じ親ノードを共有する兄弟カテゴリを区別するようトレーニングされる． – HierDataless：Wikipediaの記事の明示的セマンティック分析を使用して，セマンティック空間にクラスラベルとドキュメントの両方を埋め込み，セマンティック空間内の各ドキュメントに最も近いラベルを割り当てる． –
WeSTClass：まず擬似ドキュメントを生成し，次に合成されたトレーニングデータに基づいてCNNをトレーニングする． – WeSHClass：言語モデルを活用して事前トレーニング用の合成データを生成し，ラベル付きドキュメントのグローバル階層モデルを繰り返し改良する． – PCNB：ラベル階層でパス生成の確率的フレームワークを利用し，ナイーブベイズ分類器をトレーニングする． – PCEM：ラベルが付いていないデータを使用して，パスコストに敏感な分類器を改善し，半教師あり学習にEM手法を適用する． 35 ©Miotsukushi Analytics Inc. 2020, All rights reserved.

各モジュールの効果検証各モジュールの効果を確認するため，以下のものと比較した – w/o HIN：HIN埋め込みモジュールをスキップし，word2vecに依存して単語埋め込みを生成する – w/o Enrich：キーワード強化モジュールをスキップしたもの
– w/o Hier：すべてのリポジトリを葉ノードに直接分類する．上位階層は葉ノードが属するものとする． 37 ©Miotsukushi Analytics Inc. 2020, All rights reserved.

HIN構築と埋め込みの効果 HIN構築と埋め込みの効果の詳細を調査する HIGITCLASSでは以下のメタパスが与えられていた – word-doc-word – word-user-word – word-tags-word –
word-name-word – word-label-word どのメタパスが効果的かを調査するため，各メタパス一つだけを除いたバージョンで比較を行う． 39 ©Miotsukushi Analytics Inc. 2020, All rights reserved. HIN埋め込み手法として他の埋め込み手法と比較することESIM の妥当性を調査する – metapath2vec – HIN2vec

擬似文書生成の効果 44 ©Miotsukushi Analytics Inc. 2020, All rights reserved. 10,50,100では文書数が少なすぎて適切な分類器を学習する
には不十分である．一方で，1000より多いと，パフォーマンスの向上が保証されず，学習時間が不必要に長くなるというデメリットのみが残る．クラスごとに500～1000の擬似文書を生成することでバランスがとれる

まとめ GitHubリポジトリのタグ付けタスクを通して様々な課題に取り組んだ 45 ©Miotsukushi Analytics Inc. 2020, All rights
reserved. 課題マルチモーダル情報の扱い教師データ不足異なる教師データフォーマットアプローチ HINネットワークの活用と埋め込みキーワード強化モジュール擬似ドキュメント生成各アプローチを行うことで，既存手法より優れたパフォーマンスを示すことが出来た

論文読み会 / HIGITCLASS: Keyword-Driven Hierarchical...

論文読み会 / HIGITCLASS: Keyword-Driven Hierarchical Classification of GitHub Repositories

Other Decks in Research

Featured

Transcript