Slide 1

Slide 1 text

Bayesian Optimization of Text Representations Dani Yogatama, Lingpeng Kong, Noah A.Smith 文献紹介 2019/4/8 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 2100–2105, Lisbon, Portugal, 17-21 September 2015.

Slide 2

Slide 2 text

Abstract ・機械学習の手法において,入力するテキストの表現方法を 逐次的最適化によって自動決定する方法を提案 ・標準的な線形モデルがニューラルネットワークなどの 非線形モデルに迫る性能を発揮 ・特に,トピック分類や感情分析において有効 2

Slide 3

Slide 3 text

1. Introduction ・機械学習の入力にテキストを入れる際,複数のテキスト 表現があり,その比較実験に時間がかかることが多い. 例)stop words を取り除くか,否か? 単語の重みづけは二値か,あるいは TF-IDF か? ・これらの組み合わせの決定は,パフォーマンスに重要 ・ハイパーパラメータの最適化と同様に扱えるのでは? ・sequential model based optimization (SMBO) を適応する. 3

Slide 4

Slide 4 text

2. Problem Formulation and Notation ・訓練データ: = . 1 , , 1 , ⋯ , . 𝑛𝑛 , , 𝑛𝑛 . 𝑛𝑛 : 番目の入力文書 , 𝑛𝑛 :出力空間(分類先) ・開発データを用いて,適当な指標(分類精度,尤度,F値)を 用いてハイパーパラメータを調整する. ・入力のベクトル表現: ・ = () 4

Slide 5

Slide 5 text

3. Bayesian Optimization 5

Slide 6

Slide 6 text

3. Bayesian Optimization 6 Tree-structured Parzen estimator (TPE)

Slide 7

Slide 7 text

3. Bayesian Optimization 7

Slide 8

Slide 8 text

4. Experiments 8 ・本手法をロジスティック 回帰に適用した. ・Hyperparameterの推定の 試行は30回行った. ・ベースラインと同じ訓練/ テストを行い,開発データは 訓練データのうち2割を使う.

Slide 9

Slide 9 text

4. Experiments 9 ・Amazonの家電製品の レビュー ・IMDB の映画のレビュー ・上記の感情の2値分類

Slide 10

Slide 10 text

4. Experiments 10 ・米国議会の議論のデータセット(賛成,反対の投票の予測)

Slide 11

Slide 11 text

4. Experiments 11 ・20のトピック分類(20Newsgroups)

Slide 12

Slide 12 text

4. Experiments 12

Slide 13

Slide 13 text

5. Discussion 13

Slide 14

Slide 14 text

6. Conclusion 14 ・ベイズ最適化によってさまざまな分類問題に対して テキスト表現に関する選択の最適化を行った. ・トピック分類と感情分析において標準的な線形モデル (ロジスティック回帰)が既存の最高精度に迫ることを示した.