文献紹介:Bayesian Optimization of Text Representations

Bayesian Optimization of Text Representations Dani Yogatama, Lingpeng Kong, Noah
A.Smith 文献紹介 2019/4/8 長岡技術科学大学自然言語処理研究室吉澤亜斗武 Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 2100–2105, Lisbon, Portugal, 17-21 September 2015.

Abstract ・機械学習の手法において，入力するテキストの表現方法を逐次的最適化によって自動決定する方法を提案・標準的な線形モデルがニューラルネットワークなどの非線形モデルに迫る性能を発揮・特に，トピック分類や感情分析において有効 2

1. Introduction ・機械学習の入力にテキストを入れる際，複数のテキスト表現があり，その比較実験に時間がかかることが多い．例）stop words を取り除くか，否か？単語の重みづけは二値か，あるいは TF-IDF か？
・これらの組み合わせの決定は，パフォーマンスに重要・ハイパーパラメータの最適化と同様に扱えるのでは？・sequential model based optimization (SMBO) を適応する． 3

2. Problem Formulation and Notation ・訓練データ： = . 1 ,
, 1 , ⋯ , . 𝑛𝑛 , , 𝑛𝑛 . 𝑛𝑛 ：番目の入力文書 , 𝑛𝑛 ：出力空間（分類先）・開発データを用いて，適当な指標（分類精度，尤度，Ｆ値）を用いてハイパーパラメータを調整する．・入力のベクトル表現：・ = () 4

3. Bayesian Optimization 5

3. Bayesian Optimization 6 Tree-structured Parzen estimator (TPE)

3. Bayesian Optimization 7

4. Experiments 8 ・本手法をロジスティック回帰に適用した．・Hyperparameterの推定の試行は30回行った．・ベースラインと同じ訓練/ テストを行い，開発データは訓練データのうち2割を使う．

4. Experiments 9 ・Amazonの家電製品のレビュー・IMDB の映画のレビュー・上記の感情の2値分類

4. Experiments 10 ・米国議会の議論のデータセット（賛成，反対の投票の予測）

4. Experiments 11 ・20のトピック分類（20Newsgroups）

4. Experiments 12

5. Discussion 13

6. Conclusion 14 ・ベイズ最適化によってさまざまな分類問題に対してテキスト表現に関する選択の最適化を行った．・トピック分類と感情分析において標準的な線形モデル（ロジスティック回帰）が既存の最高精度に迫ることを示した．

文献紹介:Bayesian Optimization of Text Representations

文献紹介:Bayesian Optimization of Text Representations

Atom

More Decks by Atom

Other Decks in Technology

Featured

Transcript

Bayesian Optimization of Text Representations Dani Yogatama, Lingpeng Kong, Noah

1. Introduction ・機械学習の入力にテキストを入れる際，複数のテキスト表現があり，その比較実験に時間がかかることが多い．例）stop words を取り除くか，否か？単語の重みづけは二値か，あるいは TF-IDF か？

2. Problem Formulation and Notation ・訓練データ： = . 1 ,

3. Bayesian Optimization 5

3. Bayesian Optimization 6 Tree-structured Parzen estimator (TPE)

3. Bayesian Optimization 7

4. Experiments 8 ・本手法をロジスティック回帰に適用した．・Hyperparameterの推定の試行は30回行った．・ベースラインと同じ訓練/ テストを行い，開発データは訓練データのうち2割を使う．

4. Experiments 9 ・Amazonの家電製品のレビュー・IMDB の映画のレビュー・上記の感情の2値分類

4. Experiments 10 ・米国議会の議論のデータセット（賛成，反対の投票の予測）

4. Experiments 11 ・20のトピック分類（20Newsgroups）

4. Experiments 12

5. Discussion 13