Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task

ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task

2018/08/21文献紹介の発表内容

Fb31b0b39ecedd2353fa1a6e68200449?s=128

Yuto Kamiwaki

August 20, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification

    Approach for Customer Feedback Analysis task 長岡技術科学大学 自然言語処理研究室 上脇優人 Pintu Lohar, Koel Dutta Chowdhury, Haithem Afli, Mohammed Hasanuzzaman and Andy Way Proceedings of the 8th International Joint Conference on Natural Language Processing, Shared Tasks, 2017, pages 161–169 8月文献紹介
  2. Abstract •より良い製品を作るには,顧客の意見分析が重要. •この論文では,4カ国語のMicrosoft Officeのフ ィードバックを分析. •分類は,コメント・リクエスト・バグ・苦情・それ以 外で分類. •このタスクへのアプローチ手法は,3種類. • 多項式マルチラベルのためのナイーブベイズ(MNB)アプ

    ローチ • MNBとone-vs-rest分類器アプローチ • 組み合わせマルチラベル分類の感情の分類アプローチ 2
  3. Introduction •本研究は,Microsoft research project の一部. •Sentiment classificationでは, automatic sentiment analysis

    toolを 使用. •MNBとone-vs-rest分類器アプローチが一番 有用な方法であった.スコアでは,日本語とフ ランス語の3位と5位である. 3
  4. Customer feedback analysis •フィードバックの分類としては,PNの分類があ る. •しかし,多くのフィードバックは機密文書にな り,かつ,分類法も多くあるが公開されていな い. •国際的な顧客フィードバック分析のためのオー プンなリソースを提供するために,IJCNLP- 2017は,提案された5クラスの意味の分類を注

    釈スキームとして用いてコーパスを作成した. 4
  5. 5

  6. Experiments •英語以外の言語については,英語のフィードバ ックに最適な出力を生成する方法を適用する. •これに加えて,スペイン語・フランス語・日本 語のフィードバックを英語に翻訳して,この方 法を適用する. 6

  7. MNB classification •MNBは,特徴ごとに多項分布を使用するNaive Bayes分類子の特定のインスタンス. •この分類方法では,各ラベルごとに文書の確率を計算 し,確率を最大にするために特徴が多項分布であると 仮定して生成Naive Bayesの原理を考慮することに よって分布を推定する. •このタスクでは,最初にMNB分類法を適用してトレー

    ニングデータセット全体を1ステップでラベル付けし た. •反復処理も実行. 7
  8. MNB with one-vs-rest approach 8

  9. Multilabel classifier with sentimentclassification 9

  10. Multilabel classifier with sentimentclassification 10

  11. Results 11

  12. Results 12

  13. Results 13

  14. Conclusions • 本研究では,多項式naive bayesアルゴリズム,多言語 分類とセンチメント解析技術を組み合わせて,4ヶ国語の 顧客フィードバックのタグを識別する方法を提示した. • 当初は,顧客フィードバックのための3つの異なるアプロ ーチを英語で分類した. •

    次に、最高得点を出したこれらのアプローチの1つを選択 し,それを英語以外の言語に適用した. • これに加えて,フィードバックの翻訳に関してもシステム をテストした. • 本研究のシステムは,すべての言語で競争力のある結果を 生み出し,F1スコアでそれぞれ3位と5位を確保しました。 14
  15. Future work •今後は,結果に影響を与えるために他の言語に も適用する予定. •また,他の効率的な機械学習技術を用いたフレ ームワークの研究を拡張し,センチメントアナ ライザの利点を利用して新しいアルゴリズムを 開発し,予測に効果的に使用できるようにする 予定. 15