61
● 上位入賞者のソースコード
○ データの効率的な前処理・自然言語処理の手法
を用いた特徴量
● 想定される性能の見込み
○ 性能と複雑さのトレードオフを議論
コンテストで得られた知見
Shotaro Ishihara, Norihiko Sawa (2020). Age Prediction of News Subscribers Using
Machine Learning: Case Study of Hosting Worldwide Data Analysis Competition
“Kaggle”. Computation + Journalism Symposium 2020.
74
● 状況に合わせたプッシュ通知
● 難易度に応じた記事推薦
● 見出しとの併記による意思決定支援
● 「釣り見出し」の分析
所要閲覧時間を予測する意義
Shotaro Ishihara, and Yasufumi Nakama (2022). Analysis and Estimation
of News Article Reading Time with Multimodal Machine Learning. In
Proceedings of 2022 IEEE International Conference on Big Data
(Industrial & Government Track). (to appear)
Slide 75
Slide 75 text
75
どうやって所要閲覧時間を予測する?
● text length
● headline / body text
● thumbnail image
● others like genre
● past reading history
reading time
独自モデルをいつ再学習?
Shotaro Ishihara, Hiromu
Takahashi, and Hono Shirai (2022).
Semantic Shift Stability: Efficient
Way to Detect Performance
Degradation of Word Embeddings
and Pre-trained Language Models.
In Proceedings of AACL-IJCNLP
2022.
83
● 入力:2 つの word2vec
● 出力:共通する語彙の
意味変化の度合いの平均
(Semantic Shift Stability)
意味変化の度合い
Semantic Shift Stability
Corpus
2019
Corpus
2020
Word embeddings
Anchor words
Mapping: Rotate in two directions
87