Slide 4
Slide 4 text
4/14
Статистический анализ данных, обработка данных, разработка моделей машинного обучения
Пример: многоклассовой классификации постов пользователей в социальной сети
Описание данных:
• Количество постов: 1568 (1797)
• Количество слов: 39628
• Самый длинный пост: 1539
• Самый короткий пост: 2
F1-микро F1-макро Точность
RuBERT (усреднённый эмбеддинг)
Информационные 0.5234 0.5156 0.5947
Эмоциональные 0.5175 0.4912 0.5455
Побудительно-деятельностные 0.6873 0.5721 0.7026
RuBERT (максимальный эмбеддинг)
Информационные 0.4672 0,4390 0,5347
Эмоциональные 0.4569 0.4489 0.5726
Побудительно-деятельностные 0.6053 0.4875 0.6223
LSTM нейронная сеть
Информационные 0.3587 0.3438 0.3587
Эмоциональные 0.3387 0.3452 0.3387
Побудительно-деятельностные 0.3863 0.3401 0.3863
Задача:
- многозначная (multi-label) классификация +
многоклассовая (multi-class) классификация
- многоклассовая классификация
Модели:
- одна двухслойная нейронная сеть LSTM + три
однослойных нейронных сетей LSTM
- предобученный эмбеддинг RuBERT + трехслойная
полносвязная сеть
Реализация: TensorFlow + Python 3 + DeepPavlov
Oliseenko V.D., Eirich M., Tulupyev A.L., Tulupyeva, T.V. BERT and ELMo in Task of Classifying Social Media Users Posts //
International Conference on Intelligent Information Technologies for Industry. – Cham : Springer International Publishing.
2022. vol 566. P. 475–486. Doi: 10.1007/978-3-031-19620-1_45