Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для анализа научно-технических текстов

ИСПОЛЬЗОВАНИЕ STATE-OF-THE-ART ЭМБЕДДИНГОВЫХ МОДЕЛЕЙ ДЛЯ АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Павел Бахтин,
заведующий отделом информационно- аналитических систем [email protected] Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ Big Data and AI Conference 2019, Москва, 2019 Илья Кузьминов, директор центра стратегической аналитики и больших данных [email protected]

СОДЕРЖАНИЕ ▪ Решаемая задача ▪ Основные подходы к выявлению направлений
▪ Эволюция векторных моделей ▪ Разработка бенчмарка: исследовательские фронты ▪ Семантическая близость между документами и основная гипотеза ▪ Оценка эффективности векторных моделей ▪ Оптимальная конфигурация BERT ▪ Кейс по выявлению направлений в сфере ИИ, машинного обучения и других тематиках ИКТ ▪ Основные выводы Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 2

РЕШАЕМАЯ ЗАДАЧА Центр стратегической аналитики и больших данных Института статистических
исследований и экономики знаний НИУ ВШЭ 3 Выявление направлений исследований и разработок Тексты аннотаций научно-технических документов

ОСНОВНЫЕ ПОДХОДЫ К ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ Центр стратегической аналитики и больших
данных Института статистических исследований и экономики знаний НИУ ВШЭ 4 1. Тематическое моделирование 2. Кластеризация терминов 3. Кластеризация документов Тема №1 Тема №2 Тема №3 Тема №1 Тема №2 Тема №3 Тема №1 Тема №3 Тема №2 (С) A.S.M. Ashique Mahmood, 2016 (С) iFORA, 2018

ЭВОЛЮЦИЯ ВЕКТОРНЫХ МОДЕЛЕЙ ▪ Bag-of-Words (BOW) ▪ TF-IDF ▪ Тематические
модели: LSI/LSA, LDA, PLSA ▪ Word embeddings: Word2Vec, GloVe ▪ ELMo, BERT, GPT2, ERNIE 2.0, RoBERTA, XLNet Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 5 Основная задача векторных моделей: превратить текст в числа

РАЗРАБОТКА БЕНЧМАРКА: ИССЛЕДОВАТЕЛЬСКИЕ ФРОНТЫ Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ 6 (С) http://diging.github.io/tethne/doc/0.6.1-beta/tutorial.cocitation.html Исследовательские фронты содержат в себе наиболее высокоцитируемые научные публикации, объединенные большим числом совместных цитирований на эти работы, что гарантирует их тематическую связанность (источник: Web of Science)

СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ДОКУМЕНТАМИ И ОСНОВНАЯ ГИПОТЕЗА Центр стратегической аналитики
и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 7 Косинусная мера [cosine similarity] векторов: , = ∙ = σ σ 2 σ 2 Гипотеза: научные публикации, находящиеся в одном исследовательском фронте, должны иметь высокую семантическую близость.

ОЦЕНКА ЭФФЕКТИВНОСТИ ВЕКТОРНЫХ МОДЕЛЕЙ: КЛАССИФИКАЦИЯ ИССЛЕДОВАТЕЛЬСКИХ ФРОНТОВ Центр стратегической аналитики
и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 8 Число научных публикаций: 10 219 Число исследовательских фронтов: 348 Обучающая выборка: 30% Классификация: KNN + cosine similarity Векторная модель Precision Recall F1-score TF-IDF (по словам) 0,8703 0,8707 0,8705 TF-IDF (по фразам) 0,7488 0,7385 0,7436 LDA 0,1389 0,1519 0,1451 Word2Vec 0,6592 0,6419 0,6504 GloVe 0,7256 0,7190 0,7223 GPT2 0,7889 0,7744 0,7816 SciBERT 0,7509 0,7470 0,7490 SciBERT (STS-B fine- tuned) 0,8751 0,8735 0,8743

Центр стратегической аналитики и больших данных Института статистических исследований и
экономики знаний НИУ ВШЭ 9 ОПТИМАЛЬНАЯ КОНФИГУРАЦИЯ BERT ▪ Pretrained модель: SciBERT (https://github.com/allenai/scibert) ▪ Fine-tuning: STS-B benchmark (https://gluebenchmark.com/leaderboard) ▪ Pooling strategy: CLS-token ▪ Pooling layer: 12 ▪ Среда для обучения: Pytorch-Transformers (https://github.com/huggingface/pytorch- transformers) ▪ Сервис для быстрой работы BERT: bert-as-a-service (https://github.com/hanxiao/bert- as-service)

КЕЙС ПО ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ В СФЕРЕ ИИ, МАШИННОГО ОБУЧЕНИЯ И
ДРУГИХ ТЕМАТИКАХ ИКТ 10 Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ Наименование кластера (по ТОП специфическим терминам) 2015 2016 2017 2018 2019 Число документов convolutional neural network(0.2382578698766614); convolutional neural networks(0.20641927969303378); deep learning(0.1863437906860927); person re-identification(0.18302854992528564); semi-supervised learning(0.18254690938578655); action recognition(0.16507233176379876); transfer learning(0.16174938611817063); image classification(0.15812010788737027); cnn(0.12918239562457925); object detection(0.11505695131802528) 570 781 928 1222 281 3782 visual tracking(0.25544109275748517); saliency detection(0.21739942531737524); pedestrian detection(0.20967717942012776); object detection(0.17375494494122193); object tracking(0.1722160224146216); image segmentation(0.1519574933429478); convolutional neural network(0.13925573735281457); image fusion(0.13006232082634867); salient object detection(0.10985190117604463); image quality assessment(0.10869971265868762) 428 486 467 527 135 2043 adaptive control(0.4005376688257237); sliding mode control(0.22497667590714038); backstepping(0.18606494880939353); dynamic surface control(0.1757590645116719); input saturation(0.16320484561798104); robust control(0.16233244391535295); optimal control(0.15781413738602784); time-varying delay(0.15405377482068067); adaptive dynamic programming(0.1271607298605576); lyapunov stability(0.1232293887076379) 403 438 373 478 138 1830 feature selection(0.17616205017818812); classification(0.13744864953669678); support vector machine(0.13074566742110366); artificial neural network(0.10859510324367985); ensemble learning(0.08965007115476323); forecasting(0.08768328687742138); decision tree(0.08666723015326627); ecg(0.08422448215447109); particle swarm optimization(0.08394469165412642); support vector regression(0.08208362851396928) 378 404 325 345 109 1561 artificial neural network(0.26640022396285723); thermal conductivity(0.15187114642961713); nanofluid(0.14556814872312956); ann(0.13047689308022614); response surface methodology(0.11469195825537135); viscosity(0.1119151630581633); artificial neural networks(0.11006747699939264); compressive strength(0.10486341062997372); surface roughness(0.1044695491827571); landslide(0.09129707212824408) 311 357 283 362 142 1455 semi-supervised learning(0.14873141470091766); face recognition(0.12873052826429376); convolutional neural network(0.09503905381840907); sparse representation(0.08858611731634398); computer vision(0.08801070778939991); feature selection(0.08749748729050419); change detection(0.08559464926705734); object detection(0.08085375429537046); deep learning(0.07788029650363987); convolutional neural networks(0.07310935430987714) 286 320 273 390 101 1370 data mining(0.16209839230480524); utility mining(0.15078164614607953); frequent itemsets(0.148577607028124); clustering(0.14136940201321702); frequent itemset mining(0.12933890636345985); association rules(0.11580757693390414); pattern mining(0.11234323321604728); association rule mining(0.10864930805279728); feature selection(0.10563069501821809); frequent itemset(0.10487358973152179) 279 284 237 256 57 1113 dictionary learning(0.12912995504909977); manifold learning(0.12694498153466002); dimensionality reduction(0.12449010737011358); outlier detection(0.1047189036986368); sparse representation(0.10413736286045241); semi-supervised learning(0.09648970803476602); missing data(0.09256654476484659); sparse coding(0.0880889564599493); kernel methods(0.08745303707443992); subspace learning(0.08598538023030776) 210 255 226 292 66 1049 sentiment analysis(0.5745189062440978); opinion mining(0.2888520423987228); sentiment classification(0.258386526206608); natural language processing(0.18033949962883306); twitter(0.15883015634691147); text classification(0.15672995910144125); word embedding(0.1470841688287975); text mining(0.12470106816302191); word embeddings(0.10665746310870555); question answering(0.10488418148042497) 204 239 250 236 60 989 fault diagnosis(0.40312790468609067); fault detection(0.2603694157052144); fault location(0.20945698912306399); fault classification(0.17234992442751149); condition monitoring(0.14385641849488914); induction motor(0.13894331528095719); lithium-ion battery(0.13695264673431104); state of charge(0.12077001165517344); artificial neural network(0.08618294997499); rolling bearing(0.08101530525770491) 175 202 197 238 57 869 eeg(0.346866473735281); epilepsy(0.292889398072077); alzheimer's disease(0.18769704318631555); electroencephalogram(0.16709085069020355); bci(0.14671024284756481); brain-computer interface(0.1438195371265576); electroencephalography (eeg)(0.1416639544524739); functional connectivity(0.13699415894369538); fmri(0.1343273829350365); electroencephalography(0.1242431466894973) 175 200 180 253 54 862 smart grid(0.25680151642092336); demand response(0.2546864815857823); wind speed forecasting(0.20577481195004205); load forecasting(0.1812713348765106); wind power(0.16428556191178773); energy management(0.1414841726942642); microgrid(0.1371388747000366); wind power forecasting(0.12247006714426686); short-term load forecasting(0.1206945919403158); wind speed(0.12023307767556948) 146 159 156 208 69 738 speech enhancement(0.4237767833622911); speech recognition(0.2754430179350474); speech synthesis(0.2618857808741172); automatic speech recognition(0.17374952296128454); deep neural network(0.15426677819289913); speech separation(0.1529091486358782); mfcc(0.14305571980354356); voice conversion(0.13233868905885798); deep neural networks(0.1214689498879188); speech intelligibility(0.10657887359994299) 126 179 198 192 27 722

ОСНОВНЫЕ ВЫВОДЫ 11 Центр стратегической аналитики и больших данных Института
статистических исследований и экономики знаний НИУ ВШЭ ▪ Эмбеддинговые модели достигли уровня, приемлемого для анализа научно-технических документов. Следовательно, ретроспективный анализ-со-цитируемости может быть дополнен / заменен real-time анализом семантической близости между документами. ▪ Для решения задачи подходят как простые методы (TF-IDF), так и state-of-the-art (BERT), однако BERT позволяет уменьшить сложность вычислений за счет снижения размерности представления текстов ▪ Разработанный бенчмарк поможет оценивать новые эмбеддинговые модели, а также выбрать их оптимальную конфигурацию

СПАСИБО ЗА ВНИМАНИЕ [email protected] Павел Бахтин, заведующий отделом информационно- аналитических
систем Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ Big Data and AI Conference 2019, Москва, 2019 Илья Кузьминов, директор центра стратегической аналитики и больших данных

Павел Бахтин. ВШЭ. Использование state-of-the-a...

Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для анализа научно-технических текстов

GIL

More Decks by GIL

Other Decks in Technology

Featured

Transcript

ИСПОЛЬЗОВАНИЕ STATE-OF-THE-ART ЭМБЕДДИНГОВЫХ МОДЕЛЕЙ ДЛЯ АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Павел Бахтин,

СОДЕРЖАНИЕ ▪ Решаемая задача ▪ Основные подходы к выявлению направлений

РЕШАЕМАЯ ЗАДАЧА Центр стратегической аналитики и больших данных Института статистических

ОСНОВНЫЕ ПОДХОДЫ К ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ Центр стратегической аналитики и больших

ЭВОЛЮЦИЯ ВЕКТОРНЫХ МОДЕЛЕЙ ▪ Bag-of-Words (BOW) ▪ TF-IDF ▪ Тематические

РАЗРАБОТКА БЕНЧМАРКА: ИССЛЕДОВАТЕЛЬСКИЕ ФРОНТЫ Центр стратегической аналитики и больших данных

СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ДОКУМЕНТАМИ И ОСНОВНАЯ ГИПОТЕЗА Центр стратегической аналитики

ОЦЕНКА ЭФФЕКТИВНОСТИ ВЕКТОРНЫХ МОДЕЛЕЙ: КЛАССИФИКАЦИЯ ИССЛЕДОВАТЕЛЬСКИХ ФРОНТОВ Центр стратегической аналитики

Центр стратегической аналитики и больших данных Института статистических исследований и

КЕЙС ПО ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ В СФЕРЕ ИИ, МАШИННОГО ОБУЧЕНИЯ И

ОСНОВНЫЕ ВЫВОДЫ 11 Центр стратегической аналитики и больших данных Института

СПАСИБО ЗА ВНИМАНИЕ [email protected] Павел Бахтин, заведующий отделом информационно- аналитических