Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Бенчмаркинг коллекций научных журналов

SECR 2019
November 14, 2019

Бенчмаркинг коллекций научных журналов

Федор Краснов
Эксперт, Газпромнефть НТЦ
SECR 2019

Доклад о применении интеллектуального анализа текста для решения задач издательского бизнеса. Поиск постановки задачи, методов анализа, построения моделей, оптимизация свободных параметров и подготовка для создания продукта.

Польза доклада в том, что постановку задачи всегда нужно искать самому, т.к. ждать, что кто-то поставит задачу, подготовит данные – не продуктивно. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям.

Сейчас можно получить работу, умея лишь запустить стандартный метод из открытой библиотеки. Но через 5 лет уже будет не так. Нужно будет понимать формулы за этим методом, уметь придумать и написать нестандартную нормализацию или нестандартную cost function для этого случая и многое другое.

Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели.

Разработанная методика получила название Сравнительного Тематического Анализа (СТА).
СТА позволяет получить не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций, как в количественном виде, так и с помощью средств визуализации, разработанных авторами.

В данном исследовании проведено сравнение существующих подходов к тематическому моделированию применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели.

Аудитория: Applied Data Scientists.

SECR 2019

November 14, 2019
Tweet

More Decks by SECR 2019

Other Decks in Programming

Transcript

  1. Сравнительный анализ архивов научных журналов Ф.В. Краснов (Газпромнефть НТЦ, 50+

    научных статей, MBA, PMP, RHCE, к.т.н.), М.Е. Шварцман (Библиотека имени Ленина, 90+ научных статей, к.т.н.), А.В. Диментов (Национальный Электронно-Информационный Консорциум, elpub.ru) СПб, 2019
  2. Суть Бизнес потребность: Редакции журналов хотят понимать, что нужно изменить,

    чтобы войти в глобальные индексы цитирования (Scopus, WoS). Наш подход: Бенчмаркинг архива журнала с мировыми лидерами с целью выявить отличия и выработать рекомендации по их устранению.
  3. Результат (1) • Онлайн сервис по бенчмаркингу архивов журналов, •

    Полостью автоматизированный процесс, • Комплексная методика на основе анализа текстов и мета- информации о научных статьях. Сравнив архивы журналов, мы можем сказать редакции каких тематик, статей и авторов не хватает, чтобы удовлетворять требованиям Scopus и WoS.
  4. Результат (2) Коэффициент контентной аутентичности Topic 0: hippocampal_subfield, subiculum, subfield,

    hippocampal_region, presubiculum, parasubiculum, hippocampal_tail, Topic 1: amygdala, fmri, ptsd, functional_magnetic_resonance_imaging, activation, emotion_regulation, ventromedial_prefrontal_cortex, Topic 2: adhd, attention_deficit_hyperactivity_disorder, adhd_patient, intra_individual_variability, adolescent, erp, neurophysiological_datum, Topic 3: multiple_sclerosis, flair, lesion, ms, segmentation, image, ms_patient, Topic 4: priori_hypothesis, study_design, publication, subject_characteristic, medline, mr_spectroscopy, magnetization_transfer,
  5. Научная новизна • Мягкая кластеризация с помощью тематической модели •

    Тематическая модель для аннотаций (коротких текстов) • Увеличение отношения сигнал/шум с помощью фокусировки на частях речи (POST, Part-of-speech tagging)
  6. Заключение • Вывод на рынок нового аналитического продукта; • От

    идеи до первой выручки 6 месяцев; • Открытые программные каркасы (frameworks) можно продуктивно комбинировать, а не пытаться «допиливать»; • Междисциплинарные команды экспертов высокоэффективны для инноваций.