Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Бенчмаркинг коллекций научных журналов

Avatar for SECR 2019 SECR 2019
November 14, 2019

Бенчмаркинг коллекций научных журналов

Федор Краснов
Эксперт, Газпромнефть НТЦ
SECR 2019

Доклад о применении интеллектуального анализа текста для решения задач издательского бизнеса. Поиск постановки задачи, методов анализа, построения моделей, оптимизация свободных параметров и подготовка для создания продукта.

Польза доклада в том, что постановку задачи всегда нужно искать самому, т.к. ждать, что кто-то поставит задачу, подготовит данные – не продуктивно. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям.

Сейчас можно получить работу, умея лишь запустить стандартный метод из открытой библиотеки. Но через 5 лет уже будет не так. Нужно будет понимать формулы за этим методом, уметь придумать и написать нестандартную нормализацию или нестандартную cost function для этого случая и многое другое.

Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели.

Разработанная методика получила название Сравнительного Тематического Анализа (СТА).
СТА позволяет получить не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций, как в количественном виде, так и с помощью средств визуализации, разработанных авторами.

В данном исследовании проведено сравнение существующих подходов к тематическому моделированию применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели.

Аудитория: Applied Data Scientists.

Avatar for SECR 2019

SECR 2019

November 14, 2019
Tweet

More Decks by SECR 2019

Other Decks in Programming

Transcript

  1. Сравнительный анализ архивов научных журналов Ф.В. Краснов (Газпромнефть НТЦ, 50+

    научных статей, MBA, PMP, RHCE, к.т.н.), М.Е. Шварцман (Библиотека имени Ленина, 90+ научных статей, к.т.н.), А.В. Диментов (Национальный Электронно-Информационный Консорциум, elpub.ru) СПб, 2019
  2. Суть Бизнес потребность: Редакции журналов хотят понимать, что нужно изменить,

    чтобы войти в глобальные индексы цитирования (Scopus, WoS). Наш подход: Бенчмаркинг архива журнала с мировыми лидерами с целью выявить отличия и выработать рекомендации по их устранению.
  3. Результат (1) • Онлайн сервис по бенчмаркингу архивов журналов, •

    Полостью автоматизированный процесс, • Комплексная методика на основе анализа текстов и мета- информации о научных статьях. Сравнив архивы журналов, мы можем сказать редакции каких тематик, статей и авторов не хватает, чтобы удовлетворять требованиям Scopus и WoS.
  4. Результат (2) Коэффициент контентной аутентичности Topic 0: hippocampal_subfield, subiculum, subfield,

    hippocampal_region, presubiculum, parasubiculum, hippocampal_tail, Topic 1: amygdala, fmri, ptsd, functional_magnetic_resonance_imaging, activation, emotion_regulation, ventromedial_prefrontal_cortex, Topic 2: adhd, attention_deficit_hyperactivity_disorder, adhd_patient, intra_individual_variability, adolescent, erp, neurophysiological_datum, Topic 3: multiple_sclerosis, flair, lesion, ms, segmentation, image, ms_patient, Topic 4: priori_hypothesis, study_design, publication, subject_characteristic, medline, mr_spectroscopy, magnetization_transfer,
  5. Научная новизна • Мягкая кластеризация с помощью тематической модели •

    Тематическая модель для аннотаций (коротких текстов) • Увеличение отношения сигнал/шум с помощью фокусировки на частях речи (POST, Part-of-speech tagging)
  6. Заключение • Вывод на рынок нового аналитического продукта; • От

    идеи до первой выручки 6 месяцев; • Открытые программные каркасы (frameworks) можно продуктивно комбинировать, а не пытаться «допиливать»; • Междисциплинарные команды экспертов высокоэффективны для инноваций.