Slide 1

Slide 1 text

Прикладные технологии анализа и моделирования социальных сетей: сложные сети Валерий Дмитриевич Олисеенко ассистент кафедры информатики dscs.pro; csd.spbu.ru

Slide 2

Slide 2 text

dscs.pro 2/39 ОБЪЕКТ, ПРЕДМЕТ, ЦЕЛЬ Социальная сеть — социальная структура, состоящая из множества агентов (индивидуальных или коллективных) и определенной на ней множества отношений (совокупности связей между агентами)1. 1) Объект исследования — социальные сети; 2) Предмет исследования —онлайн-платформы (ВКонтакте, Facebook, Instagram); 3) Цель — характеризующая информация о социальных сетях. 1Губанов Д. А., Новиков Д. А., Чхартишвили А. Г. Социальные сети: модели информационного влияния, управления и противоборства.

Slide 3

Slide 3 text

dscs.pro 3/39 СОЦИАЛЬНЫЕ СЕТИ

Slide 4

Slide 4 text

dscs.pro 4/39 ПРОБЛЕМЫ • Качество пользовательского контента (спам, ложная информация, скрытые данные, фейки); • Проблемы с обеспечением приватности личных данных при хранении и обработке; • Частые обновления пользовательской модели и функционала; • Размерность данных.

Slide 5

Slide 5 text

dscs.pro 5/39 РАЗМЕРНОСТЬ ДАННЫХ 1 млрд пользовательских аккаунтов Facebook1; 100 млрд связей между ними; 200 млн фотографий ежедневно; 2 млрд комментариев ежедневно. Наши эксперименты: Изначально — 500 пользователей; Их друзья — 276831 пользователей; Друзья друзей — 125 млн. пользователей2; Рост ~𝑥𝑛, где 𝑥 — число пользователей, 𝑛 — “глубина” друзей. 2Во ВКонтакте зарегистрировано более 460 миллионов пользователей 1Ссылка на статью

Slide 6

Slide 6 text

dscs.pro 6/39 СБОР ДАННЫХ ИЗ СОЦИАЛЬНЫХ СЕТЕЙ • Приватность данных (доступ только для зарегистрированных пользователей, скрытые аккаунты/атрибуты); • Слабая структурированность данных (скудные API интерфейсы, получение данных из HTML обработка AJAX); • Ограничение доступа.

Slide 7

Slide 7 text

dscs.pro 7/39 ЗАДАЧИ • Поиск описаний событий; • Определение тональностей текстов; • Идентификация пользователей различных социальных сетей; • Поиск сообществ пользователей; • Измерение информационного влияния; • Восстановление атрибутов профиля; • Психологический/психический анализ пользователей.

Slide 8

Slide 8 text

dscs.pro 8/39 ИСТОЧНИКИ • Абрамов М.В., Тулупьев А.Л. dscs.pro • Котенко И.В. • Турдаков Д.Ю., Гомзин А.Г. • Коршунов А.В. СПб ФИЦ РАН

Slide 9

Slide 9 text

dscs.pro 9/39 ИСТОРИЧЕСКИЕ ПРЕДПОСЫЛКИ • Социология (30–40е года)1; • Математика (50–60е года); • Компьютерные науки (70е годы); • Статистическая физика; • Экономика (00е годы). 1Barnes J. A. Class and Committees in Norwegian Island Parish // Human Relations. New York: Hafner Press, 1975.

Slide 10

Slide 10 text

dscs.pro 10/39 ТЕРМИНЫ • Сеть — граф; • Узлы — вершины, акторы; • Связи — рёбра, отношения; • Кластеры — сообщества.

Slide 11

Slide 11 text

dscs.pro 11/39 СЛОЖНЫЕ СЕТИ • Сеть = узлы + рёбра; • Не регулярны, но не случайны; • Сложная (нетривиальная) топология; • Безразмерные (масштабно- инвариантные) сети; • Универсальные свойства; • Везде; • Независимые агенты (?).

Slide 12

Slide 12 text

dscs.pro 12/39 ПРИМЕР: ИНТЕРНЕТ

Slide 13

Slide 13 text

dscs.pro 13/39 ПРИМЕР: ПОЛИТИЧЕСКИЕ БЛОГИ

Slide 14

Slide 14 text

dscs.pro 14/39 ПРИМЕР: TWITTER

Slide 15

Slide 15 text

dscs.pro 15/39 ПРИМЕР: ФИНАНСЫ

Slide 16

Slide 16 text

dscs.pro 16/39 ПРИМЕР: ТРАНСПОРТ

Slide 17

Slide 17 text

dscs.pro 17/39 ПРИМЕР: БИОЛОГИЯ

Slide 18

Slide 18 text

dscs.pro 18/39 ПРИМЕР: ОРГАНИЗАЦИЯ

Slide 19

Slide 19 text

dscs.pro 19/39 ПРИМЕР: СТРУКТУРА СООБЩЕСТВ FACEBOOK

Slide 20

Slide 20 text

dscs.pro 20/39 ЗАДАНИЕ: ВИЗУАЛИЗАЦИЯ ВКОНТАКТЕ yasiv.com/vk

Slide 21

Slide 21 text

dscs.pro 21/39 ГРАФЫ И СЕТИ • Граф 𝐺(𝑉; 𝐸), 𝑉 — вершины, 𝑚 = |𝑉|, 𝐸 — рёбра, 𝑛 = |𝐸|; • Направленность, простые (без циклов), взвешенность; • Связный, сильно-связный и слабо-связный граф; • Связный компонент — максимально связный подграф; • Путь — последовательность рёбер, которые соединяют некую последовательность узлов (простой путь, без циклов); • Геодезическое расстояние — кратчайший путь между двумя узлами; • Средний кратчайший путь (цепочка, звезда, полный); • Диаметр графа — наибольшее кратчайшее расстояние (два узла, отстоящие дальше всех друг от друга); • Степень узла 𝑘 𝑖 — количество ближайших соседей; • Распределение степеней узлов 𝑃(𝑘).

Slide 22

Slide 22 text

dscs.pro 22/39 ПРЕДСТАВЛЕНИЯ • В виде графа G(n;m); • В виде матрицы связности Aij i→j.

Slide 23

Slide 23 text

dscs.pro 23/39 СЛОЖНЫЕ СЕТИ: СВОЙСТВА • Распределение степеней узлов; • Диаметр сети; • Локальная структура (плотность) графа (транзитивность); • Наличие гигантской связной компоненты ; • Иерархическая структура; • Кластерные структуры.

Slide 24

Slide 24 text

dscs.pro 24/39 СТЕПЕННОЙ ЗАКОН РАСПРЕДЕЛЕНИЯ 1/2

Slide 25

Slide 25 text

dscs.pro 25/39 СТЕПЕННОЙ ЗАКОН РАСПРЕДЕЛЕНИЯ 2/2

Slide 26

Slide 26 text

dscs.pro 26/39 СТЕПЕННОЕ РАСПРЕДЕЛЕНИЕ

Slide 27

Slide 27 text

dscs.pro 27/39 СИЛЬНАЯ КЛАСТЕРИЗАЦИЯ

Slide 28

Slide 28 text

dscs.pro 28/39 ГИГАНТСКАЯ СВЯЗНАЯ КОМПОНЕНТА

Slide 29

Slide 29 text

dscs.pro 29/39 ПРАВИЛО ШЕСТИ РУКОПОЖАТИЙ

Slide 30

Slide 30 text

dscs.pro 30/39 ГРАФ ЭРДЁША

Slide 31

Slide 31 text

dscs.pro 31/39 ЧИСЛО ЭРДЁША

Slide 32

Slide 32 text

dscs.pro 32/39 ИДЕЯ МАЛОГО МИРА • "The small-world problem". Stanley Milgram, 1967 • "An experimental study of the small world problem J. Travers, S. Milgram, 1969

Slide 33

Slide 33 text

dscs.pro 33/39 ЭКСПЕРИМЕНТ СТЭНЛИ МИЛГРАМА 1969 ГГ. 1/3 • 296 волонтёров, 217 отправлено; • 196 в Небраска (1300 миль); • 100 в Бостон (25 миль); • Адресат был в Бостоне; • Имя, род деятельности, работа, родной город.

Slide 34

Slide 34 text

dscs.pro 34/39 ЭКСПЕРИМЕНТ СТЭНЛИ МИЛГРАМА 1969 ГГ. 2/3

Slide 35

Slide 35 text

dscs.pro 35/39 ЭКСПЕРИМЕНТ СТЭНЛИ МИЛГРАМА 1969 ГГ. 3/3 • Количество писем, дошедших до адресата 𝑁 = 64,29%; • Средний кратчайший путь < 𝐿 > = 5.2; • Первый канал: через родной город < 𝐿 > = 6.1; • Второй канал: бизнес контакты < 𝐿 > = 4.6; • Из Бостона < 𝐿 > = 4.4; • Из Небраска < 𝐿 > = 5.7.

Slide 36

Slide 36 text

dscs.pro 36/39 СЛОЖНЫЕ СЕТИ • Email граф: D. Watts (2001), 48,000 отправителей, < 𝐿 > ≈ 6; • Граф MSN Messenger: J. Lescovec и др. (2007), 240млн пользователей, < 𝐿 > ≈ 6.6; • Граф Facebook: L. Backstrom и др. (2012), 721 млн пользователей, < 𝐿 > ≈ 4.74.

Slide 37

Slide 37 text

dscs.pro 37/39 РЕШЁТКА БЕТЕ (ДЕРЕВО КЭЙЛИ) Решётка Бете: дерево или бесконечный граф без циклов, где каждый узел связан с фиксированным числом соседей 𝑧 • количество узлов на уровне 𝑘 𝑁 𝑘 = 𝑧(𝑧 − 1)𝑘−1; • общее количество узлов 𝑁 = 1 + σ1 𝐿 𝑧(𝑧 − 1)𝑘−1; • Оценка: 𝑧𝐿 = 𝑁, 𝐿 = log 𝑁 / log 𝑧 𝑁 ≈ 6.7 𝑏𝑙𝑛, 𝑧 = 50 друзей, 𝐿 ≈ 5.8.

Slide 38

Slide 38 text

dscs.pro 38/39 ЛИТЕРАТУРА • "Networks: An Introduction". Mark Newman. Oxford University Press, 2010; • "Social and Economic Networks". Matthew O. Jackson. Princeton University Press, 2010; • "Networks, Crowds, and Markets: Reasoning About a Highly Connected World". David Easley and John Kleinberg, Cambridge University Press 2010.; • "Social Network Analysis. Methods and Applications". Stanley Wasserman and Katherine Faust, Cambridge University Press, 1994.

Slide 39

Slide 39 text

Прикладные технологии анализа и моделирования социальных сетей: сложные сети Валерий Дмитриевич Олисеенко ассистент кафедры информатики dscs.pro; csd.spbu.ru