Cтудентка змогла знайти втікача брата за допомогою аналізу соціальної мережі Вконтакте
Досить стандартна сімейна історія - підліток втік з дому, написавши смску: «Я сюди більше не повернуся, можете навіть не намагатися мене знайти» і, природно, відключивши телефон. Знайти його змогла сестра, використовуючи знання, отримані під час навчання на програмі «Прикладна математика та інформатика» . Ця історія також показує, що можуть розповісти соцмережі про своїх користувачів розуміла людині.
ніяких зачіпок
Ніхто не знав, до кого міг поїхати утікач - батьки були повністю впевнені, що молода людина близький лише зі своїми однокласниками. Але тих, кого знали, обдзвонили, і ні у кого з них він не виявився. Був ще один шлях - пошук по мережі Вконтакте. Саме цим і зайнялася сестра втікача, яку з етичних міркувань ми назвемо ініціалом Л.
«Але друзів у нього там було занадто багато, щоб перевірити кожного, - згадує вона. - Як порахували статистики, в середньому у кожного користувача соціальної мережі близько 150 взаємних передплатників, в той час як в реальному житті коло спілкування в п'ять разів менше віртуального . Потрібно було шукати інший спосіб. В курсі «Комбінаторика» ми в тому числі писали програму обробки, аналізу і візуалізації мережі друзів ВКонтакте. Я вирішила подивитися, чи зможу я щось корисне витягти з цього аналізу, оскільки будь-яка інформація віталася ».
математична магія
Нижче наведена візуалізація мережі Вконтакте розшукуваного молодої людини на той момент. Квітами виділені щільні кластери на графі. Усередині кожного кластера люди більше знайомі між собою і менше - з учасниками інших кластерів.
В суміші кластерів знизу перебували шкільні друзі, знайомі з інших класів і інші люди, які вже були відомі Л. А от зелений кластер - це люди, яких сестра втікача зовсім не знала. Можливо, це було те, що прийнято називати «поганою компанією» (згодом це припущення підтвердилося). Оскільки пошук по шкільним друзям було проведено практично відразу після початку пошукової операції і результатів не дав, було логічним припустити, що втікач швидше за все зв'язався з кимось із зеленого кластера. Писати всім підряд було б безглуздо - необхідно було говорити з ними з певним ступенем упевненості в тому, що ти звертаєшся до потрібної людини, і при цьому не втратити ефект несподіванки, щоб все учасників не залягли на дно, не бажаючи «здавати» підлітка батькам.
«Звузивши обсяг робіт, я продовжила дослідження, виділяючи спільноти і вираховуючи індекси впливу ( centrality metrics ), Що показують, наскільки впливовий та чи інша людина щодо різних типів взаємодії і поширення інформації », - розповідає Л.
Аналізувати весь граф було б безглуздо, оскільки на верхніх позиціях перебували б люди з класу, в якому навчався молодий чоловік, а їх вже опитали. Тому Л. зайнялася пильним вивченням тільки учасників підозрілого зеленого кластера. Вона досліджувала їх за трьома показниками впливовості: degree centrality (Кількість людей, яких знає ця людина), betweenness centrality (Наскільки часто через цю людину проходить інформація в співтоваристві) і closeness centrality (Наскільки швидко пошириться інформація по спільноті, якщо спочатку вона потрапить до цієї людини). Результати виявилися наступними (в порядку убування індексів впливу, кожен учасник позначений буквою):
Degree centrality
Betweenness centrality
Closeness centrality
A
A
A
B
E
E
C
F
B
D
G
C
E
B
D
Що все це означає?
По-перше, виявилася цікава деталь: особистість А в загальному графі займала лише 16-е місце по betweeness centrality, але якщо розглядати зелений кластер окремо, А лідирувала за всіма показниками. Це була дівчина, і в подальшому з'ясувалося, що вона дійсно відігравала важливу роль в цій історії, тому що саме вона втягнула молодої людини в погану компанію.
По-друге, виявилося, що особистість B має високий показник degree, але низький betweenness - швидше за все це означає, що зв'язки цієї людини безглузді, і ключова інформація проходить не через нього. З певною вірогідністю Л. зробила висновок, що B не представляє собою ключового людини. Швидше за все це такий тип поведінки в соціальній мережі, коли в друзі додають просто всіх підряд. Особистості С, D за всіма показниками знаходяться нижче особистості B, отже, їх можна пропустити автоматично.
По-третє, особистість E має низький degree, але вельми високі інші показники. Це означає, що її зв'язку є ключовими в мережі і що важлива інформація швидше за все буде передаватися саме через цього учасника спільноти. Навряд чи це означає, що саме ця людина приховує втікача, але дуже ймовірно, що він принаймні щось знає про його місцезнаходження.
По-четверте, особистості F і G з'являються тільки в betweenness centrality. Вони пов'язують «зелену» компанію з кластером школи, тобто, цілком можливо, щось знають і приховують. Л. припустила, що особистість F - такий же пустився у всі тяжкі однокласник. Як виявилося згодом - це був просто юний романтик, який хотів би втекти, але все не виходило.
З'ясувалися цікаві особливості і інших кластерів: якщо, наприклад, червоний кластер був друзів з старших класів, то люди в фіолетовому кластері не завжди навіть були в одній паралелі. Згодом виявилося, що програма з абсолютною точністю визначила «важких підлітків», помічених за вживанням міцних напоїв і курінням. При цьому, фіолетовий кластер не перетинається з «поганою компанією» зеленого кластера - можна помітити, що між ними є всього лише одна вагома сполучна ланка. Логічно було припустити, що це «постачальник» тих самих напоїв, які заборонені до продажу школярам.
повернення
Всі зроблені аналітично висновки пізніше підтвердилися свідченнями втік брата. Сам він до сих пір вважає, що його сестра володіє якоюсь математичною магією.
«На цьому етапі я нарешті вирішила почати переписку і зв'язалася з особистостями А, Е і F, - розповідає Л. - Це було ризиковано, але варто було спробувати. Особистість F в результаті виявилася марна, хоча під час спілкування продемонструвала відкрито ворожу позицію. Особистість A надала перевагу мені проігнорувати. Особистість E деякий час стверджувала, що нічого не знає, але після, в общем-то, безпідставного, але дуже впевненого напору все ж визнала, що брат перебуває в безпеці неподалік. Після цього було вже неважко опосередковано умовити його вийти на зв'язок спочатку зі мною, а потім вже і з батьками ».
До цього моменту батьки вже поїхали подавати заяву про розшук в органи внутрішніх справ, захопивши з собою «чорний список» з цих трьох особистостей. Передбачалося, що якщо за вихідні брат не з'явиться, з них можна буде почати пошуки. Але до цього не дійшло, молода людина сама повернувся додому.
Після завершення цієї історії граф його соціальних зв'язків виглядав так:
Блакитні точки - це друзі з нової школи з ухилом в бік розвитку творчого потенціалу учнів і патріотичного виховання, куди його перевели. На графі вони не перетинаються з іншими. Учасники ж старих зеленого і фіолетового кластерів, які на цьому малюнку ще присутні, незабаром були видалені з друзів.
викладачі департаменту аналізу даних і штучного інтелекту вдячні Л. за те, що вона поділилася з ними своєю історією. «Величезною радістю для педагога є не тільки успіх його учнів, а й застосування знань на практиці, особливо в такій важливій справі, як порятунок життя дитини», - говорить науковий керівник Л. і автор курсу з комбінаторики Ілля Макаров . - Я впевнений, що цей приклад змусить багатьох задуматися про те, скільки особистої інформації насправді зберігається в соціальних мережах і як навчені професіонали можуть використовувати ці дані для запобігання подібних випадків у майбутньому ».
Описані вище методи аналізу соціальної мережі в Вишці можна вивчити в рамках дисциплін і проектів на магістерських програмах «Науки про дані» і «Прикладна статистика з методами мережевого аналізу» , Вони також будуть зачіпатися на програмі «Журналістика даних» . Для всіх магістрантів 1 року навчання будь-яких інших програм доступний вступний курс «Social Network Analysis» з циклу Магола, а бакалаври можуть взяти курс за вибором «Комбінаторика» .