• Главная <
  • Галерея
  • Карта сайта
  • Наши контакты
  • Обратная связь

Статистика в веб-аналітиці, або Як стати Data Scientist

  1. Навіщо потрібна статистика в веб-аналітиці
  2. Чим Digital-аналітик відрізняється від Data Scientist
  3. Як застосовувати статистичні методи в A / B тестування
  4. Отже, ви вирішили стати Data Scientist. З чого почати?

Матеріали для скачування

Як класифікувати користувачів за допомогою логістичної регресії

Про те, як відслідковувати дії користувачів на сайті за допомогою популярних інструментів аналітики ( OWOX BI , Google Analytics, Яндекс.Метрика) написано безліч статей, в тому числі і в нашому блозі. наприклад, тут можна докладніше почитати про налаштування та функціональності GA. Сьогодні ми вирішили копнути глибше і розібратися з тим, як аналізувати отриману інформацію. У цій статті ви дізнаєтеся, ніж Digital-аналітик відрізняється від Data Scientist і які завдання можна вирішувати завдяки статистичним методам.

Навіщо потрібна статистика в веб-аналітиці

Отже, що робити з інформацією, яку ви збираєте на своєму сайті? Перше і найпростіше, що можна дізнатися - звідки приходить трафік і його основні характеристики, число відвідувань, кліки і т.д. Для цього завдання досить стандартних звітів в Google Analytics.

Однак для розрахунку відносних метрик (ROAS Прибуток від розміщення реклами = дохід від розміщення реклами / витрати на рекламу × 100%, CPC Сума, яку рекламодавець платить за один клік по його рекламі та ін.) Google Analytics не підходить - інакше вийде, як в анекдоті, середня температура по лікарні. Якщо не враховувати специфіку окремих рекламних каналів, зовнішні фактори і запущені тести, достовірність обчислюваних метрик зводиться до нуля.

Є питання і бізнес-завдання, відповіді на які можна знайти, застосувавши статистичні методи. наприклад:

  • Класифікувати користувачів, щоб ефективніше працювати з рекламними кампаніями.
  • Оцінити зміни в дизайні сайту. Наприклад, дізнатися за допомогою A / B тестування, як зменшення кількості полів в формі замовлення вплинуло на конверсію.
  • Зрозуміти, наскільки критичною є просадка або зростання тієї чи іншої метрики. Для цього необхідно визначити інтервал допустимих значень основних метрик на сайті.
  • Спрогнозувати поведінку користувача на сайті за тими чи іншими показниками. Визначити потенційних покупців і запустити для них рекламні кампанії.

Умовно весь процес аналізу даних можна розділити на три частини:

  1. Digital-аналітика - збір і аналіз отриманих даних. Цей етап включає в основному поверхневий аналіз взаємодій користувачів з сайтом і оцінку маркетингових зусиль. Digital-аналітики допомагають, наприклад, визначити найпопулярніші сторінки та категорії товарів, знайти слабкі сторони в функціоналі сайту.
  2. Data governance - управління даними. Цей етап включає координацію завдань між різними відділами в компанії і управління доступом до даних.
  3. Data science - наука обробки і управління даними. На цьому етапі відбувається більш глибокий аналіз зібраних даних: поведінка користувачів на сайті, офлайн-продажі, продажі через колл-центр, дані з CRM. Data Scientists можуть оцінити вплив того чи іншого фактора (джерело залучення, геолокація, день тижня і т. Д.) На спостережуваний результат, наприклад, конверсію і побудувати прогноз.

Чим Digital-аналітик відрізняється від Data Scientist

Фактично Digital-аналітика - це перша сходинка на шляху до Data Science. Наука про дані широко застосовується в різних сферах: аналітиці, біології, медицині, психології, політології і т.д. Незалежно від сфери діяльності будь-якої Data Scientist повинен:

  • Розбиратися в предметної області і аналізувати наявні результати.
  • Працювати з великим об'ємом даних (володіти мовами програмування R і Python, застосовувати машинне навчання).
  • Розбиратися в статистичних методах аналізу (математична підготовка).

Якщо зобразити ці вимоги схематично, то вийде ось такий малюнок, на якому Data Scientist буде в самому центрі:

Якщо зобразити ці вимоги схематично, то вийде ось такий малюнок, на якому Data Scientist буде в самому центрі:

Щоб зрозуміти різницю між Digital-аналітиком і Data Scientist, розглянемо конкретний приклад. Припустимо, дохід від сайту знизився на 3% в порівнянні з середнім значенням минулого тижня.

Digital-аналітик зможе:

  • Підказати джерело, де є різке падіння трафіку.
  • Визначити час, коли виявилося зниження.
  • Підрахувати точну відсоток падіння трафіку для різних джерел.

Data Scientist, використовуючи методи математичної статистики, розглядатиме ситуацію з іншого ракурсу. Для початку він відповість на питання, чи виходить отримане значення доходу за межі області допустимих значень цієї метрики (так званий довірчий інтервал ). Чи є зміна доходу критичним. Можливо, на це зміна не варто реагувати, наприклад, якщо сьогодні дохід нижче ніж минулого тижня, але не нижче середнього показника за місяць.

В цілому напрямок Data Science дозволяє вирішувати наступні завдання:

  • Управляти ризиками, тобто радити управлінські рішення, які знизять вірогідність несприятливого результату і мінімізують можливі втрати бізнесу. Детальніше про методи оцінки ризику ви можете почитати в цій статті .
  • Прогнозувати практично будь-які важливі для вашого бізнесу показники. Можна використовувати для цього модель Бокса-Дженкінса . Наприклад, побудувати прогноз з продажу конкретних товарів на заданий термін. Завдяки цим прогнозам можна планувати закупівлі, цінову політику, рекламні кампанії та акції.
  • Класифікувати користувачів за допомогою логістичної регресії , пробитий-регресії або ROC-кривої . Наприклад, для таргетування. ось цікавий матеріал про те, як використовувати логістичну регресію для діагностики захворювань і оцінки кредитоспроможності.

А тепер давайте розберемо докладніше пару завдань, для вирішення яких потрібно застосовувати статистичні методи.

Як застосовувати статистичні методи в A / B тестування

A / B тестування, мабуть, одна з найбільш поширених завдань в веб-аналітиці. Щоб результати тестування стали по-справжньому корисною інформацією, на яку можна покластися, їх потрібно перевіряти на значимість. У цьому-то і допоможе статистика. При проведенні A / B тестів слід враховувати такі поняття, як статистична потужність, довжина вибірки, довірчий інтервал і статистична значимість. А тепер давайте на прикладах розберемо, що вони означають.

Статистична потужність вимірюється у відсотках і визначає, наскільки ймовірно, що тест покаже різницю між варіантом А та В, якщо вона є. Наприклад, ви хочете перевірити гіпотезу, що чоловікам більше подобається зелений колір, ніж червоний. Якщо ви покажете різні варіанти кнопки двом чоловікам і один натисне червону кнопку, а інший - зелену, чи можна говорити, що ваша гіпотеза спростована? Звичайно ні, тому що один з двох чоловіків міг виявитися любителем яскравих кольорів або дальтоником. Якщо ж ви покажете кнопки, наприклад, тисячі відвідувачів сайту чоловічої статі, то вже зможете визначити, кнопка якого кольору подобається чоловікам. Тобто, чим більше довжина (розмір) вибірки для тесту, тим вище його статистична потужність. Не варто довіряти тестам, статистична потужність яких нижче 80%.

Так якою ж має бути вибірка, щоб результат був достовірним? Це залежить від того, який статистичної потужності і значимості (про неї ми напишемо трохи нижче) ви чекаєте від тесту. На щастя, вважати довжину вибірки вручну зовсім не обов'язково - є величезна кількість зручних онлайн-калькуляторів, наприклад цей . Як користуватися цим калькулятором, ви можете почитати в статті .

Наступний аспект, який потрібно враховувати при A / B тестування - це статистична значимість. Вона визначає, наскільки ймовірно, що тест показав різницю між варіантом А та В, якої насправді не існує. Оптимальний рівень значимості для А / B тесту (також його називають довірчою ймовірністю) становить 95%. Тобто ймовірність помилки (так зване Р-значення) становить решта 5%. Статистична значимість тесту залежить від довірчих інтервалів і площі їх перетину.

Довірчий інтервал Граничні значення показника, який із заданою довірчою ймовірністю буде перебувати в цьому інтервалі при вибірці більшого обсягу показує, наскільки стабільний показник, який ви отримали в результаті тесту, тобто повториться він, якщо збільшити вибірку. Припустимо, ви показали тисячі відвідувачів свого сайту зелену кнопку (варіант А), і 30% на неї натиснули. Обчислюємо похибка для довірчого інтервалу за допомогою онлайн-калькулятора і отримуємо ± 2,8%. Це означає, що якщо збільшити вибірку, то з ймовірністю в 95% на зелену кнопку натиснуть від 27,2% до 32,8% відвідувачів. Інший тисячі відвідувачів ви показали червону кнопку (варіант B), і на неї натиснули 26%. Довірчий інтервал для цієї групи - від 23,3% до 28,7%.

Якщо порівняти довірчі інтервали для варіантів А і B, ми побачимо, що вони перетинаються в діапазоні від 27,2% до 28,7%. Графічно це виглядає так:

На горизонтальній осі графіка - KPI (в нашому випадку конверсія), на вертикальній осі - щільність ймовірності (Щільність розподілу випадкової величини).

Чим менше площа перетину довірчих інтервалів, тим вище вірогідність результатів тестування. У нашому прикладі це перетин становить 1,5%. Ця цифра не перевищує Р-значення в 5%, а значить тесту можна довіряти.

Існує ряд статистичних критеріїв, які допомагають вирішити, приймати чи не приймати спочатку поставлену гіпотезу. Один з найвідоміших і застосовуваних - t-критерій (або критерій Стьюдента ). Насправді під t-критерієм, як правило, розуміють не один конкретний метод, а цілий клас методів перевірки статистичних гіпотез, заснованих на розподілі Стьюдента. Ось приклад калькулятора , За допомогою якого можна розрахувати t-критерій і перевірити коректність тесту. Просто заповніть зелені осередки своїми значеннями, які ви отримали в результаті тестування.

А для гиків є формули :)

Застосувати t-критерій можна тільки за таких умов:

  1. Вихідні дані повинні мати нормальний розподіл .
  2. Якщо застосовується двухвиборочний t-критерій для незалежних вибірок Перевіряє гіпотезу про рівність середніх значень в двох вибірках. Застосовується, наприклад, коли потрібно порівняти оцінки за підсумковим іспиту в двох різних ВУЗах, дисперсії повинні бути рівні.

Двухвиборочний t-критерій для незалежних вибірок

Якщо розміри вибірок відрізняються незначно, застосовується спрощена формула наближених розрахунків:

де де   і   - випадкові величини, n1 і n2- кількість елементів вибірки, а і - випадкові величини, n1 і n2- кількість елементів вибірки, а

де   і   - випадкові величини, n1 і n2- кількість елементів вибірки, а

Кількість ступенів свободи розраховується як:

Кількість ступенів свободи розраховується як:

Основні переваги t-тесту в тому, що він:

  • Нормально працює з величезними вибірками (немає обмеження на обсяг даних).
  • Враховує розподіл і величину вибірки.
  • Підходить для вимірювання різних параметрів (можна порівнювати і кількісні показники в тому числі).

Отже, ви вирішили стати Data Scientist. З чого почати?

Ми зробили підбірку найпопулярніших і цікавих ресурсів для легкого старту на шляху від аналітика до Data Scientist.

У мережі є безліч безкоштовних курсів, які проводяться в форматі лекцій. Після кожної лекції ви отримуєте невеликий список завдань і тем для самостійного вивчення. Якщо щось не виходить, ви можете задати питання викладачеві на форумі. Крім того, по завершенню курсу можна отримати платний сертифікат. Ось кілька доступних майданчиків:

Мова програмування R - найбільш поширений інструмент для роботи з великими даними. Ось кілька ресурсів, які допоможуть вам вивчити мову і поспілкуватися з професіоналами:

І приємна плюшка - онлайн-ігри з теорії ймовірностей і математичній статистиці:

Ми обіцяли парочку прикладів використання статистичних методів, а в статті вмістилося тільки A / B тестування. Залиште свій email , І ми надішлемо вам файл з прикладом, як класифікувати користувачів. Ви зможете виділити сегменти з найбільш високим і низьким LTV Прибуток, яку компанія отримує від одного клієнта за весь час співпраці з ним, щоб застосовувати для них різні маркетингові стратегії.

Сподіваємося, стаття була корисною :) Якщо у вас залишилися питання, охоче відповімо на них в коментарях.

З чого почати?
Якщо ви покажете різні варіанти кнопки двом чоловікам і один натисне червону кнопку, а інший - зелену, чи можна говорити, що ваша гіпотеза спростована?
Так якою ж має бути вибірка, щоб результат був достовірним?
З чого почати?
Новости