Цапля

Простые инструкции по божественному дизайну AB тестов

Благодаря этим волшебным инструкциям новички делают сразу хорошо, а опытные заметно повышают качество.

Планируем тест

  1. Всё начинается с вопроса. Сформулировав его, подключаем аналитика и вместе с ним превращаем вопрос в гипотезы. Их отличает от вопроса то, что гипотезы можно подтвердить или отклонить с помощью цифр и количественного исследования.
  2. Маркетолог и аналитик договариваются о самой важной метрике, по которой они будут определять выигрыш (или его отсутствие) тестовой группы. Иногда нужно, чтобы метрика учитывала сразу несколько величин, тогда арифметически она может складываться из нескольких составляющих. Например, у нас справочный сервис и мы хотим посчитать удовлетворенность клиента, как функцию с некоторыми весами от количества часов, проведенных в сервисе за день, и средней оценки («была ли эта статья для вас полезной?»), которую пользователь давал сообщениям от сервиса.
  3. Договариваемся о плане действий: как формируем контрольную и тестовую группы, когда стартуем тест, при каких условиях останавливаем, какие метрики еще измеряем кроме ключевой (причем важно договориться, как эти метрики будут посчитаны, чтобы избежать различий в толкованиях).
  4. Определяемся, в каком виде нам нужен ответ (например, в виде текстового вывода или в формате таблицы в Google Docs).

Итоговый план должен быть понятен всем, кто заинтересован в результатах теста, даже если они непосредственно не участвовали в обсуждении.

Результаты правильно проведенного эксперимента:

  • Понятны
  • Отвечают на заданный вопрос
  • Измеримы (т.е. задав другие данные на вход мы понимаем, как изменится результат на выходе и нет в вычислениях никаких экспертных оценок, которые работают только для одного данного случая)
  • Воспроизводимы (кто угодно другой, следуя плану эксперимента, получит тот же вывод)

Представьте себя в будущем и, более того, другим человеком: тест завершен и вы получили результат в том виде, о котором договорились при планировании, но вы не тот, человек, что участвовал в получении результата. Вы оглядываете план и полученные результаты, всё ли вам понятно? Сможете ли вы повторить те же самые шаги и получить такой же ответ?

Как избежать потенциальных искажений в результатах:

  • Должно быть получено достаточное количество валидных данных
  • Достаточное количество данных должно быть получено раньше, чем данные устареют
  • Нужно исключить влияние переменных, которые в итоге могут привести к альтернативным трактовкам результатов эксперимента. Другими словами, представим, что вся окружающая тест действительность — это набор неких переменных или постоянных факторов. Нам нужно создать для теста такие условия, чтобы все эти переменные факторы мира не изменялись во время теста (кроме тех, которые тестируем). Например, если мы тестируем цвет кнопки, то все остальное (надпись на кнопке, сам баннер, его размер, канал, где он показывается, гео и прочие таргетинги) должно быть идентичным.
  • Если мы не можем фиксировать какую-то переменную, надо разделить эксперименты, где она принимает разные значения. Например, мы решили протестировать выдачу награды за возврат в игру. И если мы не можем в настройках рекламной кампании отделить тех, кто уже удалил приложение от тех, у кого оно все еще установлено, то при последующем анализе результаты для двух этих ситуаций надо оценивать раздельно.
  • Если значение какой-то переменной, влияющей на эксперимент, нельзя зафиксировать, то набор данных, на котором мы будем делать вывод, должен содержать такое же распределение возможных значений переменной, как генеральная совокупность. Например, мы не можем исключить пересечения показов рекламы одному пользователю на разных каналах, но мы предполагаем, что каждый раз, для каждой рекламной кампании ситуация с кросс-канальным пересечением примерно одинаковая.

Выводы

A/B и split-тесты — это эксперимент, где мы тестируем 2 или более взаимоисключающих ситуаций. То есть возможен либо вариант кнопки “Play free” на баннере, либо “Update now”, либо “Open”.

Распределение между двумя выборками должно быть равномерным. Т.е. участники должны быть равномерно распределены в списки A и B. Иначе два крупных покупателя в одном списке могут исказить всю картину теста. Второй пример — если мы тестируем два варианта баннеров, то показ их должен быть равномерным и не должен влиять оптимизатор показов на стороне продавца рекламы. Иначе, результаты этого теста будут точно не применимы к другим рекламным каналам и, возможно, не всегда применимы даже на текущей рекламной площадке.

Калькуляторы для A/B тестов

    Можно воспользоваться другим калькулятором, который подскажет, сколько просмотров нам надо набрать, чтобы получить достоверный результат:
  • http://www.evanmiller.org/ab-testing/sample-size.html