Бизнес-калькулятор
Мотивация
Иногда вместо слов и долгих разговоров нужно просто оперативно получить точные цифры для принятия хорошего решения. Однако расчёты могут быть нетривиальными, а вводные параметры для расчёта не фиксированы на 100%. Ситуация усугубляется, если для расчёта необходимо подгрузить данные из внутренних или внешних источников.
Бизнес-калькулятор — это быстрый и оптимальный способ удовлетворить такие потребности. Все вычисления и обработка данных осуществляются на стороне клиента, а это означает отсутствие необходимости устанавливать специальное программное обеспечение или развёртывать web-сервер.
Кому будет интересно
- Линейному менеджменту для упрощения принятия решений.
- Экспертам в предметных областях для распространения лучших бизнес-практик принятия решений внутри компаний.
- Службам заказчика и клиентского сервиса для улучшения пользовательского опыта.
- Службам ИТ для быстрого прототипирования дашбордов и интерфейсов систем планирования.
Пример: A/B-тест-калькулятор
Допустим, отдел маркетинга хочет понять, насколько новый дизайн интерфейса лучше текущего. Фактически, необходимо ответить на вопросы: увеличит ли новый дизайн конверсию сервиса? Будет ли такое увеличение существенным с точки зрения ключевых метрик бизнеса?
Z-тест (ищем разницу)
-
-
TOST (ищем эквивалентность)
-
-
Тестовые группы
Как использовать калькулятор
Дизайн A/B-эксперимента
Настройка корректного A/B-эксперимента включает в себя выбор подходящего размера выборки. Это гарантирует, что тест обладает достаточной мощностью для выявления изменений, сводя к минимуму статистический шум. С точки зрения статистики, наша цель — обнаружить минимально детектируемый эффект (MDE
) с заданной степенью статистической уверенности.
1. Определите базовый уровень конверсии
Это существующий или ожидаемый уровень конверсии в контрольной группе. Например, если вы исследуете эффективность нового пользовательского интерфейса (UI), базовый уровень конверсии — это процент пользователей, которые будут использовать нужные функции без воздействия нового дизайна интерфейса.
2. Выберите минимально детектируемый эффект
Минимально детектируемый эффект — это наименьшая разница в поведении или результате, которую вы хотите стабильно обнаруживать в своём исследовании. Например, при исследовании нового интерфейса минимальный обнаруживаемый эффект — это самое небольшое увеличение частоты использования, которое вы хотите зафиксировать. Для простоты калькулятор использует RMD
, который определяется процентом разницы с базовым уровнем конверсии.
3. Дисперсия контрольной группы ( )
Дисперсия контрольной группы характеризует меру неопределённости в данных, что влияет на итоговые статистические метрики проводимого эксперимента. Дисперсия характеризует, как правило, уровень неопределенности в разрезе временных интервалов: час, день, неделя. Зачастую реальная дисперсия “из фактических данных” не соответсвует теоритической, поэтому пользователь может настроить этот параметр на свое усмотрение.
Вместо теоретической дисперсии распределения Бернулли
4. Уровень значимости (α)
Значение уровня значимости определяет вероятность обнаружения статистически значимой разницы средних значений конверсии, когда на самом деле разницы нет. Это также называют ошибкой первого рода или ложноположительным результатом.
По умолчанию α установлено на 0.05, но можно выбрать значение в диапазоне от 0.01 до 0.1. Снижение этого числа повышает уверенность в том, что разница не является случайной, но требует большего размера выборки.
5. Статистическая мощность (1 - β)
Статистическая мощность — это вероятность того, что минимальный обнаруживаемый эффект разницы средних значений конверсии будет зафиксирован, если он действительно существует. По умолчанию мощность установлена на 0.8, но может варьироваться от 0.65 до 0.95. Более высокая мощность снижает вероятность ложноотрицательных результатов, но требует увеличения размера выборки.
Симуляция и анализ
Генерация данных позволяет наглядно продемонстрировать возможные сценарии исхода эксперимента.
1. Количество наблюдений
Количество наблюдений это расчетная величина, которая определяется значениями уровня значимости
Статистическая значимость определяется предположением о том, что конверсия контрольной и тестовой групп имеет существенное отличие:
2. Соотношение разделения A/B (сплит)
Сплит указывает на долю пользователей контрольной группы в общей выборке. Значение по умолчанию — 50%, что означает распределение пользователей между тестовой и контрольной группами в пропорции 50%/50%. Обычно A/B-тесты следуют такому принципу, но это соотношение можно изменить в зависимости от специфики исследования.
3. Дисперсия тестовой группы ( )
Как правило, дисперсия тестовой группы превышает дисперсию контрольной группы так как тестируемая гипотеза добавляет неопределенности в поведение пользователей сервиса. Калькулятор позволяет настраивать дисперсию тестовой группы для имитации такого эффекта.
4. Интервал гистограммы
Определяет исключительно визуальную характеристику итоговой гистограммы эксперимента.
5. Реальный эффект — Lift
Реальный эффект — это фактическая разница средних контрольной и тестовой групп, полученная в результате симуляции.
6. Количество примеров
Для оценки статистической значимости и мощности теста используется техника семплирования из выборки, далее производится расчет разности средних и сравнение с критическим значением, связанным с MDE
Увеличение количества примеров может существенно снизить скорость расчетов. Используйте данную настройку в самую последнюю очередь, когда остальные параметры определены.
Ключевые статистики эксперимента
Калькулятор делает оценку количества наблюдений в тестовой группе, необходимого для минимально детектируемого эффекта.
Рассчитываются показатели фактической значимости и мощности индивидуальных наблюдений для синтетических данных.
Делается Z-тест на разницу средних контрольной и тестовой групп. Тест помогает выявить статистическую значимость различий между контрольной и тестовой группами.
Делается TOST — тест на эквивалентность контрольной и тестовой групп. Тест помогает определить существенность различий между контрольной и тестовой группами.