Бизнес-калькулятор

Ускорение и упрощение принятия управленческих решений с помощью наглядной интерактивной визуализации

Мотивация

Иногда вместо слов и долгих разговоров нужно просто оперативно получить точные цифры для принятия хорошего решения. Однако расчёты могут быть нетривиальными, а вводные параметры для расчёта не фиксированы на 100%. Ситуация усугубляется, если для расчёта необходимо подгрузить данные из внутренних или внешних источников.

Бизнес-калькулятор — это быстрый и оптимальный способ удовлетворить такие потребности. Все вычисления и обработка данных осуществляются на стороне клиента, а это означает отсутствие необходимости устанавливать специальное программное обеспечение или развёртывать web-сервер.

Кому будет интересно

Линейному менеджменту для упрощения принятия решений.
Экспертам в предметных областях для распространения лучших бизнес-практик принятия решений внутри компаний.
Службам заказчика и клиентского сервиса для улучшения пользовательского опыта.
Службам ИТ для быстрого прототипирования дашбордов и интерфейсов систем планирования.

Пример: A/B-тест-калькулятор

Задача

Допустим, отдел маркетинга хочет понять, насколько новый дизайн интерфейса лучше текущего. Фактически, необходимо ответить на вопросы: увеличит ли новый дизайн конверсию сервиса? Будет ли такое увеличение существенным с точки зрения ключевых метрик бизнеса?

viewof _H0 = Inputs.range([0, 50], {label: "Конверсия %", step: 1, value:15})
H0=_H0/100
viewof _sigma0 = Inputs.range([.1, 10], {label: "Дисперсия %", step: 0.1, value:1.5})
sigma0 = _sigma0/100
viewof _RMD = Inputs.range([1, 100], {label: "RMD %", step: .1, value: 20})
RMD = _RMD/100
viewof alpha = Inputs.radio([0.01, 0.05, 0.1], {label: "Значимость", value: 0.05})
viewof power = Inputs.range([0.65, 0.95], {label: "Мощность", step: 0.01, value: 0.8})

_H0 = 15

H0 = 0.15

_sigma0 = 1.5

sigma0 = 0.015

_RMD = 20

RMD = 0.2

alpha = 0.05

power = 0.8

viewof _split = Inputs.range([40, 100], {label: "Сплит %", step: 1, value: 50})
split = _split/100
viewof _sigma1 = Inputs.range([.1, 10], {label: "Дисперсия %", step: 0.1, value:2})
sigma1 = _sigma1/100
viewof _bin_interval = Inputs.range([0.1, 10], {label: "Интервал %", step: .1, value: .3})
bin_interval = _bin_interval/100
viewof _lift = Inputs.range([0, 100], {label: "Lift %", step: .1, value: 30})
lift = _lift/100
viewof bootstrap_n = Inputs.range([100, 10000], {label: "Количество примеров", step: 1, value:100})

_split = 50

split = 0.5

_sigma1 = 2

sigma1 = 0.02

_bin_interval = 0.3

bin_interval = 0.003

_lift = 30

lift = 0.3

bootstrap_n = 100

Z-тест (ищем разницу)
- $H_{0}$ : Новый дизайн не отличается от старого.
- $H_{1}$ : Новый дизайн лучше или хуже.

TOST (ищем эквивалентность)
- $H_{0}$ : Новый дизайн лучше на ΔMDE( $H_{1} - H_{0}$ ).
- $H_{1}$ : Новый дизайн не лучше (эквивалентен при Lift << ΔMDE) или существенно лучше (при Lift >> ΔMDE) .

jStat = require("https://cdnjs.cloudflare.com/ajax/libs/jstat/1.9.0/jstat.min.js")


beta = 1-power
H1 = H0*(1+RMD) // in fact MDE (alternative hypothesis)

function calculateObservations(H1, H0, r, alpha = 0.05, power = 0.8){
    // Z-scores for given alpha and power
    const Z_1_alpha = jStat.normal.inv(1-alpha, 0, 1); // Z-score for 1 - alpha (alpha = 0.05, one-tailed test)
    const Z_1_beta = jStat.normal.inv(1-power, 0, 1);  // Z-score for 1 - beta (power = 0.8)
    // Calculate total number of observations
    const n_total = ((Z_1_alpha + Z_1_beta) ** 2 * (H0 * (1 - H0) + (1 / r) * H1 * (1 - H1))) / ((H1-H0) ** 2)
    return Math.ceil(n_total); // Round up to nearest whole number
}
// Required total n of observations
n = calculateObservations(H1, H0, split, alpha, beta)
control = Math.ceil(n*split)
test =  Math.ceil(n*(1-split))

// Calculate stats for arrows 
Z_1_alpha = jStat.normal.inv(1 - alpha, 0, 1)
Z_1_beta = jStat.normal.inv(1 - beta, 0, 1)
CV = H0 + Z_1_alpha*Math.sqrt((H0*(1 - H0) + (1/split)*H1*(1 - H1))/n) // taken from MDE -> n obs formula
// H1 = CV + Z_1_beta*Math.sqrt((H0*(1 - H0) + (1/split)*H1*(1 - H1))/n) // is not required since it equals to H1

// Initial approach (wrong)
// SE = Math.sqrt(H0*(1-H0)/control+H1*(1-H1)/test)
// CV = H0+Z_1_alpha*SE

// TOST 
function TOST(p1, p2, n1, n2, delta, direction="greater") {
    const p_hat = (p1*n1 + p2*n2)/(n1 + n2); // Объединенная доля успехов
    const se = Math.sqrt(p_hat*(1 - p_hat)*(1/n1 + 1/n2)); // Стандартная ошибка

    let z;
    if (direction === "greater") {
        z = ((p1 - p2) - (-delta)) / se; // Проверяем "не хуже"
    } else {
        z = ((p1 - p2) - delta) / se; // Проверяем "не лучше"
    }
    // z = z<0 ? 0 : z; 
    const pvalue = (1-jStat.normal.cdf(Math.abs(z), 0, 1))
    return pvalue.toFixed(2);
}

// Is not required 
function formatPercent(value, decimals = 2) {
  return `${(value * 100).toFixed(decimals)}%`;
}

// Bootstrap 
function bootstrapAlphaPower(H0_rnd, H1_rnd, critical_value, n_bootstrap = 1000, sample_size = 100) {
    let alpha_count = 0;
    let power_count = 0;

    for (let i = 0; i < n_bootstrap; i++) {
        // Sample only `sample_size` observations per iteration
        let H0_sample = d3.range(sample_size).map(() => H0_rnd[Math.floor(Math.random() * H0_rnd.length)]);
        let H1_sample = d3.range(sample_size).map(() => H1_rnd[Math.floor(Math.random() * H1_rnd.length)]);

        let delta_H1 = d3.mean(H1_sample) - d3.mean(H0_sample);
        let delta_H0 = d3.mean(H0_sample) - d3.mean(H0_rnd);  // Bootstrap test under H0

        if (delta_H1 > critical_value) power_count++; // True positives (Power)
        if (delta_H0 > critical_value) alpha_count++; // False positives (Alpha)
    }

    return {
        alpha: alpha_count / n_bootstrap,  // Type I error rate
        power: power_count / n_bootstrap   // Statistical power
    };
}

alpha_real = (1-jStat.normal.cdf(CV, H0, sigma0)).toFixed(2);
power_real = (1-jStat.normal.cdf(CV, H0*(1+lift), sigma1)).toFixed(2);

Z_test=H0*lift/Math.sqrt((H0*(1-H0))/control + (H0*(1+lift)*(1-H0*(1+lift)))/test)
Z_test_pvalue = (1 - jStat.normal.cdf(Z_test, 0, 1)).toFixed(2);

Z_test_res = Z_test_pvalue < alpha ? "<b style='color:firebrick'>Отвергнуть</b>" : "<b style='color:seagreen'>Принять</b>";
TOST_pvalue = TOST(H0, H0*(1+lift), control, test, H1-H0)
TOST_res = TOST_pvalue < alpha ? "<b style='color:firebrick'>Отвергнуть</b>" : "<b style='color:seagreen'>Принять</b>";

// Random observations
H0_rnd = d3.range(0, control).map(d3.randomNormal(H0,sigma0))
H1_rnd = d3.range(0, test).map(d3.randomNormal(H0*(1+lift),sigma1))

// Bootstrapped alpah and power
bs = bootstrapAlphaPower(H0_rnd, H1_rnd, CV-H0, bootstrap_n)

// Live-updating value boxes
html`
<div class="value-box-container">
  <div class="value-box">
    <i class="bi bi-calculator"></i>
    <div class="title">Контрольные /<br>Тестовые группы</div>
    <div class="value">${control} / ${test}</div>
  </div>
  <div class="value-box">
    <i class="bi bi-percent"></i>
    <div class="title">Значимость / Мощность</div>
    <div class="value_sm">Частное: ${alpha_real}/${power_real}</div>
    <div class="value_sm">Среднее: ${bs.alpha.toFixed(2)}/${bs.power.toFixed(2)}</div>
  </div>
  <div class="value-box">
    <i class="bi bi-plus-slash-minus"></i>
    <div class="title">Z-тест H0: ${Z_test_res}</div>
    <span>p-value:</span>
    <div class="value">${Z_test_pvalue}</div>
  </div>
  <div class="value-box">
    <i class="bi bi-signpost-split-fill"></i>
    <div class="title">TOST H0: ${TOST_res}</div>
    <span>p-value:</span>
    <div class="value">${TOST_pvalue}</div>
  </div>
</div>
`

alpha_real = "0.09"

power_real = "0.90"

Z_test = 3.214946638388862

Z_test_pvalue = "0.00"

Z_test_res = "<b style='color:firebrick'>Отвергнуть</b>"

TOST_pvalue = "0.14"

TOST_res = "<b style='color:seagreen'>Принять</b>"

H0_rnd = Array(1452) [0.14527700381198508, 0.1419152597959732, 0.1540505078222799, 0.13940360160000007, 0.13673992179587888, 0.12499814127043042, 0.12772342654376262, 0.14904541251069187, 0.1276697352294431, 0.14138713858618557, 0.14310517051626462, 0.137745025665383, 0.16793257397058334, 0.14799252380040903, 0.13653576470900466, 0.12534475379120472, 0.15154124492804646, 0.146519064098793, 0.14188485221590585, 0.14437200799671454, …]

H1_rnd = Array(1452) [0.17762836495848855, 0.19182238014818043, 0.18591401530079907, 0.21018165162809155, 0.14937864844324095, 0.19986199000100832, 0.19265423151044367, 0.18947402705355237, 0.20638342367391324, 0.1807006218691522, 0.18708257231616116, 0.2108068043720535, 0.2209893807890781, 0.187366061456139, 0.2054031363728359, 0.19472758218278052, 0.20824348402354584, 0.18701125815703504, 0.21254774925909992, 0.18679205413947733, …]

bs = Object {alpha: 0, power: 1}

Контрольные /
Тестовые группы

1452 / 1452

Значимость / Мощность

Частное: 0.09/0.90

Среднее: 0.00/1.00

Z-тест H0: Отвергнуть

p-value:

0.00

TOST H0: Принять

p-value:

0.14

// Toggle switch for hiding/showing a mark
viewof showSim = Inputs.toggle({ label: "Эксперимент", value: true });

showSim = true

bins = Plot.binX({y: "count"},{curve: "basis", interval: bin_interval})

p1 = Plot.plot({
  insetTop:20,
  marks: [
    Plot.rectY(H0_rnd, {...bins, fill: "seagreen", opacity: 0.1}),
    Plot.areaY(H0_rnd.filter((d) => d > CV), {...bins, fill: "seagreen", opacity: 0.3}),
    Plot.line(H0_rnd,
     {...bins, stroke: "seagreen", strokeWidth: 1, 
         tip: {format: {x: (d) => `H0: ${d3.format(".2%")(d)}`}, fill: "rgb(46, 139, 87,.3)", anchor: "right"}
        }),
     ...(showSim ? [
        Plot.rectY(H1_rnd,{...bins, fill: "firebrick", opacity: 0.1}),
        Plot.areaY(H1_rnd.filter((d) => d < CV), {...bins, fill: "firebrick", opacity: 0.3}),
        Plot.line(H1_rnd,
          {...bins, stroke: "firebrick", strokeWidth: 1, 
            tip: {format: {x: (d) => `H1: ${d3.format(".2%")(d)}`}, fill: "rgb(178,34,34,.3)", anchor: "left"} 
            }),
        Plot.ruleX([H0*(1+lift)], {stroke: "firebrick"}),
        Plot.text([{x: CV*.99, y: 0, text: "β" }], {
          x: "x", y: "y", text: "text", fill: "firebrick", stroke: "white",textAnchor: "end",fontSize: 20, dy: -10
        }),
        Plot.text([{x:H0*(1+lift), y: 0, text: "    H1: Среднее \n←тестируемое \n    (эффект есть)" }], {
          x: "x", y: "y", text: "text", fill: "firebrick", stroke: "white", textAnchor: "start", fontSize: 12, dy: -150, dx: 10
         }),
        Plot.text([{x:H0*(1+lift), y: 0, text: "1-β\nМощность" }], {
          x: "x", y: "y", text: "text", fill: "firebrick", stroke: "white", textAnchor: "start",fontSize: 15, dy: -50, dx: 10
        })
        ] : [] ),
    Plot.ruleX([H0], {stroke: "seagreen"}),
    Plot.ruleX([CV], {stroke: "gray"}),
    
    Plot.ruleX([H1], {strokeWidth: 2, strokeDasharray: "4,1"}), 
    Plot.link([{x1:CV, x2:H0, y:0}], 
               {x1:"x1",x2:"x2", y:"y", stroke:"seagreen", markerStart: "dot", markerEnd: "arrow", dy: -200, strokeWidth:2}),
    Plot.text([{y:0, x:H0, text: "Z(1-α)⋅SE"}], 
              {x: "x", y: "y", text: "text", fill: "seagreen", textAnchor: "start", dy: -210, stroke: "white"}), 
    Plot.link([{x1:CV, x2:H1, y:0}], 
               {x1:"x1",x2:"x2", y:"y", stroke:"firebrick", markerStart: "dot", markerEnd: "arrow", dy: -200, strokeWidth:2}),
    Plot.text([{y:0, x:CV, text: "Z(1-β)⋅SE"}], 
              {x: "x", y: "y", text: "text", fill: "firebrick", textAnchor: "start", dy: -190, stroke: "white"}), 
    Plot.text([{x:H0, y: 0, text: "1-⍺\nДов.интервал"}], {
      x: "x", y: "y", text: "text", fill: "seagreen", stroke: "white", textAnchor: "end", fontSize: 15, dy: -50, dx: -10
    }),
    Plot.text([{x: CV*1.01, y: 0, text: "⍺" }], {
      x: "x", y: "y", text: "text", fill: "seagreen", stroke: "white", textAnchor: "start",fontSize: 20, dy: -10
    }),
    Plot.text([{x:H1, y:0, text: "MDE" }], {
      x: "x", y: "y", text: "text", fill: "black", stroke: "white",fontSize: 15, dy: -300,
    }),
    Plot.text([{x:CV, y:0, text: "Предел\nзначимости" }], {
      x: "x", y: "y", text: "text", fill: "gray", stroke: "white",fontSize: 15, dy: -250,
    }),
    Plot.text([{x:H0, y: 0, text: "H0: Среднее    \nтекущее→\n(эффекта нет)    " }], {
      x: "x", y: "y", text: "text", fill: "seagreen", stroke: "white", textAnchor: "end",fontSize: 12, dy: -150, dx: -10
    }),
    Plot.ruleY([0]), 
  ],
  x: {
    type: "linear",  // Default is linear, but ensures correct behavior
    tickFormat: d3.format(".0%"), // Converts values to percentages (e.g., 0.1 → "10%")
    label: "Конверсия"
  },
  y: {label: "Количество\nнаблюдений"}
})

bins = Object {inset: undefined, insetLeft: 1, insetRight: 0, curve: "basis", transform: ƒ(n, r, c), x1: Object, x2: Object, x: Object, y: Object}

Как использовать калькулятор

Дизайн A/B-эксперимента

Настройка корректного A/B-эксперимента включает в себя выбор подходящего размера выборки. Это гарантирует, что тест обладает достаточной мощностью для выявления изменений, сводя к минимуму статистический шум. С точки зрения статистики, наша цель — обнаружить минимально детектируемый эффект (MDE) с заданной степенью статистической уверенности.

1. Определите базовый уровень конверсии

Это существующий или ожидаемый уровень конверсии в контрольной группе. Например, если вы исследуете эффективность нового пользовательского интерфейса (UI), базовый уровень конверсии — это процент пользователей, которые будут использовать нужные функции без воздействия нового дизайна интерфейса.

2. Выберите минимально детектируемый эффект

Минимально детектируемый эффект — это наименьшая разница в поведении или результате, которую вы хотите стабильно обнаруживать в своём исследовании. Например, при исследовании нового интерфейса минимальный обнаруживаемый эффект — это самое небольшое увеличение частоты использования, которое вы хотите зафиксировать. Для простоты калькулятор использует RMD, который определяется процентом разницы с базовым уровнем конверсии.

3. Дисперсия контрольной группы ( $σ_{0}^{2}$ )

Дисперсия контрольной группы характеризует меру неопределённости в данных, что влияет на итоговые статистические метрики проводимого эксперимента. Дисперсия характеризует, как правило, уровень неопределенности в разрезе временных интервалов: час, день, неделя. Зачастую реальная дисперсия “из фактических данных” не соответсвует теоритической, поэтому пользователь может настроить этот параметр на свое усмотрение.

Оценка

σ_{0}^{2}

Вместо теоретической дисперсии распределения Бернулли $σ_{theoretical}^{2} = p (1 - p)$ , всегда можно получить оценку из фактических данных: $σ_{actual}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}$

4. Уровень значимости (α)

Значение уровня значимости определяет вероятность обнаружения статистически значимой разницы средних значений конверсии, когда на самом деле разницы нет. Это также называют ошибкой первого рода или ложноположительным результатом.

По умолчанию α установлено на 0.05, но можно выбрать значение в диапазоне от 0.01 до 0.1. Снижение этого числа повышает уверенность в том, что разница не является случайной, но требует большего размера выборки.

5. Статистическая мощность (1 - β)

Статистическая мощность — это вероятность того, что минимальный обнаруживаемый эффект разницы средних значений конверсии будет зафиксирован, если он действительно существует. По умолчанию мощность установлена на 0.8, но может варьироваться от 0.65 до 0.95. Более высокая мощность снижает вероятность ложноотрицательных результатов, но требует увеличения размера выборки.

Симуляция и анализ

Генерация данных позволяет наглядно продемонстрировать возможные сценарии исхода эксперимента.

1. Количество наблюдений

Количество наблюдений это расчетная величина, которая определяется значениями уровня значимости $Z_{1 - α}$ , статистической мощностью $Z_{1 - β}$ и MDE

Формула расчета n

Статистическая значимость определяется предположением о том, что конверсия контрольной и тестовой групп имеет существенное отличие:

$\frac{| H_{1} - H_{0} |}{S E} \geq Z_{1 - α} + Z_{1 - β}$ Стандартное отклонение для разницы в пропорциях с учетом разделения на контрольную и тестовую группы $r$ : $S E = \sqrt{\frac{H_{0} (1 - H_{0})}{n} + \frac{H_{1} (1 - H_{1})}{r n}}$ После преобразований итоговая формула приобретает следующий вид:

$n = \frac{{(Z_{1 - α} + Z_{1 - β})}^{2} \times (H_{0} (1 - H_{0}) + \frac{1}{r} H_{1} (1 - H_{1}))}{(H_{1} - H_{0})^{2}}$

2. Соотношение разделения A/B (сплит)

Сплит указывает на долю пользователей контрольной группы в общей выборке. Значение по умолчанию — 50%, что означает распределение пользователей между тестовой и контрольной группами в пропорции 50%/50%. Обычно A/B-тесты следуют такому принципу, но это соотношение можно изменить в зависимости от специфики исследования.

3. Дисперсия тестовой группы ( $σ_{1}^{2}$ )

Как правило, дисперсия тестовой группы превышает дисперсию контрольной группы так как тестируемая гипотеза добавляет неопределенности в поведение пользователей сервиса. Калькулятор позволяет настраивать дисперсию тестовой группы для имитации такого эффекта.

4. Интервал гистограммы

Определяет исключительно визуальную характеристику итоговой гистограммы эксперимента.

5. Реальный эффект — Lift

Реальный эффект — это фактическая разница средних контрольной и тестовой групп, полученная в результате симуляции.

6. Количество примеров

Для оценки статистической значимости и мощности теста используется техника семплирования из выборки, далее производится расчет разности средних и сравнение с критическим значением, связанным с MDE

Внимание

Увеличение количества примеров может существенно снизить скорость расчетов. Используйте данную настройку в самую последнюю очередь, когда остальные параметры определены.

Ключевые статистики эксперимента

Калькулятор делает оценку количества наблюдений в тестовой группе, необходимого для минимально детектируемого эффекта.
Рассчитываются показатели фактической значимости и мощности индивидуальных наблюдений для синтетических данных.
Делается Z-тест на разницу средних контрольной и тестовой групп. Тест помогает выявить статистическую значимость различий между контрольной и тестовой группами.
Делается TOST — тест на эквивалентность контрольной и тестовой групп. Тест помогает определить существенность различий между контрольной и тестовой группами.