A / B Testi: Testinizə başlamazdan əvvəl nümunə ölçüsünü necə hesablamaq olar

Tutaq ki, bir həftədir A / B testini keçirtmisiniz və hər gün işgüzar tərəflər tərəfindən soruşulur: “Testi nə vaxta qədər planlaşdırırıq? Hələ bir əhəmiyyətimiz varmı? ”. Bu qeyri-adi bir vəziyyət deyil. Əslində bütün məhsul menecerləri bu məsələyə qoşulurlar. Bir çox dəfə testi nə qədər davam etdirəcəyimiz barədə heç bir məlumatımız yoxdur, buna görə nəticələrə əhəmiyyət verən bir ümidlə baxırıq. Bir sınaq keçirirsinizsə, ancaq yüksəlməyini gözləmirsinizsə, problem estetik səbəblərə görə və ya gəlirin alt-üst olması ilə əlaqəli ola bilər. Nə qədər çalışmalısan? Çətin deyil?

Nə qədər nümunə toplayacağımızı bilmədən heç vaxt ideal bir sınaq başlamamalıyıq. Niyə? Əks təqdirdə, məlumatlara baxacaqsınız və əhəmiyyəti əldə etdikdən sonra testi dayandıran "Məlumat Peeking" i başa vuracaqsınız. Budur bir misal - Fikirləşirsən ki, sikkən var və fərziyyən ədalətli olur. Bunu necə sübut edirsiniz? Sadə - 100 dəfə silkələyin. Ancaq 10 dəfə atıb quyruqlarını 10 dəfə görsən nə edərsən. Bu anda sınağı dayandırmaq və Null fərziyyəsini rədd etmək - sikkənin ədalətli olması statistik cəhətdən əhəmiyyətli görünür. Nə səhv oldu? Testi biraz tez dayandırdın. Testi nə qədər davam etməli olduğundan başlamaq fikriniz yox idi. Nümunə ölçüsünü hesablamamış olsanız, digər problemi, testi nə qədər davam etdirəcəyinizi inamla söyləmək iqtidarındadır.

Bəs buna necə yanaşırıq?

Məhsul idarəçiliyinin ilk qaydasına riayət edin - Qeyri-müəyyənliyi özündə cəmləşdirin, lakin qeyri-müəyyənlikdən qaçın.

Nümunə ölçüsünü hesablamağa necə yanaşacağımız belədir: A / B testi keçirdiyimizi düşünək: E-poçt üçün qeydiyyatdan keçən istifadəçilərin% kimi bir hadisə üçün cari dönüşüm nisbətimiz 10% -dir və biz 10% yüksəliş gözləyirik. müalicə qalib gəlsə dönüşüm. Sonra,

Əsas dönüşüm: P1 = 20%

Dönüşümdə yüksəlmə: 10% (Dəyişmənin gözlənilən təsiri kimi qiymətləndirdiyiniz budur). Böyümə komandasının bir hissəsi olaraq, ümumiyyətlə 20% yüksəltməyi hədəfləyirik, lakin məhsulunuzun necə olgunlaşdığına görə hətta 10% böyük ola bilər. Əhəmiyyətə nə qədər tez çatsan, o qədər yüksək olar.

Müalicə qrupunun gözlənilən çevrilməsi: P2 = 20% * (1 + 10%) = 22%

Əhəmiyyət dərəcəsi: Bu saxta müsbət bir şansdır, yəni 5% əhəmiyyəti səviyyəsindədir, həqiqətdə olduqda (heç bilmədiyiniz) null hipotezanı rədd edəcəyimiz şansdır. Əlbəttə ki, bu səhvi minimuma endirmək istəyirik ki, 5% seçək. Trafikiniz azdırsa, bunu 10% və ya 20% artırmaq istəyə bilərsiniz.

Yalançı müsbət: I tip səhv - Doğru olduqda boş fərziyyəni rədd etmək

Statistik gücü: Bu, yalan bir mənfi alacağınız ehtimalıdır. Piy! Güc (= 1 - Tip II Xətalı) Tip II səhvindən qaçınma ehtimalı və ya başqa sözlə Güc, belə bir sapma olduğu təqdirdə testin null hipotezdən bir sapma aşkar edəcəyi ehtimalıdır. Tipik olaraq bunu 80% -ə təyin edirik.

Yalan mənfi: II tip səhv - yalnış olduqda null fərziyyəni rədd etmək

İndi həqiqətən irəli gedə biləcəyimiz və lazım olan nümunə ölçüsünü hesablaya biləcəyimiz hər şey var. Onlayn bir kalkulyator, G elektrik qurğusu və ya R istifadə edə bilərik. Hansı alətdən istifadə etdiyinizə görə bir az fərqli nömrələr görünə bilər, amma bu yaxşıdır.

Gəlin bunların hər birini bir-bir görək:

a) Buradakı bu kimi onlayn kalkulyator

b) G * Elektrik alətindən istifadə edin: Aləti buradan yükləyin. Test ailəsinə 'Z testləri', Statistik testlərə 'nisbətlər: İki müstəqil nisbət arasındakı fərq' olaraq daxil olun və P1, P2, Alpha (Statistik əhəmiyyət), Güc = 0.8 əlavə edin.

Gözlənilən nəticə:

c) R: İstifadə edəcəyimiz funksiya power.prop.testdir (man səhifə).

power.prop.

Bu kimi hər hansı bir onlayn R tərtibatçısına gedin və aşağıdakı əmri n ilə NULL ilə yazın.

güc.prop.test (n = NULL, p1 = 0.2, p2 = 0.22, güc = 0.8, alternativ = 'iki tərəfli', sig.level = 0.05)

Bu R-də əldə edəcəyiniz nəticədir

Nisbətlərin güc hesablanması ilə iki nümunə müqayisə 
             n = 6509.467 p1 = 0.2 p2 = 0.22 sig.level = 0.05 güc = 0.8 alternativ = iki tərəfli
DİQQƏT: n hər bir * qrupdakı nömrədir

Bu o deməkdir ki, hər qrupda təxminən 6510 nümunə lazımdır. Bu da 13020 trafikə ehtiyac duyacağımız deməkdir.

İndi veb saytınızın trafikinin 2000 ziyarətçi olduğunu tarixən bilirsinizsə, o zaman hipotez testinizi 6.51 gün və ya 7 gün davam etdirməyinizi bilirsiniz.

Bonus nöqtəsi: Həmişə həftənin bütün günlərini əhatə etmək yaxşı bir fikirdir, çünki əksər müəssisələrin tələbat modellərində 'həftəliklik' var.

Növbəti dəfə A / B testini keçirməyə hazırlaşdığınız zaman, lazımi nümunə ölçüsünü əvvəlcədən hesablayın ki, iş maraq dairələrinizlə düzgün gözləntilərinizi təyin edə biləsiniz.

Nümunə ölçüsünüzün veb saytınızdakı trafiki nəzərə alaraq əhəmiyyəti əldə edəcəyinizi düşünməyəcəyinizi düşünməmisinizsə, narahat olmayın, başqa bir yazıda A / B-nin necə işlədiləcəyi ilə bağlı xoş tövsiyələr paylaşacağam. kifayət qədər trafik olmadıqda test edin. Buna qədər xoşbəxt A / B testi.