A/B testi, dijital pazarlamanın en güçlü silahıdır. Doğru uygulandığında bir butonun rengini değiştirmek bile dönüşüm oranını %30 artırabilir. Yanlış uygulandığında ise sizi tamamen yanlış yönlendirebilir. Bu rehberde A/B testinin bilimsel temellerini, doğru test tasarımını ve yaygın hatalardan kaçınma yollarını detaylıca ele alacağız.
A/B Testi Nedir ve Neden Yapmalısınız?
A/B testi (split test), bir web sayfasının, e-postanın veya reklamın iki farklı versiyonunu eş zamanlı olarak farklı kullanıcı gruplarına göstererek hangisinin daha iyi performans gösterdiğini ölçme yöntemidir.
Neden tahmin yerine test etmelisiniz?
HiPPO (Highest Paid Person's Opinion — En yüksek maaşlı kişinin görüşü) karar verme modeli, şirketlerde çok yaygındır. Ancak araştırmalar gösteriyor ki uzmanların tahminleri bile sadece %50-60 oranında doğru çıkıyor. A/B testi ise size kesin veri sunar.
Google yılda 10.000'den fazla A/B testi çalıştırıyor. Amazon'un gelirinin önemli bir kısmı A/B testleriyle optimize edilmiş sayfalardan geliyor. Booking.com ise aynı anda yüzlerce A/B testi yürütüyor.
A/B Testinin Temel Kavramları
- Kontrol grubu (A): Mevcut versiyon, değişiklik yapılmamış hali
- Varyant (B): Test edilen yeni versiyon
- Dönüşüm oranı: Hedef aksiyonu gerçekleştiren kullanıcı yüzdesi
- İstatistiksel anlamlılık: Sonuçların rastlantısal olmadığına dair güven seviyesi
- Güven aralığı: Gerçek değerin düşeceği tahmini aralık
Test Tasarımının Temelleri
Başarılı bir A/B testi, iyi bir hipotezle başlar.
Hipotez Oluşturma
Güçlü bir A/B test hipotezi şu yapıda olmalıdır:
"[Değişiklik] yapılırsa, [metrik] [yönde] değişecektir, çünkü [sebep]."
Örnekler:
- "CTA butonunun rengini kırmızıdan yeşile değiştirirsek, tıklama oranı artacaktır, çünkü yeşil renk olumlu bir aksiyon çağrışımı yapar."
- "Ürün sayfasına müşteri yorumları eklersek, sepete ekleme oranı artacaktır, çünkü sosyal kanıt güven oluşturur."
- "Form alanı sayısını 8'den 4'e düşürürsek, form tamamlama oranı artacaktır, çünkü sürtünme azalır."
Tek Değişkenli vs. Çok Değişkenli Test
| Test Türü | Açıklama | Ne Zaman Kullanılır |
|---|---|---|
| A/B Test | Tek bir değişken test edilir | Düşük trafikli siteler, net hipotezler |
| A/B/n Test | Aynı değişkenin 3+ varyantı | Birden fazla alternatif varsa |
| Multivariate Test (MVT) | Birden fazla değişken aynı anda | Yüksek trafikli siteler, etkileşim analizi |
Tavsiye: Düşük ve orta trafikli sitelerde (aylık 50.000'den az ziyaretçi) klasik A/B testiyle başlayın. Multivariate test çok daha büyük örneklem gerektirir.
İstatistiksel Anlamlılık: Bilimsel Temeller
İstatistiksel anlamlılık, A/B testlerinin kalbinde yer alan en kritik kavramdır. Testin sonucuna gerçekten güvenip güvenemeyeceğinizi belirler.
p-Değeri Nedir?
p-değeri, gözlemlediğiniz farkın tamamen rastlantısal olma olasılığıdır. Standart eşik p < 0.05 olarak kabul edilir. Bu, sonuçların rastlantısal olma olasılığının %5'ten az olduğu anlamına gelir.
Pratik yorum:
- p = 0.01 → %99 güvenle sonuç anlamlı
- p = 0.05 → %95 güvenle sonuç anlamlı
- p = 0.10 → Yeterli güven yok, test devam etmeli
- p = 0.50 → Fark tamamen rastlantısal
Tip I ve Tip II Hatalar
| Hata Türü | Tanım | Sonuç | Nasıl Önlenir |
|---|---|---|---|
| Tip I (Yanlış Pozitif) | Fark yokken var sanmak | Etkisiz değişikliği uygulamak | Anlamlılık seviyesini %95 tutun |
| Tip II (Yanlış Negatif) | Fark varken yok sanmak | Etkili değişikliği kaçırmak | Yeterli örneklem büyüklüğü sağlayın |
Sample Size (Örneklem Büyüklüğü) Hesaplama
Testin ne kadar süreceğini belirleyen en önemli faktör örneklem büyüklüğüdür. Hesaplama için şu parametreler gerekir:
- Mevcut dönüşüm oranı (Baseline): Kontrol grubunun mevcut dönüşüm oranı
- Minimum Algılanabilir Etki (MDE): Tespit etmek istediğiniz minimum fark yüzdesi
- İstatistiksel güç (Power): Genellikle %80 (Tip II hatayı önlemek için)
- Anlamlılık seviyesi (Significance): Genellikle %95
Örnek hesaplama:
- Mevcut dönüşüm oranı: %3
- MDE: %20 (yani %3'ten %3.6'ya artış)
- Güç: %80
- Anlamlılık: %95
Bu parametrelerle her bir grup için yaklaşık 22.000 ziyaretçi gerekir. Toplamda 44.000 ziyaretçi. Günlük 1.000 ziyaretçiniz varsa test yaklaşık 44 gün sürecektir.
Bayesian vs. Frequentist Yaklaşım
Geleneksel A/B testleri frequentist istatistik kullanır. Ancak son yıllarda Bayesian yaklaşım da popülerleşmiştir:
Frequentist: "Bu fark rastlantısal mı?" sorusunu cevaplar. Sabit örneklem büyüklüğü gerektirir. Google Optimize (artık kullanılmıyor) bu yöntemi kullanıyordu.
Bayesian: "B'nin A'dan daha iyi olma olasılığı nedir?" sorusunu cevaplar. Daha esnek, erken durdurma yapılabilir. VWO ve bazı modern araçlar bu yöntemi kullanır.
A/B Test Araçları
| Araç | Fiyat | Özellik |
|---|---|---|
| Google Optimize (kapatıldı) | - | Artık kullanılamıyor |
| VWO | $199+/ay | Tam kapsamlı, Bayesian |
| Optimizely | Kurumsal | Enterprise seviye |
| AB Tasty | $500+/ay | Kişiselleştirme dahil |
| PostHog | Açık kaynak | Self-hosted, ücretsiz başlangıç |
| Growthbook | Açık kaynak | Bayesian, feature flags |
Bütçe dostu alternatif: PostHog veya Growthbook ile başlayabilirsiniz. Her ikisi de açık kaynaklıdır ve self-hosted kurulabilir.
Yaygın Hatalar ve Çözümleri
1. Testi Erken Durdurmak
En yaygın hata. İlk birkaç günde iyi sonuçlar görünce testi durdurmak, yanıltıcı sonuçlara yol açar. Çünkü başlangıçtaki veriler volatildir.
Çözüm: Testi önceden belirlenen örneklem büyüklüğüne ulaşana kadar çalıştırın. Minimum 2 tam hafta (hafta içi ve hafta sonu davranış farklarını yakalamak için).
2. Aynı Anda Çok Fazla Test Çalıştırmak
Çakışan testler birbirlerinin sonuçlarını kirletir. Kullanıcı A testi ve B testi aynı anda görüyorsa, hangi değişikliğin etkili olduğunu bilemezsiniz.
Çözüm: Testlerinizi öncelik sırasına koyun. Aynı sayfada aynı anda en fazla bir test çalıştırın. Farklı sayfalardaki testler genellikle sorun oluşturmaz.
3. Yanlış Metrik Seçimi
Mikro dönüşümü (buton tıklama) optimize ederken makro dönüşümü (satın alma) gözden kaçırmak.
Çözüm: Birincil metrik olarak iş sonucuna en yakın metriği seçin. İkincil metriklerle destekleyin.
4. Segmentasyon Yapmamak
Genel sonuç anlamsız olabilir, ama belirli segmentlerde anlamlı farklar olabilir. Masaüstü kullanıcılarda B daha iyi, mobilde A daha iyi olabilir.
Çözüm: Test sonuçlarını cihaz, trafik kaynağı, yeni/geri dönen kullanıcı gibi segmentlerde de analiz edin.
5. Novelty Effect'i (Yenilik Etkisi) Göz Ardı Etmek
Yeni bir tasarım, sadece yeni olduğu için kısa vadede daha iyi performans gösterebilir. Kullanıcılar alışınca fark kapanır.
Çözüm: Testi en az 3-4 hafta çalıştırın. Sonuçları haftalık bazda analiz ederek trendin sabit olduğunu doğrulayın.
Pratik Test Fikirleri
Nereden başlayacağınızı bilmiyorsanız, işte yüksek etki potansiyeli olan test alanları:
- CTA butonları: Metin, renk, boyut, pozisyon
- Başlıklar: Ana sayfa ve landing page başlıkları
- Form alanları: Alan sayısını azaltma, otomatik doldurma
- Fiyat sunumu: Yıllık vs. aylık, indirim gösterimi
- Sosyal kanıt: Müşteri yorumları, güven rozetleri
- Sayfa düzeni: Tek sütun vs. çift sütun, bilgi hiyerarşisi
Sonuç: Test Kültürü Oluşturun
A/B testi tek seferlik bir aktivite değil, sürekli bir süreçtir. Başarılı şirketler, organizasyon genelinde bir test kültürü oluşturur. Her pazarlama kararı, test edilebilir bir hipotezle başlar.
Maviona olarak müşterilerimize CRO (Dönüşüm Oranı Optimizasyonu) hizmetimiz kapsamında A/B test stratejisi oluşturma, test tasarımı ve analiz desteği sunuyoruz. Sitenizin dönüşüm oranını veriye dayalı testlerle artırmak için iletişime geçin.
