Her çocuk doğuştan meraklıdır. Etrafında olan biten her şey hakkında sorular sorar. Merakla başlayan sorular bir sonraki adımda bazı hipotezlere dönüşür. Çocuklar öğrenebilmek için veri toplar. Topladıkları verilerin sonucunda da bir şeyleri yapmaya ya da yapmamaya karar verirler.

Çocukların öğrenme süreci ile şirketlerin öğrenme süreci benzerlikler gösterir. Bir şirket, yeni çıkaracağı ürünün, yatırım yapacağı bir alanın, satın alacağı bir kaynağın mevcut olandan daha iyi olup olmayacağını merak eder. Aynı çocuklar gibi şirketler de cevabını merak ettiği sorularını hipotezlere dönüştürür, veri toplar ve analizlerinin sonuçlarına göre karar alırlar.

Hipotez testi, veri setinde keşfedilen bulguların kesinliğini doğrulamak için kullanılan önemli bir araçtır. Hipotez testinin amacı, veride görülen bir etkinin şans ile oluşup oluşmadığını cevaplamaktır.

Hipotez nedir?

Hipotez, popülasyon hakkında yapılan bir varsayımdır. Varsayım belirlendikten sonra araştırmacı/veri analisti/veri bilimci veri toplayarak bu varsayımın doğru olduğuna hükmedecek yeterli kanıt olup olmadığına karar verir.

Hipotez, bir diğer deyişle sınırlı miktardaki kanıttan oluşturulan bir fikirdir. Bu fikir, gelecekteki araştırmalar için başlangıç noktası görevini görür. Bir hipotez, araştırmanızın ne bulacağına ilişkin tahminlerinizi belirtir. Henüz test edilmemiş araştırma sorunuza geçici bir cevaptır.

Hipotez oluşturulurken tahminlere değil, mevcut teori ve bilgilere dayanmalı, bilimsel araştırma yöntemleriyle (deneyler, gözlemler ve verilerin istatistiksel analizi gibi) desteklenebilir veya çürütülebilir olmalıdır.

Hipotezde bulunan değişkenler

Bir hipotez, iki veya daha fazla değişken arasında bir ilişki sunar. Değişkenler de bağımsız ve bağımlı değişkenler olarak ikiye ayrılır.

  • Bağımsız değişkenler araştırmacı tarafından kontrol edilip, değiştirilebilen ve bağımlı değişken üzerinde etkisi olduğu varsayılan değişkenlerdir. Bağımsız değişken, bir deneyde değiştirdiğiniz koşuldur.
  • Bağımlı değişkenler ise araştırmacının/analistin/veri bilimcinin gözlemlediği ve ölçtüğü bir değişkendir.

Örnek:

  • Bir araştırmada uyku süresinin, öğrencinin sınav notlarına etkisi araştırılıyor. Bu araştırmada uyku süresi değiştirilen bir koşul olduğu için bağımsız değişken iken, sınav notu araştırma kapsamında ölçümlenen bağımlı değişkendir.
  • Hangi kağıt havlu markasının daha çok suyu tuttuğu karşılaştırılıyor. Bu çalışmada, kağıt havlu markası bağımsız değişken, tutulan su miktarı ise bağımlı değişkendir.
  • Yapılan bir çalışmada insülin seviyesine etki eden yeni bir ilaç araştırılıyor. Araştırmadaki ilaç bağımsız değişken iken insülin seviyesi bağımlı değişken olarak konumlanıyor.

Hipotez testi nedir?

Hipotez testi, popülasyon hakkında birbirine zıt/karşıt iki farklı önermenin değerlendirilerek hangi ifadenin örneklem verisi ile desteklendiğinin belirlendiği istatistiksel bir yöntemdir. Hipotez testi ile örneklem verisi kullanarak oluşturduğumuz bir çıkarım hakkında ne kadar emin olduğumuzu belirleriz.

“İki olası sonuç vardır: sonuç hipotezi onaylarsa o zaman bir ölçüm yaptınız demektir. Sonuç hipoteze aykırı ise bir keşif yaptınız demektir.

Enrıco fermı

İstatistiksel çıkarımlar yapmak için zaman, para, insan gücü gibi kaynakları olabildiğince verimli kullanmak adına tüm popülasyondan (evrenden) veri toplamak yerine, bu popülasyonu en iyi temsil eden ve örneklem adını verdiğimiz küçük bir gruptan veri toplarız.

Popülasyonun karakteristiklerini temsil eden ortalama (μ), varyans (σ²), standart sapma (σ) gibi metriklere parametre adı verilir. Bu değerler örneklemden elde edildiği zaman “istatistik” olarak adlandırılır ve farklı şekilde isimlendirilir. (Örneklem ortalaması (x̄), örneklem varyansı (S²), örneklem standart sapması (S))

Hipotez testi ile örneklemden hesaplanan istatistikleri kullanarak popülasyonu temsil eden bir parametre hakkında çıkarımlarda bulunabiliriz.

Hipotez testinin varsayımları nelerdir?

İstatistiksel hipotez testlerinin uygulanabilmesi için verinin bazı genel varsayımları sağlaması gerekmektedir. Varsayımların sağlanmadığı durumlarda hipotez testlerinin sonuçları güvenilir olmayacaktır. Bazı hipotez testleri özel varsayımlara sahip olsa da genel olarak tüm hipotez testlerinin 3 ana koşulu sağlanması istenir:

  1. Örneklemi oluşturan gözlemler bağımsız olmalıdır.

Tüm hipotez testleri, örneklemi oluşturan gözlemlerin “rastgele” bir biçimde/rastgele örnekleme yöntemlerini kullanarak oluşturulmasını yani birbirinden bağımsız olmasını talep eder.

  1. Gruplar arasındaki varyans homojen yani eşit veya birbirine yakın olmalıdır. (Homogeneity of variance)

Analiz için birden fazla grubun/örneklemin kullanılacağı durumlarda grupların varyanslarının birbirine eşit veya yakın olması gerekir.

  1. Veri normal dağılıma sahip olmalıdır.

Verinin normal dağılıma sahip olması önemlidir. Bu şartın sağlanamadığı durumlarda non-parametrik hipotez testleri kullanılabilir.

Hipotez testi türleri nelerdir?

Hipotez testleri varsayımlarına veya karşılaştırılacak örneklem grubu sayısına göre farklı kategorilere ayrılır.

Veri hakkındaki varsayımlarına göre:

  1. Parametrik hipotez testleri: Örneklem verisinin normal dağıldığı varsayımı ile çalışan hipotez testleridir.
  2. Non-parametrik hipotez testleri: Örneklem verisi ile ilgili herhangi bir varsayımda bulunmayan hipotez testleridir.

Karşılaştırılacak örneklem grubu sayısına göre:

  • Tek örneklem hipotez testi: Tek örneklem hipotez testinde tek bir örneklem grubu vardır ve bu gruptan elde edilen istatistik ile sabit bir değer karşılaştırılır.
  • Çift örneklem hipotez testi: Çift örneklem hipotez testlerinde iki veya daha fazla örneklem grubu vardır ve gruplar birbirleriyle karşılaştırılır.

Varsayımlarına göre hipotez testleri

1. Parametrik hipotez testi

Örneklem verisinin normal dağıldığı varsayımı ile çalışan testlere parameterik hipotez testleri denir. Parametrik hipotez testleri üç ana kategoriye ayrılır:

1.1 Regresyon testleri

Bir veya birden fazla bağımsız sürekli değişkenin değişiminin, bağımlı bir değişken üzerindeki etkisini ölçmek için kullanılır. Değişkenler arasında gerçekleşen ilişkinin nedenselliği ölçmek için kullanılır.

  • Basit Lineer Regresyon: Bir bağımsız değişkenin bağımlı bir değişken üzerinde yaptığı etkiyi ölçmek için kullanılır.
  • Çoklu Regresyon: İki veya daha fazla bağımsız değişkenin tek tek veya birleşik olarak bağımsız değişken üzerindeki etkisini ölçmek için kullanılır.
  • Lojistik Regresyon: İkili (Binary) veri tipine sahip bir değişken ile diğer değişkenler arasındaki ilişkiyi açıklamak için kullanılır.
1.2 Karşılaştırma testleri

Karşılaştırma testleri iki veya daha fazla örneklemin ortalamaları arasındaki farkın karşılaştırılması için kullanılır.

  • Bağımsız örnekleme t testi: Kadınlar ve erkekler gibi iki grubun ortalamalarının karşılaştırılması için kullanılır.
  • ANOVA ve MANOVA: İkiden fazla örneklemin/grubun ortalamalarının karşılaştırılması için kullanılır.
1.3 Korelasyon testleri

Korelasyon testleri iki değişken arasında bir ilişki olup olmadığını analiz etmek için kullanılır.

  • Pearson Korelasyon Analizi: İki sürekli değişken arasındaki ilişkiyi analiz etmek için kullanılır.
  • Spearman Korelasyon Analizi: İki sıralı değişken arasındaki ilişkiyi analiz etmek için kullanılır.
  • Ki-kare Testi: İki kategorik değişken arasındaki ilişkiyi analiz etmek için kullanılır.

2. Non-parametrik testler

Gerçek dünyadaki birçok veri seti normal dağılıma sahip değildir. Normal dağılıma sahip olmayan değişkenler için hipotez testi uygulayabilmek adına non-parametrik hipotez testleri kullanılır. Neredeyse tüm parametrik testlerin bir non-parametrik karşılığı vardır.

Parametrik hipotez testiNon-parametrik hipotez testi
Tek örneklem t-testiTek örneklem Wilcoxon testi
Bağımsız örneklem t-testiMann-Whitney testi
Pearson korelasyon analiziSpearman korelasyon analizi

Non-parametrik testler aşağıdaki durumlarda kullanılabilir:

  1. Veri normal dağılıma sahip değildir.
  2. Veri sıralı (ordinal & ranked) değişkendir.
  3. Veride aykırı değerler vardır. Non-parametrik testler ölçü olarak ortalama yerine medyanı kullandığı için aykırı değerlere karşı güçlüdür.
  4. Örneklem büyüklüğünün az olduğu durumlarda da güvenilir sonuçlar üretir.

Veriye uygun hipotez testi nasıl seçilir?

Hipotez testinin sonucunu ve başarısını etkileyen faktörlerden bir tanesi de veriye uygun hipotez testinin seçilmesidir. Veriye uygun hipotez testi seçilmediği durumda, test sonuçları yanlış çıkarımlara sebep olabilir.

Hipotez testi seçerken aşağıdaki sorulara yanıt verilmelidir:

  1. Analiz edilecek veri normal dağılıma sahip midir?
  2. Analize dahil olacak kaç adet grup/örneklem vardır?
  3. Hipotez testi ile ne amaçlanıyor? (Karşılaştırma, Korelasyon veya Regresyon)

Bu soruların yanıtlarına göre eldeki uygun hipotez testi sayısı azalacak ve uygun seçenek bulması kolaylaşacaktır. Karar sürecinde destek olması adına aşağıdaki grafikten yararlanabilirsiniz:

Veriye uygun hipotez testi nasıl seçilir?

Hipotez testinin adımları nelerdir?

Tüm hipotez testleri aşağıdaki adımlardan oluşur:

1. Araştırma sorusunu oluştur.

Hipotez geliştirmek için ilk olarak araştırma kapsamında cevap aranan araştırma sorusunun oluşturulması gerekir. Bu soru araştırma konusuyla ilgili, spesifik ve araştırılabilir olmalıdır. Araştırmanın büyüklüğüne göre birden fazla araştırma sorusu oluşturabilirsiniz. Araştırmanın tüm amacı sorulan soru(lara) yanıt bulmaktır.

Örnek: Şirketiniz yeni bir marka sloganı üzerinde çalışıyor ve bu marka sloganının markanın bilinirliğini artıracağını düşünüyor. Şirketin analisti olarak bu konuyu test edeceksiniz. Araştırma sorunuz şu olabilir:

  • Yeni marka sloganının (bağımsız değişken) marka bilinirliği (bağımlı değişken) üzerinde etkisi var mıdır?

Örnek: Bir okulda, öğrencilerin devamsızlık durumlarıyla ilgili yönetimin endişeleri bulunuyor. Okula devam durumunun öğrencilerinin notları üzerinde etkisi olduğu düşünülüyor. Bu araştırma için araştırma sorusu:

  • Öğrencilerin okula gelmediği gün sayısının (bağımsız değişken) sınav notları (bağımlı değişken) üzerinde bir etkisi var mıdır?

Örnek: Bir araştırma şirketi havayollarının rötar sürelerini araştırıyor. Düşük maliyetli havayolu (Low-cost airlines) şirketlerinin daha fazla gecikme sorunu yaşattığından şüpheleniyorlar. Bu araştırma için araştırma sorusu:

  • Bilet fiyatları (bağımsız değişken) ile rötar miktarı (bağımlı değişken) arasında bir ilişki var mıdır?

2. Hipotezleri belirle.

Araştırma sorusu belirlendikten sonra, bu soru hipoteze dönüştürülmelidir.

Hipotez testinde, birbirine karşıt iki adet hipotez bulunur. Bunlara sıfır hipotezi (H0) ve alternatif hipotez (Ha veya H1) adı verilir.

Sıfır hipotezi (H0)

Sıfır hipotezi, başlangıç noktasını yani test edilecek noktayı temsil eder. Bu hipotez, herhangi bir etki veya fark olmadığını iddaa eder. Veri toplanarak aksi kanıtlanmadığı sürece başlangıçta doğru olarak kabul edilir.

Sıfır hipotezi, herhangi bir test veya veri olmadığı zaman kabul ettiğimiz varsayılan durumu temsil eder. Yeni bir ilacın daha etkili olup olmadığını test ettiğimiz durumda, varsayılan davranış hali hazırdaki çözümün varsayılan ilaçla en azından aynı veya daha iyi sonuçlar ürettiğini kabul etmektir. Aksini kanıtlamadan tedavi yöntemini değiştirmek hayati açıdan çok riskli veya eğer etkisiz bir çözüm ise maliyetli olacaktır.

Sıfır hipotezi, herhangi bir veri veya test olmadan önce varsayılan durumu yansıtır.

Test sonuçlarını yorumlarken, literatürde sıfır hipotezinin kabul edilmesi söz konusu değildir. Sıfır hipotezi red edilir veya red edilmek için yeterli kanıt bulunamaz.

Alternatif hipotez (Ha veya H1)

Sıfır hipotezinin tersidir. Veri toplanarak doğruluğu kanıtlanmak istenen durumu temsil eder.

Sıfır hipotezi ve alternatif hipotez arasındaki ilişkiyi bir suç örneği üzerinden inceleyelim:

Bir bankanın soyguna uğradığını ve sonunda bir kişinin şüpheli olarak yakalandığını varsayalım. Şüpheli, başlangıçta “masum” olarak kabul edilir. Yani, ispat edilene kadar tüm şüpheliler suçsuzdur. Bu, sıfır hipotezini oluşturur.

Yargıç, şüphelinin suçlu olduğuna karar vermek için “kanıta” ihtiyaç duyar. Eğer, yeterli kanıt bulunamazsa sıfır hipotezi red edilemez. Yeterli kanıt bulunması durumunda ise sıfır hipotezi red edilir yani şüphelinin suçsuz olduğunu söyleyemeyiz.

Bu adımda, yukarıda oluşturduğumuz araştırma sorularını hipotezlere dönüştüreceğiz.

Örnek: Yeni marka sloganının marka bilinirliği üzerinde etkisi var mıdır?

  • H0: Marka sloganının marka bilinirliği üzerinde etkisi yoktur.
  • Ha: Marka sloganının marka bilinirliği üzerinde etkisi vardır.

Örnek: Öğrencilerin okula gelmediği gün sayısının sınav notları üzerinde bir etkisi var mıdır?

  • H0: Öğrencilerin eksik günlerinin sınav notları üzerinde etkisi yoktur.
  • Ha: Öğrencilerin eksik günlerinin sınav notları üzerinde etkisi vardır.

Örnek: Bilet fiyatları ile rötar miktarı arasında bir ilişki var mıdır?

  • H0: Rötar miktarının bilet fiyatları üzerinde etkisi yoktur.
  • Ha: Rötar miktarının bilet fiyatları üzerinde etkisi vardır.

3. Testin kuyruklarını belirle.

Hipotez testinin amacı, bir iddanın doğru olup olmadığına karar vermektir. Alternatif hipotez, yani test etmek istediğimiz hipotez, testin tek kuyruk (one-tailed) veya çift kuyruk (two-tailed) hipotez testi olacağını belirler.

Daha fazla detaya inmeden önce, “kuyruk” ile ne ifade ettiğimizi açıklayalım.

Test istatistiğinin dağılımının uçlarına kuyruk (tails) adı verilir.

Test istatistiğinin dağılımı, şekline bağlı olarak tek veya çift kuyruklu olabilir. Örnek olarak, t-testinin istatistiği olan t-skoru çift kuyruklu simetrik bir görüntüsü olan t dağılımını kullanırken, ANOVA testi tek kuyruklu olan F dağılımını kullanır.

Yukarıdaki grafikte de gördüğümüz üzere F dağılımı, ki-kare dağılımı gibi bazı dağılımlar şekli gereği zorunlu olarak tek kuyruk iken, z-dağılımı ve t-dağılımı ise simetrik bir şekle sahip olduğu için çift kuyruğa sahiptir. Yani, z testi veya t testi ile hipotez testi yaparken sadece tek bir kuyruğa odaklanabileceğimiz gibi, her iki kuyruğu da kullanabiliriz.

Örneklem verisini kullanarak hesapladığımı t-skorunun, H0 hipotezini reddetmeye yeterli kanıt sağlayıp sağlamadığına karar verebilmek için kriterleri oluşturacaktır. Bu nedenle, hipotez testinin yönü testin sonucunu etkiler.

Tek kuyruk:

Tek kuyruk hipotez testi, test edilecek örneklem istatistiğinin (örneklem ortalaması, örneklem varyansı vs.), diğer bir değerden sadece büyük veya sadece küçük olduğuna karar vermek için kullanılır. Test uygulanmadan önce bu iki yönden biri mutlaka seçilmelidir. Kısaca, tek kuyruk hipotez testi ile etkinin istenilen yönde olup olmadığını öğrenebiliriz.

Tek Kuyruk Hipotez Testleri

Bir ampül üreticisi, ürettiği enerji tasarruflu bir ampulün ortalama ömrünün 60 günden az olup olmadığını test etmek istiyor. Tek kuyruk hipotez testi ile bu ampülün ortalama ömrünün 60 günden daha az olup olmadığını ölçebiliriz. Testin sonucunda da:

  1. Ampülün ömrünün 60 günden az olduğunu veya
  2. Ampülün ömründe bir fark göremediğimizi söyleyebiliriz.

H0: µ ≥ 60 (Ampülün ortalama ömrü 60 gün veya daha fazladır.)
Ha: µ < 60 (Ampülün ortalama ömrü 60 günden azdır.)

Ampülün ortalama ömrü 60 günden fazla olabilir. Fakat, bunu “ampülün ortalama ömrünün 60 günden az olduğunu” ölçen tek kuyruk hipotez testini kullanarak ölçemeyiz. Çünkü, sadece tek bir yönü seçmek zorundayız.

Yukarıda verdiğimiz örnek tam tersi durum için de geçerlidir. Eğer, tek kuyruk hipotez testinde yeni tedavi yönteminin varsayılandan daha kötü olup olmadığını test etseydik, daha iyi sonuç üretip üretmediğini bilemeyecektir.

Tek kuyruk hipotez testi, tek bir yöne doğru olan etkiyi ölçebildiğimiz için, test etmediğimiz yönde kalan etkinin önemsiz olduğu durumlarda kullanılmalıdır.

Çift kuyruk:

Çift kuyruk testi, test edilen iki grup arasında anlamlı bir fark olup olmadığını test etmek için kullanılır. Bu durumda, test edilen etkinin yönü değil, etki olup olmadığı önemlidir.

Çift Kuyruk Hipotez Testleri

Bir önceki bölümde verdiğimiz ortalama ampül örneğine geri dönelim. Aynı üretici firma, ürettiği ampüllerin ortalama ömrünün 60 gün olduğu iddasında bulunuyor. Bu sefer hipotezler şöyle olacaktır:

H0: µ = 60 (Ampülün ortalama ömrü 60 gündür.)
Ha: µ ≠ 60 (Ampülün ortalama ömrü 60 günden farklıdır.)

Ampülün ortalama ömrünün 60 günden az veya fazla olması bu test için önemli değildir. Burada test edilmek istenen asıl konu, ampülün ortalama ömrünün 60 günden farklı olup olmadığıdır. Eğer farklı ise; ampül üreticisi tüketiciyi yanıltacak, yanlış bir iddaa da bulunmaktadır.

4. Anlamlılık seviyesini (Significance level – α) ve güven düzeyini (Confidence level) belirle.

Hipotez testi, popülasyonu temsil ettiğine inanılan örneklemler ile çalışır. Yazının başında da bahsettiğimiz üzere, aynı popülasyondan çekilen örneklemler birbirinden farklılık gösterir. Aynı popülasyondan elde edilen farklı bir örneklem, farklı bir çıkarım yapılmasına neden olabilir. Bu nedenle, yaptığımız çıkarımlar hakkında 100% emin olamayız. Hipotez testlerinde 2 tip hata vardır:

  • Tip 1 Hata (Type I [α]): Sıfır hipotezinin doğru olmasına rağmen reddedilmesi.
  • Tip 2 Hata (Type II [β]): Sıfır hipotezinin yanlış olmasına rağmen kabul edilmesi.

Buradaki durumu, sıfır ve alternatif hipotezleri tanımlarken kullandığımız suç örneği üzerinden ilerletelim. Böylelikle anlaması daha da kolaylaşacaktır.

Mahkemenin bir cinayet vakasını aydınlatmaya çalıştığını varsayalım. Bu davada bir şüpheli var ve cinayeti işlemiş olma ihtimali var. Herhangi bir kanıt olmadan önceki hipotezler şu şekilde olacaktır:

  • H0: Şüpheli masumdur.
  • Ha: Şüpheli masum değildir.

Başlangıçta, her şüpheli suçu ispatlanana kadar masum kabul edilmektedir.

  • Şüpheli gerçekten masumsa ve yeterli kanıt bulamadığımız için H0 hipotezini reddedemezsek, doğru bir karar vermiş oluruz. Tam tersi durumda, yani şüphelinin masum olduğu fakat H0 hipotezini reddederek suçlu bulduğumuz durumda ise Tip I hata yapmış oluruz.
  • Şüpheli cinayeti işlediyse ve yeterli kanıt olduğu için H0 hipotezini reddedersek, yine doğru bir karar vermiş oluruz. Tam tersi durumda, yani cinayeti işlemesine rağmen H0 hipotezini reddedemezsek ve masum olarak kabul edersek Tip II hatayı yapmış oluruz.

Yukarıdaki açıklamayı, bu tablo ile özetleyebiliriz:

Gerçek DurumGerçek Durum
jüri kararıH0 Yanlış: Şüpheli cinayeti işledi.H0 Doğru: Şüpheli cinayeti işlemedi.
H0 red edilemedi. Şüpheli masumdur.Tip II HataDoğru karar
H0 red edildi. Şüpheli masum değildir.Doğru kararTip I Hata

Tip I ve Tip II hata

Tip I ve Tip II hatayı daha da iyi kavrayabilmek adına bir diğer örneğe göz atalım. Evimize bir yangın alarmı taktırdığımızı varsayalım. Bu durumda başlangıç aşamasında hipotezler şöyle olacaktır

  • H0: Evde yangın yoktur.
  • Ha: Evde yangın vardır.

Başlangıç durumunda evde yangın olmadığını varsayıyoruz. Eğer evde yangın yokken, yangın alarmı çalışırsa veya yangın varken yangın alarmı çalışırsa bir sorun yok. Çünkü her ikisi de doğru kararlar.

  • Eğer evde yangın yokken, yani sıfır hipotezi doğru iken, yangın alarmı çalışırsa Tip I Hata yapmış oluyoruz. Çünkü, bu durum Tip I hatanın tanımını oluşturuyor. Sıfır hipotezi doğru olmasına rağmen, reddettiğimiz durumda Tip I hata yapıyoruz.
  • Eğer evde yangın varken, sıfır hipotezini reddedip, yangın alarmını çalıştırmıyorsak bu sefer de Tip II hata yapmış oluyoruz.

Örneklemlerin doğası gereği birbirinden farklı olmaları nedeniyle hipotez testinde sonuçlardan 100% emin olmak mümkün değildir.

Anlamlılık düzeyi ve güven seviyesi

Tip I Hata, örneklem hatası (sample error) sebebiyle oluşur. Oluşan istatistiksel anlamlılık şans eseri oluşmuştur. Araştırma kapsamında her şey doğru yapılsa da Tip I hata görülebilir. Hangi araştırmanın Tip I hataya sahip olup olmadığı bilinemez fakat Tip I hatanın görülme sıklığı bilinebilir. Tip I hatanın görülme sıklığı alfa (α) ile temsil edilen anlamlılık düzeyine (significance level) eşittir. Anlamlılık düzeyi, Tip I hata yapma (yani sıfır hipotezi doğru olmasına rağmen reddetme) olasılığıdır.

Tip I hata kontrol edilebilirdir. Anlamlılık düzeyi, örneklemin sıfır hipotezini reddedecek kadar güçlü olup olmadığını belirlemek için belirlenen bir kanıt standardıdır. Hipotez testlerinde bu standart doğru olan bir sıfır hipotezini reddetme olasılığını kullanarak oluşturulur.

Araştırmalarda sıklıkla anlamlık düzeyi (α) 1%, 5% veya 10% olarak kullanılır. Anlamlılık seviyesinin 100%’den çıkarılması (1 – α) , güven seviyesini (confidence level) verir. Yani, anlamlılık düzeyinin 5% olarak kabul edildiği bir çalışmada güven seviyesi 95%‘dir. Güven seviyesi, araştırmanın binlerce kez tekrarlandığı durumda yüzde kaç olasılıkla elde edilen sonuçların aynı olacağını gösterir.

Mahkeme örneğine geri dönecek olursak vaka hakkında ortaya konulan her kanıt hakimi sanığın suçlu olduğuna ikna etmeye yetmeyecektir. Anlamlılık düzeyi ile sanığı suçlu bulmak adına gereken kanıt miktarının seviyesini ortaya koyarız. Eğer eldeki kanıtlar belirlediğimiz seviyeyi aşarsa, sanığı suçlu buluruz.

Tip I hata, Tip II hata ve testin gücü

Şöyle düşünüyor olabilirsiniz: Madem Tip I hata yapmak kötü ve araştırmacı olarak bu oranı kontrol edebiliyorum, o zaman neden her çalışmada anlamlılık düzeyini 99.9% olarak belirlemiyorum ki?

Çünkü, Tip I hata ve Tip II hata arasında bir ters orantı bulunuyor. Yani, Tip I hata oranını minimuma indirmeye çalışırken, Tip II hata yapma olasılığınızı arttırıyorsunuz.

Tip II hatası, popülasyonda bulunan bir etkinin örneklem tarafından desteklenmemesi durumunda oluşur. Tip 1 hata oranını düşürürken, aslında testin etkiyi ölçme hassasiyetini düşürüyoruz.

Şüphelinin cinayeti işlemesine rağmen serbest bırakılması Tip II hatadır. En az masum birini cinayet suçuyla cezalandırmak kadar suçlu birini serbest bırakmak da kötüdür. Bu nedenle, Tip I ve Tip II hataları arasında bir denge olmalıdır.

Beta sembolü (β) ile temsil edilen Tip II hata, düşük örneklem büyüklüğü, yüksek varyans gibi farklı farklı birçok nedenden dolayı meydana gelebilir. Tip II hata oranının 100%’den çıkarılması (1-β) testin gücünü yansıtır. Tip I hata gibi kontrol edilebilir olmasa da testin gücü araştırmanın başında güç analizi (power analysis) yardımı ile tahminlenebilir.

Hipotez testinde anlamlılık düzeyi (α) nasıl belirlenir?

Hipotez testinde anlamlılık düzeyine karar verirken, Tip I ve Tip II hata arasında bir denge olmalıdır ve dengenin yönü araştırmadan araştırmaya dikkatle değiştirilmelidir.

Bir hastanede kanser hastalığına dair yeni bir tedavi yönteminin hali hazırda kullanılan yöntemden daha iyi olup olmadığı araştırıldığını ve araştırmanın sonucuna göre de yeni tedavi yönteminin kullanılmaya başlanacağını varsayalım. Bu araştırma için hipotezleri şöyle yazabiliriz:

H0: Yeni tedavi yöntemi eskisiyle eşit veya daha az etkilidir.
Ha: Yeni tedavi yöntemi eski tedavi yönteminden daha fazla etkilidir.

Bu örnekte Tip I hata, yeni tedavi yönteminin eşit veya daha az etkili olmasına rağmen sıfır hipotezi reddedilerek tedavinin daha etkili görünmesine neden olacaktır. Tip II hata ise yeni tedavi yönteminin daha etkili olmasına rağmen bu etkinin bulunamamasına neden olacaktır. Her iki durumu düşündüğümüzde, araştırma sonucunda Tip I hata oranının yüksek olması potansiyel olarak hastaların sağlığını tehlikeye atacaktır ve anlamlılık düzeyini yüksek tutmak daha iyi olabilir.

Araştırmalarda yaygın olarak 1%, 5% veya 10% anlamlık düzeyi (α) kullanılır. Yukarıda bahsettiğimiz gibi özel bir durum olmadığı sürece 5% ile ilerlemek ve duruma göre de artırıp/azaltmak iyi bir strateji olacaktır.

5. Uygun hipotez testini seç ve testin varsayımlarını kontrol et.

Hipotez testinin bir sonraki adımında veriye uygun test seçimi yapılmalıdır. Uygulanacak teste karar verirken veri setinin dağılımı, araştırmacının test amacı, analiz için kullanılacak örneklem/grup sayısı ve değişkenlerin veri tipi etkilidir.

Tüm hipotez testleri bazı ortak varsayımlara sahip olsa da her testin kendi özel varsayımları da olabilmektedir. Uygun hipotez testine karar verildikten sonra veri setinin testin gerektirdiği varsayımları sağlayıp sağlamadığı kontrol edilmelidir.

6. Test istatistiğini hesapla.

Örneklemlerden elde edilen istatistiklerin birbirinden ve popülasyon parametresinden farklılık gösterdiğini yazı içerisinde birkaç kez tekrarlamıştık.

Çıkarımsal istatistiğin (inferential statistics) kritik bir kısmı, örneklem istatistiklerinin birbirinden ve popülasyon parametresinden ne kadar farklı/değişken olduğunu belirlemektir. Bunu yapabilmenin yolu ise örnekleme dağılımından geçer. Örnekleme dağılımı, bir istatistiğin alabileceği farklı değerleri ve bu değerleri alma olasılıklarını gösteren bir olasılık dağılımıdır.

Hipotez testleri ile popülasyon hakkında çıkarım yapabilmek için örneklem verisi kullanılarak “test istatistiği” adı verilen bir istatistik hesaplanır. Bu sayede, tüm örneklem verisi tek bir sayısal değere dönüştürülür. Test istatistiği hesaplanırken sıfır hipotezinin doğru olduğu varsayılır. Test istatistiği, sıfır hipotezi ve örneklem verisi arasındaki farkı ölçebilmek için kullanılır.

Her bir test istatistiği, sıfır hipotezinin doğru olduğu varsayımı ile test istatistiğinin alabileceği farklı değerleri ve bu değerleri alma olasılıklarını temsil eden bir örnekleme dağılımına sahiptir. Test istatistiğinin, örnekleme dağılımı üzerine yerleştirilmesi ile ne kadar aykırı göründüğü anlaşılabilir.

Peki, test istatistiğini hesaplarken sıfır hipotezinin doğru olduğunu neden varsayarız? Bunun ne gibi bir avantajı olabilir?

Merkezi Limit Teoremi‘ne göre, herhangi bir dağılıma sahip bir popülasyondan yeterli büyüklükte örneklemler çekilip, bu örneklemlerden hesaplanan ortalama, varyans gibi herhangi bir istatistiğin olasılık dağılımı normal dağılıma sahip olacaktır. Yani, Merkezi Limit Teoremi’ne göre örnekleme dağılımının ortalaması ile popülasyonun ortalamasının eşit olmasını bekleriz. Bu eşitlik hipotez testlerinin uygulanabilmesinin önünü açar.

Test istatistiği, her bir hipotez testi için farklıdır. Z testi, test istatistiği olarak normal dağılıma sahip z-skorunu kullanırken, t testi t-dağılımına sahip t-skorunu kullanır. Hipotez testleri, belirli varsayımlarla örneklem dağılımının özelliklerini tahmin eder.

Bu adımda bahsettiğimiz konsepti bir örnek üzerinden gerçekleştirelim.

Hipotez oluştururken ampül üreten bir fabrikadan bahsetmiştik. Bu üretici, ürettiği ampüllerin ortalama ömrünün 50 günden az olup olmadığını test etmek istiyor. Her süreçte olduğu gibi üretim sürecinde de zaman zaman sıkıntılar olabildiği için ampüllerin ömürleri arasında bazı farklar olduğunu biliyoruz. Ampüllerin ömürlerinin 5 günlük bir standart sapma (σ) ile normal dağıldığını varsayalım.

Üretilen ampüllerden 30 tanesini rastgele bir şekilde seçerek oluşturulan örneklem ile ampüllerin ortalama ömrünün 48 gün olduğu hesaplanıyor. Firmanın iddaasını test edelim.

Öncelikle hipotezleri oluşturak başlayalım.

H0: Üretilen ampülün ortalama ömrü 50 güne eşittir.
Ha: Üretilen ampülün ortalama ömrü 50 günden azdır.

Hipotez testinin sıfır hipotezinin doğru olduğu varsayımı ile başladığını ifade etmiştik. Sıfır hipotezinin doğru olduğunu kabul ettiğimiz zaman, bu örnek için popülasyon ortalamasının 50 gün olmasını bekleriz. (Soldaki grafik)

Merkezi Limit Teoremi’ne göre, bu popülasyondan binlerce örneklem çekip, bu örneklemlerin ortalamalarının dağılımını oluşturduğumuzda, bu dağılımın ortalamasının da popülasyona eşit olmasını bekleriz. (Sağdaki grafik)

Üretilen ampüllerden 30 tane rastgele seçilerek ortalaması hesaplandığında ampüllerin ortalama ömrü 48 gün olarak hesaplandı. Bu rakam, popülasyon ortalaması olarak kabul ettiğimiz 50 günden 2 gün erken. Peki, bu 2 günlük fark şans eseri mi oluştu?

Anlamaya çalıştığımız şey, acaba çok ekstrem bir örneklem çektiğimiz için mi 48 gün rakamını bulduk, yoksa aslında bulduğumuz bu rakam zaten olağan bir durum mu?

Bu durumu anlayabilmek için, yani bulduğumuz ortalamanın, sıfır hipotezinden ne kadar uzak olduğunu bulmak için test istatistiğine ihtiyaç duyarız.

Normal dağılıma sahip bir örnekle ilerleyip, popülasyonun standart sapmasını da bildiğimiz için z-testini kullandık. Z testi, test istatistiği olarak z-skorunu kullanır. Bu skor ile örneklem ortalamasının sıfır hipotezinden kaç standart sapma uzakta olduğunu anlayabiliriz.

Sol altta kullanılan z-skoru formülünü kullanarak z-skorunu hesapladığımız zaman, örneklem ortalamasının sıfır hipotezinden 2.19 standart sapma uzakta olduğunu bulduk. Peki, bu kadar uzaklık sıfır hipotezini reddetmek için yeterli mi? Sıfır hipotezi doğruysa, bu sonucu alma olasılığımız nedir? Buna nasıl karar vereceğiz?

7. P-değerini hesapla.

Test istatistiğini hesapladık. Elimizdeki örneklemden hesaplanan örneklem ortalamasının sıfır hipotezinden 2.19 birim standart sapma uzakta olduğunu biliyoruz. Bu sonucu tekrar elde etme olasılığını hesaplamamız gerekiyor.

Olasılık dağılımı grafiğindeki iki nokta arasında kalan alan olasılık değerini verir. Bu örnekte test istatistiğinin 2.19 veya daha az olma olasılığını hesaplamak istiyoruz. Yani, sıfır hipotezinin doğru olarak varsaydığımız bir durumda hesapladığımız test istatistiğinden daha ekstrem (aşırı) sonuçlar bulma olasılığını hesaplamak istiyoruz. Bu tanım bizi p-değerine götürür.

P-değerini herhangi bir istatistiksel yazılım (SPSS, SAS veya SciPy) aracılığı ile hesaplayabileceğiniz gibi Z-tablosunu kullanarak elle de hesaplayabilirsiniz. İleride uygulama bölümünde Python’ın SciPy kütüphanesini kullanarak p-değerini ayrıca hesaplayacağız. Bu örnek için p-değeri 0.014262 olarak hesaplanmıştır. Yani, bu olasılık 1.4%’tür. Bu rakam ne anlama gelir?

P-değeri nasıl yorumlanır?

Sıfır hipotezinin doğru olduğu durumda (Ampülün ortalama ömrünün 50 gün olması), popülasyondan 100 defa örneklem çektiğimizde 1.4 defasında ampülün ortalama ömrünün 48 gün veya daha az olduğu örneklemleri elde etmeyi bekleriz.

Bir ampülün ortalama ömrünün 48 gün olduğu bir örneklem çektiğimizde, bu durumu iki farklı şekilde açıklayabiliriz:

  1. Sıfır hipotezi doğrudur ve ampüllerin ortalama ömrü 50 gündür. Biz, çok ender rastlanan bir örnekleme denk geldik. (Her 100 örneklemden 1.4’ü)
  2. Sıfır hipotezi yanlıştır ve aslında popülasyonun ortalaması 50 gün değildir.

Elimizde p-değeri ve test istatistiği var fakat hala bulduğumuz sonucun rastgele oluşup oluşmadığına yönelik bir karar veremedik. p-değerini kullanarak nasıl test sonuçlarını değerlendirebiliriz?

Sıra hipotez testinin sonuçlarının değerlendirilmesine geldi.

8. Sonuçları değerlendir ve final kararını belirle.

Hipotez testi sonuçlarının değerlendirilebilmesi için dördüncü adımda incelediğimiz anlamlılık düzeyi (α) değerine ihtiyaç duyarız. Anlamlılık düzeyinin, sıfır hipotezini reddedebilmek için bir kanıt standardı olduğundan bahsetmiştik.

p-değeri ve anlamlık düzeyi arasındaki ilişki ile H0 hakkında aşağıdaki şekilde karar verebiliriz:

  • p-değeri anlamlılık düzeyi (α): H0 hipotezi reddedilir.
  • p-değeri > anlamlılık düzeyi (α) : H0 hipotezini reddedecek kadar yeterli kanıt yoktur.

Anlamlılık düzeyi (α), tanım olarak araştırma kapsamında kabul edebileceğimiz maksimum Tip I hata yapma riskini temsil eder. Anlamlılık düzeyinin %5 olduğu durumda, her 100 araştırmadan en fazla 5’inde sıfır hipotezinin doğru olduğu halde reddedilmesine göz yumarız. P değeri büyüdükçe, elde edilen test istatistiğinin şans eseri oluşma olasılığı artar. Anlamlılık düzeyini aştığı noktadan sonra ise sıfır hipotezi reddedilemez.

Yukarıda işlediğimiz örnekte p-değeri %1.4 olarak hesaplanırken, anlamlılık düzeyini araştırma öncesinde %5 olarak belirlemiştik. Sıfır hipotezinin doğru olduğu yani ampülün ortalama ömrünün 50 gün olduğu durumda, her 100 araştırmadan 1.4’ünde ortalama ampül ömrü 50 gün olmasına rağmen bu hipotezi yanlışlıkla reddedebiliriz. Anlamlılık düzeyi ise bu riskin maksimum noktasını temsil eder.

Örnekte, p değeri anlamlılık düzeyinden küçük olduğu için H0 hipotezi reddedilir. Yani, üretilen ampülün ortalama ömrü 50 günden azdır.

Python ile hipotez testi nasıl yapılır?

Yazı boyunca anlattığımız teorik bilgiyi örnek bir veri seti üzerinde Python ile uygulayacağız.

Yapılan araştırmalara göre, ABD’de bir erkeğin boy ortalaması 70 inç (177.8 cm) ve bir kadının boy ortalaması ise 65 inç (165.1 cm) olarak ölçülmüştür ve boy ortalaması normal dağılmıştır. Erkekler için standart sapma 4 inç (10.16 cm), kadınlar için ise 3.5 inç (8.9 cm) olarak kayıt edilmiştir. Elimizdeki veri setinden elde edilen erkek boy ortalamasının ABD ortalamasından farklı olup olmadığını test etmek istiyoruz.

Uygulama için kullanacağımız veri seti 10,000 gözlemden oluşan ve cinsiyet kırılımına sahip boy ve kilo bilgilerini içeriyor. Bu verinin hangi ülkeyi temsil ettiğine dair bir bilgimiz yok. Kolaylık olması açısından elimizdeki verinin ABD’yi temsil ettiğini kabul edip, bu ülkenin boy ortalaması ile bir karşılaştırma yapacağız.


Örnek veri seti: Bir ülkenin vatandaşlarına dair kilo ve boy ölçüsü bilgisi


Veri seti üzerinde işlem yapmadan önce ilk olarak, yazı boyunca kullanılacak kütüphaneleri çağıracağız. Veri manipülasyonu için Pandas, veri görselleştirme için Seaborn ve istatistiksel işlemler için SciPy ve StatsModels kütüphanelerini kullanacağız.

import pandas as pd
import seaborn as sns
from scipy import stats
from statsmodels.stats.weightstats import ztest as ztest
---------------------------------------------------------------------------
ModuleNotFoundError                       Traceback (most recent call last)
/var/folders/yl/2kb33wks7m5gsmffsn83hnm00000gr/T/ipykernel_21104/4004448244.py in <module>
      2 import seaborn as sns
      3 from scipy import stats
----> 4 from statsmodels.stats.weightstats import ztest as ztest

ModuleNotFoundError: No module named 'statsmodels'

Kullanacağımız modülleri çağırırken “ModuleNotFoundError” hatası ile karşılaştık. Statsmodels kütüphanesinin sistemde yüklü olmadığı uyarısını aldık. Bu kütüphaneyi kullanabilmek adına önce yüklememiz gerekiyor.

Veri ile ilgili çalışmalarımı Anaconda‘yı kullanarak yapıyorum. Bu platform üzerinde paket yüklemek için “conda” fonksiyonunu kullanacağız. Paket yüklemek için diğer bir alternatif ise “pip” fonksiyonu olabilirdi. “pip” sadece Python paketlerini yüklemek için kullanılırken, conda ise C, C++, R gibi farklı dillerde geliştirilen paketleri de yüklemek için kullanılabilir.

conda install -c anaconda statsmodels
Collecting package metadata (current_repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /Users/dayaniklia/opt/anaconda3

  added / updated specs:
    - statsmodels

The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    ca-certificates-2020.10.14 |                0         127 KB  anaconda
    certifi-2020.6.20          |           py37_0         159 KB  anaconda
    patsy-0.5.1                |           py37_0         375 KB  anaconda
    statsmodels-0.12.0         |   py37haf1e3a3_0        10.4 MB  anaconda
    ------------------------------------------------------------
                                           Total:        11.1 MB

The following NEW packages will be INSTALLED:

  patsy              anaconda/osx-64::patsy-0.5.1-py37_0
  statsmodels        anaconda/osx-64::statsmodels-0.12.0-py37haf1e3a3_0

The following packages will be SUPERSEDED by a higher-priority channel:

  ca-certificates    pkgs/main::ca-certificates-2021.10.26~ --> anaconda::ca-certificates-2020.10.14-0
  certifi            pkgs/main::certifi-2021.10.8-py37hecd~ --> anaconda::certifi-2020.6.20-py37_0


Downloading and Extracting Packages
certifi-2020.6.20    | 159 KB    | ##################################### | 100% 
ca-certificates-2020 | 127 KB    | ##################################### | 100% 
statsmodels-0.12.0   | 10.4 MB   | ##################################### | 100% 
patsy-0.5.1          | 375 KB    | ##################################### | 100% 
Preparing transaction: done
Verifying transaction: done
Executing transaction: done

Note: you may need to restart the kernel to use updated packages.

Statmodels paketini başarılı bir şekilde yükledik. Artık kullanıma hazır. Yüklediğimiz paketi tekrardan çalışma dosyasına çağıracağız.

from statsmodels.stats.weightstats import ztest as ztest

Çalışacağımız veri dosyasını çağıraralım.

he_we = pd.read_csv("weight-height.csv")

Pandas’ın “read_csv” fonksiyonunu kullanarak ilgili veri setini çalışma dosyasına çağırdık. Hipotez testine başlamadan önce veri setini kısaca tanıyalım.

he_we.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Gender  10000 non-null  object 
 1   Height  10000 non-null  float64
 2   Weight  10000 non-null  float64
dtypes: float64(2), object(1)
memory usage: 234.5+ KB

İlk olarak Pandas’ın hazır fonksiyonlarından info()‘yu kullanarak veri setindeki değişkenleri ve bu değişkenlere dair yapısal bilgileri görmek istedik.

  • Veri setinde cinsiyet (gender), boy (height) ve kilo (weight) adında 3 değişken ve 10,000 gözlem bulunuyor.
  • Hiçbir değişkende eksik veri bulunmuyor.
  • Cinsiyet değişkeni string (metin) veri tipine sahip iken boy ve kilo değişkenleri ise float (ondalık) veri tipine sahiptir.

Pandas’ın bir başka hazır fonksiyonu describe()‘ı kullanarak veri setindeki değişkenlere dair basit istatistikleri elde edelim.

he_we.describe()
	Height	          Weight
count	10000.000000	10000.000000
mean	66.367560	161.440357
std	3.847528	32.108439
min	54.263133	64.700127
25%	63.505620	135.818051
50%	66.318070	161.212928
75%	69.174262	187.169525
max	78.998742	269.989699
  • Veri setinde 10,000 adet gözlem bulunduğundan bir önceki aşamada da bahsettik.
  • Ortalama boy uzunluğu 66.3 inç iken ortalama kilo ağırlığı 161.4 pound (73.2 kg) olarak görünüyor.
  • Her iki değişken için de ortanca (50%) ile ortalama değerleri birbirine çok yakın. İki değişken de simetrik dağılıma sahip olabilir.

Son olarak da veri setinde bulunan değişkenlerin dağılımına ve birbirleriyle arasındaki ilişkiye bakalım.

sns.pairplot(data = he_we)

Seaborn kütüphanesinden pairplot() fonksiyonunu kullanarak, veri setinde bulunan nümerik (tam – int veya ondalık sayı – float) değişkenlerin birbirleriyle korelasyonunu ve değişkenlerin dağılımlarını bir matris olarak çizdirdik. Bu grafiğe göre:

  • Boy değişkeni tek tepeli (unimodal) ve normal dağılıma sahiptir.
  • Kilo değişkeni çift tepelidir (bimodal). Kadın ve erkeklerin kilo ağırlıkları değişken olduğu için cinsiyet kategorisi kilo değişkeninin bimodal olmasında etkili olmuş olabilir.
  • Sol altta yer alan saçılım grafiğine (scatterplot) bakarak boy ve kilo değişkenleri arasında pozitif ve güçlü bir ilişki olduğunu söyleyebiliriz.

Yukarıdaki grafiklere bakarak “kilo” değişkenin çift tepeli olduğunu ve cinsiyet kategorisinin buna neden olabileceğini söylemiştik. Bu durumu yakından inceleyelim:

sns.displot(data = he_we, x = "Weight", hue = "Gender")
  • Seaborn kütüphanesinden displot() fonksiyonunu kullandık. Bu fonksiyona parametre olarak:
    • data: Dataframe adını,
    • x: yatay eksende yer alacak değişkeni ve
    • hue: bu değişkeni kategorilere ayıracak kategorik değişkeni girdik.
  • Grafikte görüldüğü üzere aslında hem kadınlar hem de erkekler de kendi içerisinde normal dağılıma sahip ve tek tepelidir.

Veri setine dair basit bir keşif yaptıktan sonra hipotez testine başlayabiliriz.

1. Adım: Araştırma sorusunun oluşturulması.

Hipotez testinin ilk adımında çalışma kapsamında neyi araştırdığımızı belirlemek istiyoruz.

Tekrardan hatırlayacak olursak, elimizdeki veri setinden elde edilen erkek boy ortalamasının ABD ortalamasından farklı olup olmadığını test etmek istiyoruz. Bu çalışma için araştırma sorusunu şöyle ifade edebiliriz:

Araştırma sorusu: Araştırmaya katılan erkeklerin ortalama boy uzunluğu Amerika ülkesinde yaşayan ortalama erkek boyundan farklı mıdır?

2. Adım: Hipotezlerin belirlenmesi.

Bir sonraki adımda araştırma sorusunu hipotezlere çevireceğiz. İlerleyen aşamalarda topladığımız veriyi analiz ederek bu hipotezler arasında bir karar vereceğiz.

Hatırlayacağımız üzere, hipotez testinde sıfır ve alternatif hipotez olmak üzere iki farklı ve birbirine zıt hipotez bulunuyor. Sıfır hipotezi araştırma sonucunda herhangi bir değişim olmadığı durumu yansıtırken, alternatif hipotez ise araştırma sonucunda elde edilmesi istenen değişimi temsil eder.

Araştırmanın sonucunda, veri setinden elde ettiğimiz boy ortalamasının Amerika boy ortalamasından (70 inç) farklı olması alternatif hipotezi oluştururken, herhangi bir fark olmaması ise sıfır hipotezini oluşturur. Hipotezleri ifade edecek olursak:

H0: Araştırmaya katılan erkeklerin ortalama boy uzunluğu Amerika ülkesinde yaşayan ortalama erkek boyundan farklı değildir. (µ = 70)
Ha: Araştırmaya katılan erkeklerin ortalama boy uzunluğu Amerika ülkesinde yaşayan ortalama erkek boyundan farklıdır. (µ ≠ 70)

3. Adım: Kuyrukların belirlenmesi.

Hipotez testinde, kuyruk sayısı red/kabul bölgelerini değiştireceği için karar aşamasına etki eder. Yaptığımız örnek araştırmada, örneklem ortalamasının ana kütle ortalamasından farklı olup olmadığını merak ediyoruz. Örneklem ortalamasının ana kütle ortalamasından büyük veya küçük olması ile değil sadece farklı olup olmadığı ile ilgileniyoruz. Bu nedenle, bu test için çift kuyruk hipotez testine ihtiyaç duyarız.

4. Adım: Anlamlılık seviyesinin belirlenmesi.

Anlamlılık seviyesi, sıfır hipotezinin doğru olduğu durumda reddedilmesi anlamına gelen Tip 1 hata oranıdır. Tip I hatayı:

  • Mahkemede masum birini suçlu olarak cezalandırmak,
  • Yangın yokken evde yangın alarmının çalması,
  • Müşterinin kredi kartı borcu yokken, hesabından kredi kartı ekstresi ödenmesi gibi durumlarla özetleyebiliriz.

Araştırmalarda yaygın olarak anlamlılık seviyesi %5 olarak belirlenir. Bu araştırma için de özel bir durum olmadığı için aynı seviye ile ilerleyeceğiz. %5 anlamlılık seviyesinde ise araştırmanın güven düzeyi %95 olacaktır.

5. Adım: Uygun hipotez testinin seçilmesi.

Hipotez testinin en kritik adımlarından bir tanesi de araştırmanın amacına ve veri setine uygun hipotez testinin seçilmesidir. Veri setine uygun olmayan veya testin varsayımlarını karşılayamayan araştırmaların sonuçları yanlış yönlendirici ve hatalı olacaktır.

Örnek araştırma için:

  • Kullanacağımız değişkenin normal dağılıma sahip olduğunu,
  • Sadece erkeklerden oluşacağı için tek bir grup/örneklem olduğunu,
  • Örneklem ortalaması ile ana kütle ortalamasının karşılaştırılmak istendiğini ve
  • Ana kütlenin varyansının bilindiğini biliyoruz.

Yukarıdaki bilgiler ışığında, örneklem ve ana kütle ortalamasını karşılaştırmak için parametrik bir test olan ve ana kütle varyansının da bilindiği durumlarda tercih edilen tek örneklem z-testini kullanacağız.

Peki z-testinin varsayımları nelerdir?

  1. Test için kullanılacak bağımsız değişken, aralık veya oransal ölçek türüne sahip olmalıdır.
  2. Ana kütle ortalaması ve varyansı bilinmelidir.
  3. Örneklem ortalaması bilinmelidir.
  4. Örneklemi oluşturan gözlemler ana kütleden rastgele çekilmelidir.
  5. Örneklem büyüklüğü yeterince fazla olmalıdır. (n>30)
  6. Örneklem, normal veya neredeyse normal dağılıma sahip bir ana kütleden elde edilmiş olmalıdır.

Örnekte analiz için kullanılacak veri seti yukarıdaki şartların hepsini sağlamaktadır:

  1. Test için kullanılacak bağımsız değişken, boy uzunluğu oransal ölçek türüne sahiptir.
  2. Ana kütle ortalaması (70 inç) ve varyansı (4 inç) bilinmektedir.
  3. Örneklem ortalaması (66.36 inç) bilinmektedir.
  4. Örneğin sadeliği açısından örneklemi oluşturan gözlemlerin ana kütleden rastgele çekildiğini varsayacağız.
  5. Örneklem 10,000 adet gözlemden oluşmaktadır. Bu gözlemlerin yarısı erkektir. Örneklem büyüklüğü yeterlidir.
  6. Örneklem, normal veya neredeyse normal dağılıma sahip bir ana kütleden elde edilmiştir. Bu bilgi araştırma tarafından verilmiştir.

6. Adım: Test istatistiğinin ve p değerinin hesaplanması.

Bu adımda örneklem üzerinde işlemler yaparak test istatistiğini ve p-değerini hesaplayacağız. Test istatistiği, örneklemde bulunan tüm değerleri tek bir rakama dönüştürür. Bu sonucun şans eseri/rastgele oluşup oluşmadığını anlamak için de p-değerine ihtiyaç duyarız. P değeri, sıfır hipotezinin doğru olduğunu varsaydığımız durumda test istatistiğinden daha ekstrem sonuçlar elde etme olasılığıdır.

Test istatistiğini hesaplamadan önce elimizdeki veri setinden sadece erkeklerin bulunduğu gözlemleri filtreleyerek yeni bir DataFrame oluşturacağız ve işlemleri bu tablo üzerinde uygulayacağız.

males = he_we[he_we["Gender"] == "Male"]

Pandas’ın filtreleme syntax’ını kullanarak “Gender” değişkeninde “Male” olan gözlemleri filtreledik. Z testini oluşturduğumuz bu yeni tablo üzerinde uygulayacağız.

Z testi, test istatistiği olarak z skorunu kullanır. Tek örneklem Z testi için Z skoru örneklem ortalamasından ana kütle ortalaması çıkarıldıktan sonra elde edilen sonucun ana kütle standart sapmasına bölünmesiyle hesaplanır.

Ana kütlenin standart sapmasının bilinmediği durumlarda z testinin uygulanması uygun değildir fakat örneklem büyüklüğünün fazla olduğu durumlarda örneklem standart sapması ana kütle standart sapmasının tahmincisi olarak kullanılabilir.

Ana kütle standart sapması biliniyorsa:
Z = (x̄ - μ) / σ
x̄: Örneklem ortalaması
μ: Ana kütle ortalaması
σ: Ana kütle standart sapması

Ana kütle standart sapması bilinmiyorsa:
Z = (x̄ - μ) / (s / √n)
x̄: Örneklem ortalaması
μ: Ana kütle ortalaması
s: Örneklem standart sapması
n: Örneklem büyüklüğü

Python’da Z testini uygulayabilmek için StatsModels kütüphanesinden ztest() fonksiyonunu kullanacağız. Bu fonksiyon yardımı ile tek örneklem ve çift örneklem z testi uygulayabilmek mümkün.

z_score, p_value= ztest(males["Height"], value = 70)

print(z_score, p_value)
-24.04437012378094 9.560213451305788e-128
  • ztest() fonksiyonu parametre olarak:
    • x1: Tek örneklem z testi uygulanacak ise tek değişkeni,
    • x2: çift örneklem z testi uygulanacak ise kıyaslanacak ikinci değişkeni,
    • value: Tek örneklem z testi uygulanacak ise sıfır hipotezinin doğru olduğu durumdaki ortalama değerini, çift örneklem z testi uygulanacak ise sıfır hipotezinin doğru olduğu durumdaki iki grup arasındaki ortalama farkını,
    • alternative: Alternatif hipotezin durumuna göre çift kuyruk (two-sided), büyüktür (larger) veya küçüktür (smaller) seçeneklerini alır. Varsayılan olarak çift kuyruk hipotez testi uygulanır.
  • ztest() fonksiyonu yanıt olarak test istatistiğini (z skoru) ve p değerini döndürür.
  • Bu örneklem için hesaplanan z-skoru -24.04, p değeri ise 0.000’dır.

7. Adım: Karar verilmesi.

Hipotez testinin son adımında elde ettiğimiz verilere dayanarak sıfır hipotezi hakkında bir karar vermemiz gerekir. Sıfır hipotezini reddedebilmek için anlamlılık düzeyi ve p değeri arasındaki ilişki önemlidir.

  • p-değeri anlamlılık düzeyi (α): H0 hipotezi reddedilir.
  • p-değeri > anlamlılık düzeyi (α) : H0 hipotezini reddedecek kadar yeterli kanıt yoktur.

Bu araştırma kapsamında anlamlılık düzeyini 0.05 olarak belirlemiştik. P değerini, anlamlılık düzeyi ile kıyasladığımız zaman p değerinin küçük olduğunu görüyoruz. Bu da sıfır hipotezinin reddedilmesi gerektiği anlamına geliyor.

Kısaca, elimizdeki örneklemden alınan erkek boy ortalaması ABD erkek boy ortalamasından farklıdır.

Kaynakça

Intro to Hypothesis Testing and z-tests

What is the p-value?

Z-score: Definition, Formula, and Uses