R Üzerinde Varyans Analizi(ANOVA): Eğitim Düzeyi ve TV İzleme İlişkisi

ANOVA(Analysis of Variance), kategorik bir değişkeni bağımsız olarak ve nümerik bir değişkeni de bağımlı değişken olarak alır. Yani, kategorik değişkenin seviyeleri(kategorileri) değiştikçe nümerik değişken de anlamlı olarak değişiyor mu bunu araştırır. Biraz daha açacak olursak, bir örneklemin ortalamasından istatistiksel bir çıkarım yapmak istediğimizde veya aynı işlemi 2 gruba uygulamak istediğimizde, t testini kullanırız. Fakat grup sayısı 3 veya daha fazla olduğunda, artık işimizi ANOVA görecektir. İkiden fazla grubun ortalamaları karşılaştırılmak istenildiğinde ve aralarında istatistiksel olarak anlamlı bir fark olup olmadığına bakılmak istendiğinde ANOVA kullanılır. Gruptan kastettiğimiz şey tabii ki kategorik değişkenin seviyeleri. Bağımlı değişken olan nümerik değişken bu seviyelere dağılmış durumda ve bizim öğrenmek istediğimiz nokta, bu seviyelerdeki nümerik değişkenin ortalamaları anlamlı olarak birbirlerinden farklı mı yoksa değil mi. Teorik olarak işin içine çok girdiğimizde anlam karmaşası oluşabilir. Uygulamayla bu karmaşa ortadan kalkacaktır.

Kullanacağımız veriseti, bir önceki makalemde de kullandığım GSS(General Social Survey)’in veriseti. Bu veri setiyle alakalı tüm bilgilerin gerekli linklerini burada bulabilirsiniz. Kullanacağımız değişkenleri görmeden önce, araştırma sorumuzun ne olduğunu söyleyelim. Cevabını araştıracağımız soru: insanların günlük televizyon izleme saati eğitim seviyelerine göre değişkenlik gösteriyor mu? Burada neden ANOVA kullanmaya karar verdik öncelikle bunu düşünelim. Elimizde bir nümerik değişken(günlük TV izleme saati) ve bir de kategorik değişken(eğitim düzeyi) var. Bizim araştırmak istediğimiz nokta ise, insanların eğitim düzeyi değiştikçe, günlük TV izleme saatleri de değişiyor mu? Yani kategorik değişkenimiz olan eğitim düzeyi değişkeninin seviyeleri içerisindeki günlük TV izleme saatleri, anlamlı olarak birbirinden farklı mı? Ya da şöyle soralım; eğitim düzeyi yüksek olanlar daha az TV izliyor ya da düşük olanlar daha çok izliyor gibi tespitler yapabilir miyiz? Bunu da her seviyedeki günlük TV izleme saati ortalamalarını birbirleriyle karşılaştırarak yapacağız. Ya da ANOVA bizim için yapacak diyelim. Eğitim düzeyi değişkeninin seviye sayısı da 3’ten fazla olduğundan(grup sayısı 3+) t testi bizim için yetersiz kalacaktır ve ANOVA gerekecektir.

Başlamadan önce hatırlatmak istediğim bir nokta var. GSS’nin anketlerinde kullandığı metodlardan ev bu metodların etkisinden bir önceki makalemde bahsetmiştim. Bu da demek oluyor ki burada bulacağımız herhangi bir ilişki, rastgele örnekleme kullanıldığından dolayı anakütle için genelleştirilebilir fakat asla nedensellikten bahsedilemez. Yani istatistiksel olarak anlamlı bir fark tespit etsek bile günlük TV izleme saatinin değişmesinin sebebi insanların eğitim düzeyidir diyemeyiz. Devam edelim.

Kullanacağımız iki değişken: degree(eğitim düzeyi) ve tvhours(günlük TV izleme saati). Bu iki değişken hakkında bilgi sahibi olmak adına, bunları inceleyelim. Gerekli kütüphaneleri aşağıdaki kod ile kullanıma hazır hale getiriyorum.

Değişkenler hakkında fikir sahibi olmak için neler yapılabileceğinden bahsetmiştim. öncelikle aşağıdaki kodla değişkenleri inceleyelim.

“summary” komutu, değişkenlerin genel bilgilerini konsola yazar. Nümerik değişkenler için özet istatistikleri hesaplarken, kategorik değişkenler için de her grupta kaç gözlem bulunduğu bilgisini verir. Kategorik değişkenlerde özet istatistiklerin hesaplanamayacağını belirtmiştik. Sonuç şöyle.

Öncelikle kategorik değişken olan eğitim düzeyinden başlayalım. 5 düzeyi olduğunu komutun sonucundan görebiliyoruz. En yüksek gözleme sahip düzey “Lt High School” ve 11822 gözleme sahip. NA(Not Available)’ların da 1010 tane olduğunu görebiliyoruz. Nümerik değişkenimize bakacak olursak, en gerekli özet istatistikler karşımızda. Hepsini bir cümleyle açıklayacak olursak; minimum değer 0, birinci kartil yani %25.ci değer 2.0. Birinci çeyreğin son değeri de diyebiliriz. Medyan ya da diğer adıyla ikinci kartil 2.0, mean yani ortalama 2.971 ve üçüncü kartil 4.0. Maksimum değer 24 ve NA’ların sayısı da oldukça fazla(23206 tane). Bu senaryoda NA gözlemleri değişkenden çıkarıp yolumuza devam edebiliriz. Fakat bu her zaman yapılması uygun bir işlem değildir. NA değerlerin nasıl halledileceğiyle ilgili çeşitli senaryolar uygulanabilir. NA’ları direkt verisetinden çıkartmak bunlardan bir tanesi. Bunun yerine, bunları ortalama veya medyanla değiştirmeyi de düşünebilirdik. Fakat biz burada ilk bahsettiğimiz adımı uygulayarak NA’ları verisetinden çıkaracağız. Kayıp(missing) verilerle alakalı nasıl adımlar uygulanabileceğine dair araştırma yapacak olursanız internette detayları mevcut. Biz devam edelim.

NA’ları verisetinden çıkarırken, aynı zamanda sadece kullanacağımız değişkenlerden oluşan yeni bir nesne oluşturalım ve gereksiz değişken kalabalığından da kurtulalım.

Oluşturacağımız yeni verisetini “gss_anova” adında yeni bir nesneye atadım. İlk satırdaki kodu inceleyelim. “subset” fonksiyonu, varolan bir verisetinden belirli kriterlere göre bir altküme almayı sağlar. Biz de asıl verisetinden sadece 2 değişkeni koparmak istediğimiz için, “subset” fonksiyonu bu konuda işimizi görecektir. “na.omit” komutu ise, adından da anlaşılacağı gibi, bir verisetindeki NA gözlemleri atar. Bu şu demek oluyor; hatırlarsanız 23206 adet NA gözlemimiz vardı ve “na.omit” komutu sonucunda bu satırların tamamı verisetinden çıkartıldı. İşte NA gözlemleri öylece düşünmeden atmanın neden sakıncalı olduğunu bu noktada görebiliyoruz. Her ne kadar bu 23206 satırda “tvhours” değişkeni NA olsa da, diğer değişkenlerin bilgileri mevcut ve bu satırları verisetinden çıkartmak demek o bilgileri de kaybetmek demektir. Fakat ben bu yazıda sadece 2 değişkenden faydalanacağım için, ANOVA’yı anlatmak amacıyla bu yolu seçtim. “subset” komutu içinde “na.omit” komutunu kullandıktan sonra, “gss[ , c(12,106)]” komutuyla da gerekli verisetinden sadece 16 ve 106 numaralı kolonları alıyorum. Köşeli parantez içindeki virgülün sol tarafının satırları, sağ tarafının da sütunları belirttiğini söylemiştim. Burada 12 ve 106 numaralı kolonları tüm satırlarıyla beraber al demek istiyorum aslında. Birden fazla kolon belirtmek istediğim için, “c()” komutuyla bunları birleştirdim. R, vektör tabanlı çalışan bir program olduğu için, bu tarz işlemleri bu komutla birleştiriyoruz.

“head” fonksiyonu, default olarak verisetinin ilk 6 satırını getirir. Gördüğünüz gibi veriseti istediğimiz şekilde. “class” fonksiyonu ile de tipine baktığımızda “data frame” olduğunu görüyoruz. Aslında “data frame” de iki boyutlu bir vektördür fakat atomik değildir. Yani farklı veritiplerini bünyesinde barındırabilir. İstediğimiz özet verisetini oluşturduğumuza göre, devam edelim ve özet istatistikleri bir kez daha hesaplayalım. Bu kez farklı bir fonksiyon ile devam edeceğim.

“summarise” fonksiyonu, bize aslında özet istatistikleri hesaplamada esneklik sağlar. İstediğimiz istatistikleri hesaplayıp, onlara istediğimiz kolon adını verebiliyoruz. Fonksiyon sonucuna bakacak olursak;

Kolon adları istediğimiz gibi oluştu ve değerler altına geldi. Burada “IQR(Interquartile Range)” aslında kartiller arası açıklık yani 1. ve 3. kartil arasındaki mesafedir. Bir diğer deyişle, %75. veri ve %25. veri arasındaki farktır. Bir değişkenlik ölçüsüdür. Aynı standart sapma ve varyans gibi, ne kadar büyük olursa, verideki değişkenliğin de o kadar büyük olduğunu söyleyebiliriz. Standart sapma, bireysel gözlemler arasındaki değişkenliği açıklar ve burada tipik bir gözlemin ortalamadan 2.34 civarı saptığını görebiliyoruz. Daha genel bir açıklamayla, verilerin ortalamadan “ortalama” olarak ne kadar saptığını belirtir. Standart sapmanın karesi olan varyans da aynı şekilde bize değişkenlik hakkında bilgi verir. Ortalama ve medyana bakacak olursak, ortalamanın medyandan 0.95 civarı daha büyük olduğunu görüyoruz ve bu da veride bir sağa çarpıklığın habercisi gibi görünüyor. Ortalama ve medyan merkezi ölçüler iken, standart sapma ve IQR değişkenlik ölçüleridir. Medyan ve IQR, ortalama ve standart sapmaya göre daha “sağlam” ölçülerdir. Bunun nedeni, aşırı değerlere karşı daha az hassas olmalarıdır. Örneğin ortalama en ufak bir aşırı değerden çok fazla etkilenerek yerinden oynamaya meyilli iken, medyan ortanca değer olduğun için bundan çok fazla etkilenmez. Özet istatistikler hakkında bu bilgilerden sonra, devam edelim.

Veriyi anlamanın en iyi yolu, onu görselleştirmektir. “degree” değişkenini bir önceki yazımda da görselleştirmiştim bu yüzden onu detaylı olarak açıklamaya gerek görmeden kodu ve grafiği vererek “tvhours” değişkenine geçiyorum.

Gelelim “tvhours” değişkenini görselleştirme aşamasına. Nümerik bir değişkeni görselleştirmenin en iyi yolu aslında histogram ile başlamaktır.

“hist” komutuna verisetini, başlığı ve renk seçimini ilettikten sonra, aşağıdaki grafiği elde ediyoruz.

Yukarıda da bahsettiğim gibi, verideki sağa çarpıklık net olarak gözlemlenebiliyor. Veri yaklaşık olarak 3 değeri etrafında toplanmış ki bu da özet istatistiklerdeki 2.95 olan ortalama değerini gösteriyor. Sağ tarafa doğru olan uzun kuyruk, -ki bu kuyruk sağa çarpıklığa neden oluyor- ortalamayı sağa doğru çektiğinden dolayı medyandan daha büyük olmasını sağlıyor. Medyan ve ortalama arasındaki farkın negatif veya pozitif olma durumundan böylece verinin çarpıklığını veya tam tersini rahatça anlayabiliyoruz. Günlük TV izleme saatlerinin eğitim düzeyi içindeki dağılımına bakalım:

Bu kodları açıklamıştım. “degree” değişkenine göre gruplayarak, her bir gruptaki gözlem sayısına bakıyoruz.

Düzeylerdeki gözlem sayıları arasında ciddi farklar var. Bu da aslında bize anketin yapıldığı bölgedeki eğitim düzeyine dair fikir verebiliyor. Son olarak bir görselleştirme aracına daha başvuracağım. Değişkenleri teker teker inceledik fakat ikisi arasındaki ilişkiyi ciddi olarak görebilmemiz için ikisini aynı grafikte toplamalıyız. Bir kategorik ve bir nümerik değişkeni aynı grafikte toplamanın en etkili yolu, kutu grafiktir.

“boxplot” fonksiyonu, kutu grafik çizmede kullanılır. “col” ve “main” argümanlarıyla renk ve başlığı ayarlarken, “horizontal” argümanı ise grafiği yatay olarak çizecek. Biraz önceli “hist” ve şimdiki “boxplot” komutları, “ggplot2” paketi içinde değildir. Bunlar “base R” dediğimiz, R’ın yüklenmesiyle otomatik olarak gelen komutlardır. ggplot2 komutlarını değil de bunları kullanmamın amacı, iki yöntemi de göstermektir. Komut sonucunda oluşan grafik:

Kutuların içindeki siyah kalın çizgiler, her grubun medyanını gösterir. Görüleceği üzere ilk 3 grubun medyanı birbirlerinden neredeyse hiç farklılaşmazken, son 2 grubunkiler değişiyor. Bunları göz önünde bulundurarak fikir sahibi olmak mümkün fakat sadece çizgilerle bir sonuca varmak imkansız. Kutuların genişliği, her grubun değişkenliğini gösterir. En değişken grubun “Lt High School” grubu olduğunu görebiliyoruz. Kutuların başlangıç ve bitiş noktaları, 1. ve 3. kartillere denk gelir. Kutu çizgilerinin dışında kalan noktalara(sağdaki noktalar) ise “outlier” denir ve sapan değerler olarak tanımlanabilir.

Değişkenler üzerinde gerekli incelemeleri yaptık. Artık analize geçebilir ve çıkarım yapabiliriz. Bu noktada kategorik değişkenimizin düzeylerine göre günlük TV izleme saatlerinin farklılaşıp farklılaşmadığına bakacağımızı söylemiştik. Bunu da her grubun ortalamasını karşılaştırarak istatistiksel olarak anlamlı bir fark olup olmadığını gözleyerek yapacağız. Bu da bizi ANOVA’ya götürecek. Her istatistiksel analizde olduğu gibi ANOVA’da da ilk adım, araştırma sorusuna uygun bir biçimde gerekli hipotezleri belirlemektir. Hipotezleri yazalım:

H0: İnsanların günlük TV izleme saati, eğitim düzeylerine göre değişmez. Bir başka deyişle, günlük TV izleme saati eğitim düzeyi değişkeninin tüm seviyelerinde yaklaşık olarak sabittir. Bu hipotezi istatistiksel gösterimle açıklayacak olursak;

µ1 = µ2 = µ3 = µ4 = µ5 (Her grubun ortalaması birbirine eşittir.)

HA: İnsanların günlük TV izleme saati, eğitim düzeylerine göre değişir. Bir başka deyişle, günlük TV izleme saati eğitim düzeyi değişkeninin tüm seviyelerinde sabit değildir. Bunu da istatistiksel olarak açıklayacak olursak;

En az 1 µ(ortalama) diğerlerinden farklıdır.

Hipotezleri bu şekilde tanımladık fakat burada bahsedilmesi gereken ve gözden kaçabilecek çok önemli bir nokta var. ANOVA’nın alternatif hipotezine bakarsak, en az bir ortalamanın diğerlerinden farklı olduğunu söylüyor. Fakat, hangisi olduğunu söylemiyor. Yani ANOVA sonucunda istatistiksel olarak anlamlı bir sonuç bulmak, bize ortalamalardan hangisinin anlamlı olarak farklılaştığını değil, sadece en az birinin anlamlı olarak farklılaştığını söyler. Hangisi olduğunu bulmak içinse, ikili karşılaştırmalar yapmak gerekir. Bu ikili karşılaştırmalar da tahmin edebileceğiniz gibi t testi ile yapılır. Devam edelim. Her istatistiksel analizde olduğu gibi, ANOVA’da da belli koşullar sağlanmalıdır ki analiz gerçekleştirilebilsin. Bu şartları teker teker inceleyelim.

Bağımsızlık

Bağımsızlık iki türlü var olmalıdır. Grup içi ve gruplar arası. Grup içi bağımsızlığın gerçekleşebilmesi için örneklemlenmiş olan gözlemlerin birbirinden bağımsız olmaları gerekir. Bunun sağlanması için rastgele örnekleme olması gerektiğini ve örneklemin anakütlenin %10’undan daha az olması gerektiğini söylemiştik. Verisetinin bu şartları sağladığını da bir önceki makaleden biliyoruz. Gruplar arası bağımsızlık için ise şu anda varsayım ile ilerleyebiliriz. Grupların birbirinden bağımsız olmamasına neden olacak herhangi bir etken var mı? Şu an için böyle bir şey göremediğimiz için bağımsız olduklarını varsaymak yanlış olmaz.

2. Yaklaşık Normallik

Bağımsız değişkenin(TV izleme saatleri), bağımlı değişkenin her grubu içindeki dağılımının yaklaşık olarak normal olması gerekir. Bunun kontrolü için, eğitim düzeyi değişkeninin her bir grubunun dağılımını ayrı ayrı incelememiz gerekiyor. Her bir grubu tek başına içeren küçük verisetleri yaratarak, bunlarla ilgili hem görsel hem de sayısal kontroller yapalım. Önce grupları ayırarak gerekli verisetlerini üretiyorum.

Yukarıdaki kodla gerekli grupları filtreledim ve bunları kendi isimlerini içeren yeni küçük verisetlerine atadım. Bundan sonra normal dağılım olup olmadığını incelemek için, gerekli grafikleri çizeceğim. Normal q-q plot bu konuda gayet başarılı bir grafik çeşididir. Aşağıdaki kod ile grafiği çizelim.

Burada sadece iki grup için bunu gerçekleştirdim, bu yeterlidir. Diğer gruplara geçmeden önce bunlara bir bakalım. “qqnorm” komutu, q-q plot’ı çizerken, “qqline” komutu da, normallik doğrusunu çizecektir. Grupların grafikleri sırasıyla aşağıdaki gibi:

Görüldüğü üzere verinin bir noktasından sonrası normallik çizgisinden sapmış. Bu da normallik koşulunun kabul edilebilecek durumda olmadığını gösteriyor. Bu durumda elimizdeki seçeneklerden biri, veriye dönüşüm gerçekleştirmek. Örneğin, log dönüşümü, ters alma dönüşümü veya karekök alma dönüşümü uygulanabilir. Fakat log ve ters alma dönüşümleri sadece tamamen pozitif veride uygulanabilir. Bizim verisetimizdeki sıfırlar log(0) ve 1/0 tanımsız olduğundan bu dönüşümlerin yapılmasını engellemektedir. Bu durumda elimizdeki tek şans karekök dönüşümü kullanmak. Bunun için aşağıdaki kod bloğunu kullanıyorum.

“mutate” komutu var olan değişkeni modifiye ederek yeni bir değişken oluşturmayı sağlar. Biz de bu noktada “sq_tvhours” adında bir değişkeni, “tvhours” değişkenine “sqrt(karekök)” komutunu uygulayarak oluşturduk. Görecek olursak:

Aynı normallik görselliklerini şimdi bir daha deneyelim.

Karekök dönüşümünden sonra, verisetinin normallik çizgisine biraz daha yaklaştığı gözüküyor. Hala tam olarak normal olduğunu söylemeyiz. Bu noktada şunu düşünmek gerekir; tam olarak değil yaklaşık olarak normallik arıyoruz. Ayrıca örneklemimiz fazlasıyla büyük olduğu için, verisetindeki çarpıklık aslında kabul edilebilir düzeyde. Yaklaşık normallik şartı, küçük veri setlerinde çok daha önemlidir. Fakat veriseti büyüdükçe, merkezi limit teoremi bize verinin dağılımı nasıl olursa olsun, örneklem büyüklüğü yeterliyse yaklaşık normalliğin varsayılabileceğini söyler. Yaklaşık normallik şartını da sağladığımıza göre, son koşula geçebiliriz.

3. Yaklaşık Eşit Varyans

Gruplardaki değişkenlik tutarlı ve sabit olmalıdır. Varyans bunun bir ölçüsü olduğu için, bunu yaklaşık olarak eşit varyanslar olmalıdır şeklinde de düşünebiliriz. Yukarıda çizdiğimiz kutu grafiğe burada bir kez daha dönelim.

Kutu boyutlarının değişkenliği temsil ettiğini yukarıda söylemiştim. Görülüyor ki grupların değişkenliği birbirlerine yakın kabul edilebilir. Birinci gruptaki gözlem sayısınını fazla olması onun değişkenliğini artırıyor ki bu gayet doğal. Fakat genel anlamda bu özellik göz ardı edilebilir. Şartlar sağlandığına göre ANOVA uygulamasına geçelim.

Öncelikle, ANOVA’yı uygulayacağımız veri setinde de karekök dönüşümü yapılmış değişkeni oluşturmamız gerekiyor.

Değişken hazır. ANOVA işlemini gerçekleştirmek için, incelediğimiz iki değişken arasında bir lineer model oluşturup, daha sonra bu model üzerine ANOVA’yı uygulayacağız. Öncelikle lineer modeli oluşturuyorum.

“lm” fonksiyonu, lineer modelin kısaltması olarak kullanılır. “~” ifadesinin solunda bağımlı değişken, sağında da bağımsız değişken bulunuyor. “data” argümanına ise verisetini koyduk. Lineer modelin detaylarını ise “summary” fonksiyonu aşağıdaki gibi gösteriyor.

Lineer regresyon modelinin çıktısını yukarıda görüyoruz. Modele dahil olan bağımsız değişkenin düzeylerini ve bu düzeylerin katsayılarını, p değerleri ile beraber çıktıda görebiliyoruz. Bu çıktının detaylarına, ileride regresyon ile alakalı yazacağım yazılarda değineceğim. Fakat bu yazının konusu varyans analizi(ANOVA) olduğu için, regresyon çıktısı detaylarına çok fazla girmeden ANOVA’yı gerçekleştireceğim. Komutu uygulayalım.

“anova” komutu, lineer modele varyans analizi yapar. Komutun çıktısı aşağıdaki gibi.

Çıktıda serbestlik derecesi, hatalar karesi ve ortalama hata karesini görebiliyoruz. ANOVA’nın ana teması, bağımlı değişkendeki değişkenliği parçalara ayırarak, bağımsız değişken tarafından açıklanabilen ve açıklanamayan olarak ikiye ayırmaktır. Üstteki çıktıda “degree” satırı, bağımsız değişken olan degree tarafından açıklanabilen değişkenliği gösterir. “Residuals” satırı ise, açıklanamayan kısmı gösterir. Örneğin, bağımlı değişkendeki toplam değişkenlik 14216.7476(Sum Sq sütunundaki değerler toplamı)’dir ve bunun 873’ü yani yaklaşık olarak %6.27’si bağımsız değişken olan “degree” tarafından açıklanabilirken, geriye kalan kısmı açıklanamamaktadır. Ortalama hata karesi sütunu ise toplam hata karesinin serbestlik derecesine bölünmesiyle bulunur. Yani “Mean Sq” kolonu, her satırdaki Sum Sq/Df işlemiyle bulunur. Sondan bir önceki sütunda F değeri bulunuyor. F değerinin tanımı, bağımsız değişken tarafından açıklanabilen değişkenlik/bağımsız değişken tarafından açıklanamayan değişkenlik olarak gösterilir. Yani “F value” sütunu da, iki satırın “Mean Sq” değerlerinin birbirine bölünmesiyle bulunur. Bu noktada biraz F değerine de değinelim. F değeri, ANOVA üzerinde hesaplanır ve F dağılımını kullanır. F dağılımı da aynı ki-kare dağılımı, t dağılımı veya normal dağılım gibi dağılımlardan biridir. F değeri ne kadar yüksek olursa, p değeri o kadar küçük olur ve tabii ki istatistiksel olarak anlamlılık da o kadar gerçekleşir. Bunun nedeni ise p değeri, F dağılımı içerisinde bulduğumuz F değerinin sağında kalan alandır. Bu alanın olasılık değeri p değerini verir. Üstteki ANOVA çıktısında p değeri 0.05’ten küçük olarak gözükmektedir. Bu da istatistiksel olarak anlamlı bir sonuç bulduğumuzu ve H0 hipotezini reddedeceğimizi gösterir.

H0 hipotezinin reddedilmesi, bu çalışmada şu anlama geliyor; elimizdeki veriler sonucunda ulaştığımız değere göre, “degree” değişkeninin düzeylerindeki günlük TV izleme saati ortalamalarından en az biri, diğerlerinden farklıdır. Fakat bu farklı olanın hangisi veya hangileri olduğunu bulmak için, ortalamalar arasında ikili t-testleri gerçekleştirmek gerekir. Bunun detaylarına bu yazıda girmeyeceğim.

Son olarak, burada gerçekleştirdiğimiz ANOVA’nın tek-yönlü olduğunu söylemeliyim. Bir bağımsız değişkenimiz değil de örneğin iki bağımsız değişkenimiz olsaydı, buna iki-yönlü ANOVA diyecektik.

“R Üzerinde Varyans Analizi(ANOVA): Eğitim Düzeyi ve TV İzleme İlişkisi” için 4 yorum

Yorum ekle

yavuz dedi ki:

24 Eylül 2018, 09:50

GERÇEKTEN DE VERİ BİLİMİ ADINA DOLU DOLU BİLGİLER VERMİŞSİNİZ ÇOK TEŞEKKÜRLER, UMARIM DEVAMI GELİR

Yükleniyor...

Yanıtla
1. hdemirr dedi ki:
  
  24 Eylül 2018, 11:58
  
  Teşekkür ederim, vakit buldukça yazmaya çalışıyorum.
  
  Yükleniyor...
  
  Yanıtla
Mehmet dedi ki:

7 Şubat 2019, 01:08

Selamlar,

bu yaziyi tekrar inceliyordum, ‘descriptive statistics’ ile gorulen max. 24 saat tv izleme vesaire gibi outlier’lar zaten boxplot’lar da da kendilerini belli ediyorlar.

Simdi arastirmaya cevap verenler gayri ciddi olarak 24 veya herhangi yuksek bir degeri belirtmis olabilirler. Detayli analize gecmeden once, bir sinir belirleyip (mesela 8 ya da 12 saat), bu sinirlarin uzerindeki gozlemleri veri setinden silsek analize bir anlam katilmis olur mu?

Ya da outlier’lardan arinma islemi boyle kafadan bir sayi belirleyip yapilmak istenmiyorsa, 3 sigma kurali veya bir ‘quantile’ fonskiyonu ile bu degerler veri setinden cikarilsa genel olarak analizler icin ne kadar mantiklidir?

Su ana kadar okudugum yazilarinizda aykiri degerleri temizleme ile ilgili bir islem hatirlamadigim icin sorayim dedim.

Iyi calismalar 🙂

Yükleniyor...

Yanıtla
1. hdemirr dedi ki:
  
  14 Nisan 2019, 21:03
  
  Selamlar,
  
  Sorunuzu geç gördüğüm için kusura bakmayın. Blogda atılan bazı yorumlar bana mail olarak düşerken, bazıları düşmüyor. Bu yüzden yorumları görebilmem için eski yazılara girip kontrol etmem gerekiyor.
  
  Outlier değerleri veriden atma hususunda, söylediğiniz 3 sigma kuralı gibi birçok metod bulunmaktadır. Sırf outler değerlerin incelenmesi için dahi ayrı bir yazı meydana getirilebilir. Açıkçası bu tarz detayları da yazıya kattığınızda, yazı kontrol edilemez derecede uzayabiliyor. Bu da yerine göre sıkıcı olabiliyor. Bu yüzden her zaman tercih etmiyorum.
  
  Outlier değerleri veri setinden çıkarmadan önce, neden outlier olduklarını araştırmak gerekir. Çünkü bazen en anlamlı senaryoları bize outlier değerler sunabilir.
  
  Fakat haklısınız, çok detaya girmeden de olsa bu konuya yazılarda biraz yer ayırmalıyım.
  
  Yükleniyor...
  
  Yanıtla

Ravenfo

Geleceğin problemlerini çözmek için.

R Üzerinde Varyans Analizi(ANOVA): Eğitim Düzeyi ve TV İzleme İlişkisi

Bunu beğen:

“R Üzerinde Varyans Analizi(ANOVA): Eğitim Düzeyi ve TV İzleme İlişkisi” için 4 yorum

Bir Cevap YazınCevabı iptal et

Bunu paylaş:

Bunu beğen:

“R Üzerinde Varyans Analizi(ANOVA): Eğitim Düzeyi ve TV İzleme İlişkisi” için 4 yorum

Bir Cevap YazınCevabı iptal et

Ravenfo sitesinden daha fazla şey keşfedin