İdeal dünyada, veri analizi için kullanacağımız verinin eksiksiz olmasını isteriz. Gerçeklikte ise çoğu zaman ideal dünyadan farklı bir durum bizi bekler. Genelde veri analizi için kullanılacak veri setinin bir bölümü farklı sebeplerden dolayı eksiktir ve bu haliyle analiz için uygun değildir.

Eksik/kayıp verilere sahip veri seti, analiz sayesinde elde edeceğiniz sonuçların güvenilirliğini, tutarlılığını etkileyecek, hedef kitlenizi temsil eden örneklemin temsil gücünü düşürecek ve yanlış çıkarımlar yapmanıza neden olacaktır. Ayrıca birçok makine öğrenmesi algoritması, analiz için kullanılacak veri setinde kayıp değerler olması halinde kullanılamayacaktır.

Bu nedenlerle, veri setine herhangi bir model uygulamadan önce kayıp veri analizi yapılarak, elde edilen bulgulardan sonra eksik verinin yarattığı sorunu gidermek için önerilen teknikler uygulanmalıdır.  

Kayıp veri (missing values) nedir?

Kayıp veri, veri setindeki herhangi bir hücrede değer olmamasıdır. Burada “değer olmaması” ile kastettiğimiz, değerin sıfır olması değil, gözleme dair bir yanıt bulunmamasıdır.

Şöyle bir örnekle açıklayabiliriz:

Diyelim ki, arkadaşınızın tez çalışmasına yardımcı olmak için sosyal medya kullanım alışkanlıklarını ölçen bir anket dolduruyorsunuz. Her soruya cevap verdiniz fakat son soruda gelir düzeyiniz merak ediliyor. Bu konuda bir yanıt vermek istemiyorsunuz ve bu soruyu cevapsız bırakarak anketi tamamlıyorsunuz. 

Arkadaşınız yanıtları değerlendirirken, gelir düzeyi sütununda sizi temsil eden gözlemde bir eksik veriye sahip olacaktır. 

Eksik değerler birçok farklı kaynakta ve yazılımda boşluk anlamına gelen  “NULL”, “NaN” veya “NA” olarak temsil edilir.

Kayıp veri sebepleri nelerdir? Kayıp veriler neden olur?

Kayıp verilerin oluşmasına birçok farklı neden olabilir. Bunlardan en sık rastlananları: 

  • Eksik ölçüm yapan sensörler.
  • Cevapların eksik verilmesi.
  • Verilerin yanlışlıkla silinmesi.
  • Veri üzerinde yapılan işlemler sırasında yaşanan veri kayıpları.
  • Yanlış kurgulanan veri toplama teknikleridir.

Eksik veri analizi nedir ve nasıl yapılır?

Kayıp verilerin miktarının ve kayıp türünün belirlenerek, uygun işlemlerin belirlenmesi analize kayıp/eksik veri analizi denir.

Herhangi bir veri setindeki eksik değerlerin analizi ve giderilmesi için aşağıdaki 5 adımdan oluşan eylem planı uygulanmalıdır:

  1. Tüm kayıp verilerin “NULL, NA veya NaN” olarak işaretlenmesi.
  2. Kayıp verilerin miktarının belirlenmesi.
  3. Kayıp verilerin kategorize edilmesi.
  4. Kayıp verilerin veri setinden çıkarılması veya yerine başka değerlerin atanması.
  5. Yapılan işlemlerin başarısını ölçmek için yeni veri setinin performansının değerlendirilmesi.

1.Adım: Tüm kayıp verilerin “NULL, NA veya NaN” olarak işaretlenmesi.

Veri bilimci/analisti olarak analiz edeceğiniz verinin nasıl toplandığını bilemeyebilirsiniz. Üzerinde çalışacağınız veri setine, veri girişi yapılırken eksik değerlerin yerine, boş olduğunu ima etmek için (!), nokta, -9999, soru işareti vs. gibi farklı değerler girilmiş olabilir.

Kayıp verilerle ilgili herhangi bir işlem yapmadan önce tüm kayıp değerlerin “NULL, NA veya NaN” olarak işaretlendiğinden emin olmak zorundasınız.

2. Adım: Kayıp verilerin miktarının belirlenmesi.

Tüm kayıp verilerin doğru formatla işaretlendiğinden emin olduktan sonra bir sonraki adımda, doğru teknikleri kullanmak için kayıp veri miktarını belirlemeli ve kayıp verilerin neden olduğunu anlamlandırmalısınız.

Kayıp veri miktarını sayısal veya grafiksel olarak iki farklı şekilde de görüntüleyebilirsiniz.

1- Kayıp veri miktarının belirlenmesi

Sayısal inceleme, veri setinizdeki hangi değişkenin ne kadar eksik değere sahip olduğunu rakamlar halinde görmenizi sağlayacaktır.

Veri setindeki değişkenlerin kayıp veri miktarına bilmeniz, değişkenle ilgili yapacağınız kayıp veri kategorizasyonu etkileyebilir. Bu da o değişkenin kayıp verilerine dair uygulayacağınız kararları değiştirecektir.

Örnek olarak bir değişkenin çok büyük bir oranda kayıp veriye sahip olduğunu varsayalım. Bu durumda değişkenin sizin için ne kadar önemli olduğunu, herhangi bir işlem yapmaya değer olup olmayacağını sorgulayabilirsiniz.

2- Kayıp veri miktarının görselleştirilmesi

Sayısal inceleme, kayıp verilerin kategorizasyonu için maalesef tek başına yeterli değildir. Veri setindeki değişkenlerin kayıp verilerinin arasında bir ilişki olup olmadığını veya tamamen rastgele oluştuğuna dair daha sağlıklı bir yorum yapabilmek için grafiklere ihtiyaç duyarız.

Sütun Grafiği (Bar Chart)

Veri setindeki kayıp verilerin hangi değişkende ne kadar bulunduğunu sütun grafiği yardımıyla hızlıca tespit edebiliriz. Yapılan çalışmalarda, insanların görselleri yazılı metinlere kıyasla 60,000 kat daha hızlı algıladığı ortaya çıkmıştır.

Eksik verileri gösteren örnek bir sütun grafiği şöyle görünecektir:

kayıp verileri gösteren sütun grafiği
Örnek kayıp veri sütun grafiği

Kayıp veri sütun grafiği nasıl yorumlanmalıdır?

  • Gri alanlar dolu gözlemleri, beyaz alanlar ise kayıp verileri temsil eder.
  • Sütun grafiğinin amacı hangi değişkenin ne kadar kayıp veriye sahip olduğunu grafiksel olarak göstermektir. Sütun grafiğine bakarak değişkenlerin kayıp değerleri arasında bir ilişki olup olmadığını söylenemez.
  • Sol taraftaki ölçek yüzdeyi kabaca yüzdelik dilimleri, sağ taraftaki ölçek ise sütundaki toplam değeri temsil eder. 1’e tamamlanan sütunlarda eksik veri olmadığı yorumu yapılabilir. Soldaki ilk iki sütuna bakıldığında, eksik veri olmadığı gözlemlenilebilir.
  • Her sütunun en tepesinde yer alan rakam, dolu hücre sayısının miktarını verir. Eksik veri barındırmayan, en soldaki ilk iki sütuna bakıldığında veri setinin 1,000 gözlemden oluştuğu söylenilebilir.
  • Her sütunun altındaki alanda değişkenlerin isimleri görülmektedir.

3. Adım: Kayıp verilerin kategorize edilmesi.

Kayıp verilerle ilgili nasıl bir işlem uygulanacağına karar vermeden önce kayıp verilerin mekanizmasına göre kategorize edilmesi gerekmektedir. Kayıp veri mekanizmaları, kayıp verilere yapılacak işlemlere karar vermede kilit rol oynar.

Kayıp veri mekanizmaları

Kayıp veriler 3 farklı şekilde kategorize edilebilir.

1.Tamamen Rastgele/Rastlantısal Kayıp (MCAR)

Tamamen Rastgele/Rastlantısal Kayıp (MCAR), kayıp verilerin tamamen rastlantısal şekilde ve kontrol dışı şekilde kayıp olmasıdır. Bu kayıp türünde verilerin eksik olmasının ne ölçülen değerlerle ne de veri setindeki diğer değerlerle bir ilgisi vardır. Genelde, teknik veya insan kaynaklı sebeplerden dolayı oluşur.

Herhangi bir katılımcının anket yanıtlarken bir soruyu görmeyip boş bırakmasını örnek verebiliriz.

2. Rastgele/Rastlantısal Kayıp (MAR)

Rastgele/Rastlantısal Kayıp (MAR), kayıp veriler ve “ölçülen” değerler arasında sistematik bir ilişki vardır. Yani, kayıp veriler yine rastgele oluşmuştur fakat ölçüm yapılan diğer değişkenler tarafından tahmin edilebilir.

Örnek olarak, kadınların yaşını söylemekte erkeklere göre daha çekingen davranmasını söyleyebiliriz. Burada dikkat edilmesi gereken en önemli nokta, MAR yorumunu yapabilmemiz için veri setinde cinsiyet verisine de sahip olmamız gerektiğidir.

3. Rastgele Olmayan Kayıp (MNAR)

Rastgele Olmayan Kayıp (MNAR), kayıp verilerin kayıp olmasının nedeni tamamen değişkenin kendisiyle veya veri setinde ölçülmemiş farklı bir değişkenle ilgilidir. Veri setinde ölçülen diğer değişkenlerle açıklanamaz ve neden olduğuna dair kesin bir çıkarım yapmak çok zordur. Verinin kaybı, araştırma sahibinin ölçmediği nedenlerle oluşmuştur.

Verinin kesinlikle rastgele eksik olmadığı yorumunu yapabilmek için eksik olan verinin elimizde olması gerekir.

Örnek olarak, IQ testi yaptırmamış insanların IQ testi skorunun sorulduğu bir soruyu cevaplamamasını gösterebiliriz. Buradaki kayıp verinin rastgele oluşmadığına dair kesin bir yorum yapabilmek için eksik IQ testi sonuçlarına ihtiyaç duyarız.

Bu bilgiden mahrum bir şekilde tespit yapabilmek için veri analisti/bilimci, verinin toplama yöntemi hakkında bilgi sahibi olmalı veya sektörü iyi bilmelidir.

Farklı kayıp veri mekanizmalarını karşılaştırdığımızda:

MekanizmaBağlantıGöz Ardı EdilebilirlikKayıp Miktarı
Tamamen Rastgele Kayıp (MCAR)Bağlantı yokEdilebilirGenelde az
Rastgele Kayıp (MAR)Başka değerlerleEdilebilirGenelde çok
Rastgele Olmayan Kayıp (MNAR)Kendi değerleriyleEdilemezGenelde çok

Kayıp verilerin mekanizmalarının belirlenmesi

Yukarıdaki tanımlardan da görüldüğü üzere, kayıp verileri kategorize ederken mutlak tanımlamalar yapmak çok zordur. Belirli grafiksel yöntemler, hipotezler ve sektör bilgisi ile daha sağlıklı çıkarımlar yapılabilir.

1. Tamamen Rastgele/Rastlantısal Kayıp (MCAR) vs Rastgele/Rastlantısal Kayıp (MAR)

Kayıp verilerle ilgili yapabileceğimiz en net çıkarım veri kaybının tamamen rastgele (MCAR) olup olmadığıdır. Kayıp veri miktarının az olduğu değişkenlerde, tamamen rastgele kayıp (MCAR) olması olasıdır.

  • Little’s MCAR Test

1988 yılında Amerikan İstatistik Derneği’nde yayınlanan (American Statistical Association) bir makale ile istatistikçi Roderick Little’ın adını alan “Little’s MCAR Test” testi ile kayıp olan ve tam olan veriler arasında bir karşılaştırma yapıp, sonuçların anlamlı olup olmadığına bakarız.

Bu test sayesinde kayıp verinin tamamen rastgele kayıp mı yoksa rastgele kayıp mı olduğuna dair bir yorum yapabiliriz.

ho: Değişkendeki veri kaybı tamamen rastgele oluşmuştur.
h1: Değişkendeki veri kaybı tamamen rastgele oluşmamıştır.

Test sonucunda p-değeri (p-value) %5 anlamlılık seviyesinde 0.05’ten küçük ise h0 hipotezi red edilerek, verideki kaybın tamamen rastgele (MCAR) olmadığı söylenebilir.

  • Kukla Değişken (Dummy variable)

MCAR’ı test etmenin başka bir yolu da, bir değişkenin eksik olup olmadığına dair kukla değişkenler oluşturmaktır. Ardından, eksikliğin bunlarla ilgili olup olmadığını görmek için kukla değişkenler ve diğer değişkenler arasında istatistiksel analiz yapın.

Eksik değerler = 1
Gözlemlenen değerler = 0

Daha sonra bu değişkendeki eksikliğin diğer değişkenlerin değerleriyle ilişkili olup olmadığını görmek için bu değişken ile veri kümesindeki diğer değişkenler arasında t-testleri ve ki-kare testleri çalıştırabilirsiniz.

Örneğin, kadınların size kilolarını söyleme olasılığı erkeklerden daha düşükse, ki-kare testi size ağırlık değişkenindeki eksik verilerin yüzdesinin erkeklerden daha yüksek olduğunu söyleyecektir.

2. Rastgele/Rastlantısal Kayıp (MAR) vs Rastgele Olmayan Kayıp (MNAR)

Herhangi bir istatistiksel test yardımıyla verinin rastgele kaybolmadığını (MNAR) kanıtlayamayız. Eksik verileri tamamen rastgele veya rastgele kayıp olarak nitelendiremediğimiz durumlarda rastgele kaybolma ihtimali

Bu nedenle, verinin rastgele kaybolmamış olma ihtimalini her zaman göz önünde bulundurmalıyız.

  • Kayıp verinin tamamlanması

Eksik verinin rastgele kayıp olmadığını söyleyebilmenin en net yolu eksik olan veriye sahip olmaktır. Bu nedenle bazı anket çalışmalarında tekrarlı aramalarla eksik veriler tamamlanır. Fakat bu imkan her veri seti için geçerli değildir.

  • Sektör bilgisi

Eksik veriyi tamamlamanın bir yolu olmadığı diğer bir durumda ise sektör bilgisi kilit rol oynamaktadır. Örnek olarak yıllardır okullarda sosyal analiz çalışmaları yaptığınızı varsayalım. Öğrencilerin sigara içtiklerine dair sorduğunuz bir soruda eksik veriniz var ve tecrübenize dayanarak, sigara içen bazı öğrencilerin ceza almaktan korktuğu için bu soruyu cevaplamadığını biliyorsunuz.

  • Veri seti içerisindeki kayıp değerlerin birbiriyle ilişkisi

Veri setindeki değişkenlerin kayıp değerlerinin birbiri arasında bir ilişki olması, kayıp verinin rastgele oluşmadığına yönelik ipucu verir. Bu konuda sağlıklı bir yorum yapabilmek için grafiklere ihtiyaç duyarız.

Kayıp Veri Matriksi (Matrix)

Sütun grafiği, kayıp verilerin sayısını gösterirken, kayıp veri matriksi ile kayıpların her değişkende hangi gözlemde meydana geldiğini görebiliriz.

Örnek kayıp veri matriksi

Kayıp veri matriks grafiği nasıl yorumlanmalıdır?

  • Matriks grafiğinde gri alanlar dolu gözlemleri, beyaz alanlar ise kayıp verileri temsil eder.
  • Matriks grafiğindeki temel amaç, değişkenlerin kayıp değerleri arasında bir bağlantı olup olmadığına dair ipucu aramaktır.
  • 3. ve 4. sütundaki kayıp değerlerin tamamen ilişkili oldukları gözlemlenmektedir. Keza benzer bir eğilim 8. ve 9.sütunlarda (ON STREET NAME & CROSS STREET NAME) da gözlemlenmektedir.
  • Bu tarz ilişki örgüleri kayıp verinin rastgele kayıp olmadığına (MNAR) dair sinyaller vermektedir.

Korelasyon Isı Haritası (Correlation Heatmap)

Korelasyon ısı haritası, kayıp veri matriksine ek olarak değişkenlerin kayıp değerlerinin birbirleri ile bir ilişkisi olup olmadığını anlamak için kullanılır.

Matriks grafiğinden farklı olarak değişkenlerin kayıp verilerinin arasındaki ilişkilerin gücünü farklı renkler ve -1 ile 1 arasında değişen bir değer ile gösterir.

Korelasyon ısı haritası yardımı ile Matriks grafiğinde yakalayamadığımız ilişkileri, daha net şekilde fark edebilir, çıkarımlarımızdan daha emin olabiliriz.

Örnek korelasyon ısı haritası

Korelasyon ısı haritası nasıl yorumlanmalıdır?

  • Grafikte her değişkenin kayıp verilerinin bir diğeriyle olan ilişkisini ikili kombinasyonlar halinde görürüz. (Ör: Değişken A vs Değişken B, Değişken A vs Değişken C, Değişken A vs Değişken C)
  • Hücrelerin üzerinde yer alan rakam ilişkinin yönünü ve gücünü belirten korelasyon kat sayısıdır.
  • Korelasyon kat sayısı -1 ile +1 arasındadır. Negatif değerler ilişkinin ters orantılı, pozitif değerler ise doğru orantılını gösterir.
  • Korelasyon kat sayısı -1 veya +1’e yaklaştıkça ilişki güçlenir. 0’a yakın değerler ilişkinin yok veya yok denecek kadar zayıf olduğunu gösterir.
  • Mavi tonlar ilişkinin +1’e yakın olduğunu, kırmızı tonlar ise ilişkinin -1’e yakın olduğunu gösterir.
  • Herhangi bir kayıp değeri bulunmayan değişkenler grafikte yer almaz.
  • Matriks ile fark edilen ilişkiler (Ör: BOROUGH vs ZIP CODE, ON STREET NAME & CROSS STREET NAME) net bir şekilde görülmektedir.

Korelasyon ısı haritası, değişkenlerim kayıp değerlerinin birbirleriyle olan ilişkileri hakkında önemli ipuçları verirken, veri setindeki değişken sayısı arttıkça karmaşıklaşır ve çıkarım yapmayı güçleştirir. Bu noktada farklı görselleştirme araçlarına ihtiyaç duyarız.

Dendrogram

Korelasyon ısı haritasının yetersiz kaldığı yerlerde, kayıp verilerin birbirleriyle olan ilişkilerini anlamak için dendrogram kullanılabilir. Korelasyon ısı haritasından farklı olarak değişkenler arası ilişkileri çiftler halinde değil, gruplar halinde de göstermektedir.

Örnek dendrogram

Dendrogram grafiği nasıl yorumlanmalıdır?

  • Birbiriyle ilişkisi olan gruplar aynı küme içerisinde beraber bulunur. Değişkenler birbirine ne kadar yakınsa, kayıp değerlerinin birbiri ile ilişkisi o kadar güçlüdür.
  • Eksik değeri bulunmayan değişkenler bir arada toplu olarak bulunur. Örnek grafikte en sağda görülen kümedeki değişkenlerin kayıp değeri bulunmamaktadır.
  • Korelasyon ısı haritasında korelasyon kat sayısı 1 olan, mavi renkli değişkenlerin sıfır noktasında beraber kümelendikleri görüntülenmektedir.
  • Yatay şekilde 50’ye kadar farklı değişken kolaylıkla görüntülenebilir. Daha fazla değişkeni görüntülemek için dendrogram dikey konumlandırılmalıdır.

4. Adım: Kayıp verilerin veri setinden çıkarılması veya yerine başka değerlerin atanması.

Kayıp verileri herhangi bir veri setinin davetsiz misafiri olarak düşünebilirsiniz. Olmasını istemezsiniz ama çoğunlukla oradadır.

Bu konuda ünlü istatistikçi Fisher şöyle demiştir:

Kayıp verilerle baş etmenin en iyi yolu hiç kayıp veriye sahip olmamaktır.

Ronald A. Fisher (1890 – 1962)

Bu nedenle, kayıp verilerle ile ilgili mutlaka bir çözüm bulunmalıdır. Literatürde kullanılan yaygın yöntemleri silme ve atama yöntemleri olarak 2 gruba ayırabiliriz:

4.1 Silme Yöntemleri

Kayıp veri ile baş etmede kullanılan yöntemlerden ilki kayıp verilere dair gözlemlerin veri setinden çıkarılması yani silinmesidir.

Veri kaybı sorunlara yol açabileceği için silme işlemleri genelde tercih edilmez.

Kayıp veri mekanizmasının Tamamen Rastgele Kayıp (MCAR) olması ve kayıp veri miktarının %5’ten az olması durumunda uygulanması önerilir.

4.1.1 Tam Hücre Analizi / Satır Bazlı Silme (Listwise)

Kayıp/eksik verilerle mücadelede akla gelen ilk yöntem kayıp olan tüm gözlemleri görmezden gelerek, tam olan gözlemlerle ilerlemektir. Bunun için de gözlemde bir veya daha fazla eksik değer bulunması durumunda tüm satır silinir.

Avantajları

  • Basit bir işlem olduğu için hızlı bir çözümdür.

Dezavantajları

  • Yanlı (biased) tahminler üretebilir.
  • Örneklem sayısını düşürdüğü için standart hatayı artırır ve testin gücünü düşürür.
  • Analiz için kullanılacak modelde fazla değişken dahil edilmesi durumunda, herhangi bir değişkendeki eksik veri nedeniyle gözlem silineceği için önemli miktarda veri kaybı yaşanabilir.
4.1.2 Erişilebilir Hücre Analizi / Eşleştirme Yoluyla Silme (Pairwise)

Analiz için kullanılacak değişkenler seçildikten sonra, seçilen değişkenler üzerinde eksik veriler temizlenir.

Avantajları

  • Satır bazlı silme işlemine kıyasla daha az veri kaybı yarattığı için testin gücü daha yüksektir.

Dezavantajları

  • Farklı analizler, veriden çekilen farklı alt gruplar kullanılarak yapılacağı için sonuçlar tutarlı olmayabilir. Bu nedenle aynı veri seti kullanılarak yapılan farklı analizleri karşılaştırmak mümkün değildir.
  • Eksik ve eksik olmayan veri grupları arasında sistematik bir fark varsa yanlı (biased) tahminler üretebilir.
4.1.3 Sütun Bazlı Silme

Herhangi bir değişkenin tamamen veri setinden silinmesidir. Değişkenin büyük bir çoğunluğunun (%60 ve fazlası) eksik değerlerden oluşması ve yapılacak analizde önemsiz bir yeri olması durumunda tercih edilebilir.

Avantajları

  • Yapacağınız analize göre daha doğru değişkenlerle çalışma fırsatı verir.

Dezavantajları

  • Uygulayacağınız değişkenin analiziniz için önemsiz olduğundan emin olmanız gerekir.

4.2 Değer Atama Yöntemleri

Kayıp veri ile baş etmede kullanılan bir diğer yöntem ise kayıp verilere dair gözlemlerin basit veya model-bazlı gelişmiş teknikler kullanılarak değer ataması ile eksikliğinin giderilmesidir.

4.2.1 Tekli atama

Tekli atama yöntemlerinde bir değişkende bulunan tüm eksik veriler değişkeni temsil eden tek bir gözlem ile değiştirilir.

  • Ortalama, Medyan, Mod veya Sabit bir Değer Atama

Atama için kullanılacak değer değişkenin ortalaması, medyan değeri, kategorik bir değişken ise en çok gözlemlenen yani mod değeri veya sıfır gibi sabit bir değer olabilir.

Avantajları

  • Silme işlemine kıyasla veri kaybı yaşanmaz.

Dezavantajları

  • Tüm eksik verilere sabit bir değer ekleneceği için değişkenin varyans değerini yani değişkenliğini düşürecektir.
  • Atama yapılan değişkenin varyans değerini düşürdüğü için, değişkenin dağılımına zarar verecektir.
  • Değişkenler arasındaki ilişkileri ihmal ettiği için yöntemin uygulandığı değişkenlerle veri setinde bulunan diğer değişkenler arasındaki korelasyonu düşürür.
  • Verinin rastgele kayıp olarak (MAR) kategorize edildiği durumlarda kullanılması önerilmez.
  • Regresyon ile Değer Atama

Regresyon ile değer atama yönteminde, diğer değişkenlerdeki gözlemler kullanılarak oluşturulan bir regresyon modeli ile kayıp veriler tahmin edilir.

Avantajları

  • Diğer atama yöntemlerinde olduğu gibi silme yöntemlerine kıyasla veri kaybını engeller.
  • Eksik değerleri tahmin ederken diğer değişkenleri de modele dahil ettiği için, ortalama/medyan/mod atama yöntemine kıyasla, veri seti içerisindeki değişkenlerin birbiriyle olan ilişkisini de göz önünde bulundurur.
  • Atanan değerler birbirinden farklı olacağı için değişkenin standart sapma değerini etkilemez ve dağılımını bozmaz.

Dezavantajları

  • Atanan değerler diğer değişkenlerdeki gözlemlerden tahmin edildiği için modelde kullanılan değişkenlerle kayıp verilere sahip değişken arasında yüksek korelasyon oluşur. Bu durum değerlerdeki belirsizliği düşürür.
  • Regresyon yöntemleri, modelde kullanılan değişkenler arasında lineer bir ilişki olduğunu varsayar. Pratikte durum böyle olmayabilir.
  • K-En Yakın Komşu (K-Nearest Neighbour – KNN) ile Değer Atama

K-En Yakın Komşu metodu, çok boyutlu bir düzlemde, seçilen bir değeri en yakın komşuları ile eşleştiren bir algoritma ile çalışır. Bu yöntem, eksik gözlem ve en yakın k adet gözlem arasındaki mesafeyi hesaplar ve bu mesafelerin ortalamasını kayıp gözleme atar.

KNN yönteminde seçilen “k” gözlem değeri kritik öneme sahiptir. Yüksek “k” değeri eksik değerden kayda değer derecede farklı gözlemleri hesaba katarken, düşük “k” değeri ise iyi tahmin için önemli değerleri dışarda bırakır. Bu nedenle farklı “k” değerleri denenerek, veri seti için en uygun gözlemler bulunabilir.

Avantajları

  • Tüm kayıp veri mekanizmaları için de kullanılabilir.
  • Tüm veri tipleri (sürekli, kesikli, kategorik vs.) için kullanılabilir.
  • Yeterli veri miktarı ile doğruluğu yüksek tahminler yapabilir.

Dezavantajları

  • KNN metodu mesafe bazlı bir hesaplama yaptığı için en doğru tahminleri elde etmek adına veri setinin normalize edilmesi gerekir.
  • Fazla değişkenin olduğu kalabalık veri setlerinde yavaş çalışır.
4.2.2 Çoklu Veri Atama

Çoklu veri atama yöntemleri, veri setindeki gözlemlenen değerleri kullanarak, eksik verilere dair birden fazla değer tahmini üreten yöntemlerdir. Analiz sırasında birden fazla atama yöntemi birlikte kullanılır.

Silme ve tekli atama yöntemlerinin getirdiği dezavantajları ortadan kaldırmak için tasarlanan gelişmiş yöntemlerdir. Atama yaparken, veri setinde eksik veriden kaynaklanan belirsizliği de dikkate aldığı için diğer yöntemlere göre avantajlıdır.

Kayıp verinin rastgele oluştuğu (MAR) olduğu durumlarda başarılı sonuçlar vermektedir.

  • Zincirleme Denklemlerle Çoklu (Multivariate Imputation by Chained Equations — MICE) Atama

MICE, çoklu veri atama prensipleri ile çalışan gelişmiş bir veri atama yöntemidir. Algoritma şu şekilde çalışır:

1- Tekli atama yöntemlerinden birisiyle (Ör: Ortalama değer ataması) eksik veriler tamamlanır. Bu değerler geçici olarak atanmış değerlerdir.
2- Geçici değerlerden biri seçilir ve tekrar “eksik veri” olarak işaretlenir. Bu değişkene temsili olarak “var” ismini verelim.
3- “var” değişkeni bir regresyon modelinde bağımlı değişken ve geriye kalan diğer tüm değişkenler bağımsız olarak işaretlenir.
4- “var” değişkenine dair eksik gözlem, regresyon modeli ile tahmin edilir.
5- Bu yöntem, sırasıyla eksik veriye sahip diğer değişkenler için de uygulanır. Bir turun ardından, 1. adımda tekli atama yöntemi ile atanan geçici veriler, regresyon modeli ile tahmin edilen yeni değerler ile değiştirilir.
6- 2, 3 ve 4. adım tutarlı bir değer elde edene kadar belirli bir sayıda tekrar edilir.

Avantajları

  • Farklı veri tipleri üzerinde etkilidir.
  • Çoklu veri atama yöntemlerinin getirdiği tüm avantajlar MICE için de geçerlidir.

Dezavantajları

  • Kayıp verinin tamamen rastgele (MCAR) veya rastgele kayıp (MAR) olduğu varsayımıyla çalışır.
4.2.3 Zaman serisi atama yöntemleri

Gözlemlerin zamana göre sıralandığı veri setlerine zaman serisi denir. Hava durumu ve hisse senedi raporları günlük hayatta karşınıza sıkça çıkan zaman serisi örneklerindendir.

Zaman serilerinde yaşanan kayıp veriler genelde belirli bir zaman diliminde kayıt almada yaşanan problemler sonucunda oluşur.

Zaman serileri, trend, mevsimsellik ve döngüsellik gibi farklı karakteristikler barındırdığı için özel atama yöntemlerini kullanmayı gerektirir.

  • Önceki Dönem Verisi/Sonraki Dönem Verisi Atama

Zaman serisindeki kayıp verilere atama yaparken kullanılacak yöntemlerden bir tanesi bir önceki veya bir sonraki kayıp olmayan veriyi eksik olan gözlem yerine atamaktır.

Her iki yöntem de, bir önceki veya bir sonraki eksik olmayan gözlemi atadığı için, verinin bir önceki/sonraki değerinin eksik olan gözlem ile aynı olduğunu varsayar.

Avantajları

  • Uygulaması basittir.

Dezavantajları

  • Zaman serisinde belirgin bir trend varsa bu atama yöntemi yapılan analizleri yanlı (biased) hale getirecektir.
  • Ara Değerini Bulma (Interpolation)

Ara Değerini Bulma (Interpolation), veri setindeki değerleri kullanarak bir fonksiyon üreten, daha sonrasında da bu fonksiyonu eksik değerleri tahmin etmek için kullanan matematiksel bir metottur.

Zaman serisinin trendine göre aşağıdaki farklı ara değerini bulma (interpolation) yöntemleri kullanılabilir:

  • Lineer (Linear): Eksik gözlemden bir önceki ve sonraki değerin ortalaması atanır.
  • Kuadratik (Quadratic): Eksik değer parabolik olarak atanır.
  • En Yakın (Nearest): Eksik değere bilinen en yakın gözlem atanır.

Avantajları

  • Zaman serisinde belirgin trendlerin olduğu durumlarda bu yöntemleri kullanmak daha sağlıklı tahminler üretecektir.

Dezavantajları

  • Zaman serisinin trendinin yeterince belirgin olmadığı durumlarda kötü performans gösterebilir.

5. Adım: Yapılan işlemlerin başarısını ölçmek için yeni veri setinin performansının değerlendirilmesi.

Her veri seti ve her değişken farklı özelliklere sahiptir. 4. adımda anlatılan yöntemler genel olarak kullanılsa da sonuçlar veri setinden veri setine ve durumdan duruma göre değişkenlik gösterecektir.

Kayıp veri analizinin son adımında uygulanan stratejinin başarısı değerlendirilmelidir. Başarı ölçümü için 2 farklı yöntem kullanılabilir:

1- Kernel Yoğunluk Grafiği (Kernel Density Plot)

Kernel Yoğunluk Grafiği, herhangi bir değişkenin dağılımını gösteren bir grafiktir. Bu grafiği kullanarak, herhangi bir atama veya silme işlemi yapılmış değişken ile işlem yapılmamış halinin dağılımlarını kıyaslayarak, yapılan işlemin uygunluğuna dair bir fikir edinebiliriz.

2- R-Kare Değeri

R-kare değeri, regresyon modelinde, modelin doğruluğunu açıklar. R-kare değeri ne kadar yüksekse modelin uyumunun o kadar iyi olduğunu söyleyebiliriz.

Değişkenler üzerinde yapılan farklı işlemlerin r-kare değerlerini karşılaştırarak, hangi işlemin daha başarılı olduğuna yönelik bir karar verebiliriz.

Kaynakça: