Hayatta kesin olan bir şey var ise hiç bir şeyin kesin olmadığıdır. “Belirsizlik” faktörü hayatın her alanında hissedilir.
- Sınavı geçebilecek miyim?
- Tuttuğum takım maçı kazanabilecek mi?
- Buluşmaya tam vaktinde varabilecek miyim?
- Hava yarın güneşli olacak mı?
Dünyada ölüm ve vergiler dışında hiçbir şey kesin değildir.
Benjamın franklın
Herhangi bir belirsizliğin olduğu durumda, olayın gerçekleşme ihtimalini düşünmeye başlarız ve buna göre iyi yada kötü tahminlerde bulunuruz.
Olasılık, bir sonucun gerçekleşme ihtimalini matematiksel olarak objektif bir şekilde hesaplama imkanı sunar. Bu sayede daha sağlıklı tahminler yapabiliriz.
Olasılık, tek bir solukta bitirilemeyecek kadar geniş ve detaylı bir konudur. 5 bölümden oluşan olasılık yazı dizisinde adım adım teoriden pratiğe ilerleyeceğiz.
- Bölüm: Olasılığa Giriş
- Bölüm: Olasılık Dağılımları
- Bölüm: Normal Dağılım ve Merkezi Limit Teoremi
- Bölüm: Örnekleme
- Bölüm: Olasılıktan İstatistiksel Çıkarıma Geçiş
Veri bilimi/analizi için olasılık neden önemlidir?
Veri biliminin/analizinin temel amacı veriden güvenilir tahminler ve çıkarımlar yapmaktır. Analiz için kullanılan verinin ne kadar güvenilir olduğunu yani hakkında çıkarım yaptığımız kitleyi ne kadar iyi temsil ettiğini bilmiyoruz. Bu belirsizlik, olasılığa olan ihtiyacı doğuruyor.

Görsel Kaynak: Lumen Learning
İstatistiksel tahminler yapabilmek için kullanılan metotların birçoğu köklerini olasılık teoremlerinden alır. Bu nedenle, olasılık veri bilimi için hayati öneme sahiptir.
Olasılık nedir?
Wikipedia’nın tanımına göre olasılık:
Olasılık ya da ihtimaliyet, bir şeyin olmasının veya olmamasının matematiksel değeri veya olabilirlik yüzdesi, değeridir.
Olasılık, kısaca belirsizlik bilimidir. Hayatın her alanında belirsizlik vardır. Olasılık, bu belirsizlik durumunda, olası sonuçların ne oranda gerçekleşebileceğini tahmin etmeye yardımcı olur. Bu sayede gerçekleşmesi muhtemel senaryolara dair önlemler alınabilir.
Örneğin, yarın sabah havanın yağmurlu olma ihtimali %80 ise bu havaya uygun giyinebilir, yanınıza şemsiye alabilirsiniz. Keza, aynı şekilde bir işi alma ihtimaliniz düşük görünüyorsa, harcamalarınızı kontrol altında tutmaya özen gösterebilirsiniz.
Herhangi bir olayın gerçekleşme olasılığı 0 ile 1 arasında değişir. 0 bir olayın gerçekleşmesinin imkansız olduğunu, 1 ise bir olayın kesinlikle gerçekleşeceğini temsil eder. Olasılık değeri 1’e yaklaştıkça olayın gerçekleşme ihtimali artar.
16. yüzyılın Fransız sosyetesinde kumar oynamak popülerdi ve devlet tarafından yasaklanmamıştı. Dönemin ünlü kumarbazlarından Chevalier de Méré, daha fazla para kazanmak için matematikçi arkadaşı Blaise Pascal‘a oynadığı oyun ve şansıyla ilgili bazı sorular sordu. Pascal, bu problemleri çözmek için meslektaşı Pierre Fermat ile yaptığı çalışmalarda klasik olasılık yaklaşımını buldu. Çağdaş olasılığın temelini atan ise Rus matematikçi Andrey Kolmogorov ve çalışmaları oldu.
Olasılık tanımlarına ve olasılık teorisinin aksiyomlarına geçmeden önce, konuyu kavramaya yardımcı olacak temel kavramlara göz atalım.
Olasılık teorisindeki temel kavramlar
Olasılık teorisinin temel amacı, günlük hava durumu, bir futbol maçının sonucu veya zar atma gibi bir deney hakkında çıkarımlar yapabilmek için matematiksel bir model oluşturmaktır.
Deney (Experiment – P(E))
Deney, birden fazla farklı olası sonucu olan, gerçekleşecek sonucunun önceden kesin olarak bilinmediği ve olası sonuçların çok iyi tanımlandığı belirsiz durumlara denir.
Örnek:
- Bir zar atılması.
- Futbol maçının sonucu.
- Madeni bir paranın yazı-tura için havaya atılması.
Çözüm/örneklem uzayı (Sample space – Ω)
Çözüm uzayı, deneyin sonucunda oluşabilecek tüm olası sonuçların kümesidir. “Ω” ifadesi ile temsil edilir.
Örnek:
- Zar: {1, 2, 3, 4, 5, 6}
- Maç: {Ev sahibi galibiyeti, beraberlik, deplasman takım galibiyeti}
- Madeni para: {Yazı, Tura}
Çözüm uzayı, sınırlı sayıda elemana sahip olabileceği gibi sınırsız sayıda elemana da sahip olabilir.
Örneklem sonucu – Örnek nokta (Sample point – ω)
Örneklem sonucu veya örnek nokta, deney bir kez tekrarlandığında oluşan sonuçtur. Deney tekrarlandığında çözüm uzayına bağlı olarak aynı sonuç elde edilebileceği gibi farklı sonuç da elde edilebilir.
Örnek:
- Zarın 6 gelmesi.
- Maçın berabere bitmesi.
- Madeni paranın “yazı” gelmesi.
Olay (Event)
Olay, çözüm uzayının bir alt kümesidir. Deneyin, istenilen koşulu sağlayan sonuçlarını temsil eder.
Örnek:
- Zarın 3’ten küçük gelmesi.
- Ev sahibi takımın maçı kaybetmemesi.
- Madeni paranın “yazı” gelmesi.
Olasılık ölçüsü (Probability measure – ℙ)
Her bir olay olasılık ölçüsü yardımı ile bir reel değere dönüşür. Diğer bir deyişle, olasılık ölçüsü olayları sayısal değerlere dönüştüren bir fonksiyondur.
Bir olayın gerçekleşmesinin ne kadar olası olduğunu belirttir. Bir A olayı için P(A) ile ifade edilir. P(A) 0 veya 1 arasında bir değer alır.
Yukarıdaki kavramlar birleşerek olasılık uzayını oluşturur. Bir olasılık uzayını şöyle görselleştirebiliriz:

Görsel Kaynak: Byjus
Olasılık nasıl hesaplanır?
Olasılık hesaplamalarında 3 farklı yaklaşım vardır.
1. Klasik/Teorik Olasılık Yaklaşımı
Genelde yaygın olarak ilk karşılaşılan durum klasik yaklaşımdır. Bir olayın gerçekleşebileceği tüm olası sonuçların, deney sonucunda oluşabilecek tüm sonuçlara yani çözüm uzayına bölünmesi ile hesaplanır. Teorik olduğu için herhangi bir veri toplama işlemine gerek duyulmaz.
P(A) = A’nın gerçekleşebileceği tüm sonuçlar / Tüm olası sonuçlar = n(A) / n(S)
Örnek olarak hilesiz bir zarın 2 gelmesi olasılığına bakalım.
- Bir zarda, her yüzeyinde birer adet toplamda ise 6 adet rakam bulunur. Bir zar havaya atıldığı zaman elde edilebilecek toplam sonuç sayısı 6’dır.
- Çözüm uzayı = {1, 2, 3, 4, 5, 6}
- n(S) = 6
- Zarın 2 gelmesi, 1 adet sonuç içerir.
- Örneklem sonucu = {2}
- n(A) = 1
P(Zarın 2 gelmesi) = 1/6
Avantajları
- Anlaşılması ve uygulanması basittir.
- Teorik olduğu için, herhangi bir veri toplamaya, gözleme ihtiyaç duymaz.
Dezavantajları
- Gerçek hayattaki birçok durumda, olayların tüm sonuçlarının gerçekleşme ihtimali eşit olmadığı için uygulama alanı sınırlıdır.
2. Empirik/Objektif/Frekans Olasılık Yaklaşımı
Objektif olasılık yaklaşımı, bir olayın gerçekleşme olasılığını veri toplayarak tahmin eder. Aynı zamanda bu yaklaşım, istatistiğin en önemli konularından biri olan hipotez testinin de temelini oluşturur.
Frekans olasılık yaklaşımında gerçekleşen deney sayısı arttıkça, olasılık değerinin giderek sabitleşeceği kabul edilir. Bu durum kararlılık özelliği olarak adlandırılır.
Frekans yaklaşımı, günlük hayattaki durumlara olasılık teorisinin sağlıklı bir şekilde uygulanmasını mümkün kılar.
Örnek olarak, elinizde hileli bir zar olduğunu düşünün. Zarın hileli olması, zarın üzerindeki sonuçların eşit olasılıkla gerçekleşmesini engeller. Bir önceki örnekte olduğu gibi zarın 2 gelmesi olasılığını hesaplamak için veri toplamaya ihtiyaç duyarız. Deney çok sayıda tekrarlandıkça desenler oluşmaya başlar ve klasik yaklaşımı uygulayabiliriz.
Avantajları
- Gerçek hayattaki olaylara olasılık teorisinin uygulanmasına imkan sağlar. Bu nedenle geniş bir uygulama alanına sahiptir.
Dezavantajları
- Veri toplanmasına ihtiyaç duyar. Klasik yaklaşıma göre uygulaması daha zordur.
- Olayın tekrar edilmesi ile veri toplandığı için, tekrarlanamayan olaylara uygulanamaz. (Ör: Bir hissenin yarın sabahki açılış değeri)
- Tutarlı bir tahminleme yapabilmek için deneyin kaç kez tekrar edilmesi gerektiğine net bir yanıt vermek zordur.
- Her tahminde gerçek değerin %100 doğrulukla tahmin edilebileceğine dair bir garanti yoktur.
3. Subjektif (Bayesian) Olasılık Yaklaşımı
Subjektif yaklaşım, olayın sonuçlarına dair olasılıkları kişinin kendi kişisel tahminlerinden, olayla ilgili eski tecrübelerinden veya sahip oldukları bilgiden tahmin eder.
Subjektif olasılık yaklaşımı, daha fazla bilgi elde edildikçe insanların inançlarını optimize ettiğini açıklayan Bayesci/Bayesyen istatistik ile de uyumludur.
Örnek olarak, ürününüzün tanıtımı için bir reklam tasarladınız ve sosyal medyada öne çıkarmak istiyorsunuz. Bulunduğunuz sektörün ortalama reklam tıklama oranlarını reklamınızın başarısının olasılık hesabında kullanabilirsiniz.
Girdiğiniz iş mülakatındaki performansınıza göre işi alma şansınızı değerlendirebilirsiniz. Burada kullanacağınız olasılık hesabı yaklaşımı da yine subjektif olacaktır.
Avantajları
- Herhangi bir olay hakkında, kaç kez tekrarlandığından ve sonuçlardan bağımsız olarak subjektif bir yaklaşım sergilenebilir. Bu nedenle, herhangi bir olay için subjektif olasılık yaklaşımı uygulanabilir.
- Subjektif olasılık yaklaşımını uygularken, uygun durumlarda klasik ve objektif yaklaşımlardan da yararlanılabilir.
Dezavantajları
- Sonuçların başarısı, kullanılan kaynağa, bilgi birikimine göre değişkenlik gösterebilir.
- Bir uzmanın görüşü diğer bir uzmandan farklı olabilir. Bu da sonuçlarda farklılıklara sebep olabilir.
- Subjektif yaklaşımın etkili olabilmesi için kullanılan subjektif verinin tutarlı olması gerekir. Tutarlık ile kast edilen olasılığın temek yasalarına uygun olmasıdır.
Olasılık teorisinin aksiyomları
Olasılığı tanımlamak ve olasılık hesabı yapmak için geliştirilen yaklaşımların tam olarak tatmin edici olmaması ve tüm durumlara uyarlanamaması nedeniyle Rus matematikçi Andrey Kolmogorov 1933 yılında olasılığı olaylarla ilişkilendirdiği ve üç aksiyomu/kuralı (Kolmogorov Aksiyomları) sağlayan bir fonksiyon olarak tanımlamıştır.
Daha sonrasında olasılık teorisi ve çağdaş olasılığın temelini de oluşturacak bu aksiyomlar aksiyom olasılığı olarak isimlendirilmiştir. Kolmogorov’un aksiyomları matematiksel istatistiğin başlangıcını oluşturur.
1. Aksiyom: Herhangi bir A olayı için, A’nın olma olasılığı sıfır veya sıfırdan büyüktür.
P(A) ≥ 0
İlk aksiyoma göre bir olayın en düşük gerçekleşme olasılığı 0’dır. Negatif değer olamaz. Kolmogorov aksiyomlarında bir üst değer belirtilmemiştir fakat olasılık teorisinde üst sınır 1’dir.
2. Aksiyom: Çözüm uzayında en az bir sonuç olma olasılığı 1’dir.
P(Ω) = 1
İkinci aksiyoma göre, bir deneyin kesinlikle en az bir sonucu olacaktır.
3. Aksiyom: Bir veya daha fazla karşılıklı kapsamayan (mutually exclusive) yani aynı anda gerçekleşmesi mümkün olmayan olayların olasılığı, her bir olayın olasılığının toplamına eşittir.
P(A or B)= P(A) + P(B)
Bazı olayların aynı anda gerçekleşmesi mümkün değildir. Mesela, aynı anda hem sağa hem de sola dönemezsiniz veya bir zar atıp aynı anda hem 5 hem de 6 gelmesini bekleyemezsiniz.
Böyle durumlarda, üçüncü aksiyoma göre aynı anda gerçekleşmesi mümkün olmayan iki olayın olasılıklarının toplamı, olayın olasılığına eşittir.
Örnek:
P(Zarın 5 veya 6 gelmesi) = P(5) + P(6) = 1/6 + 1/6 = 1/3
Olasılık teorisindeki temel amaç, belirsiz bir rastgele deneyi olasılık tahmini yapabilmek için matematiksel bir modele çevirmekti. Her bir olay için olasılık hesaplamasında kullanmak üzere bir fonksiyona ihtiyaç vardır.
Bu ihtiyaç da bizi rassal değişkenlere ve olasılık dağılımlarına yani serinin ikinci yazısına götürecektir.
Kaynakça
Kolmogorov Aksiyomları
A Short History of Probability
Probability and Statistics for Data Science – Carlos Fernandez-Granda