Sayısal yetenekler

İstatistiksel Analiz: İstatistiksel Dağılımları Anlamak

Uzun yıllar boyunca, seçkin istatistikçiler, örneklemlerden ve popülasyonlardan gelen verilerin genellikle çok benzer modeller oluşturduğunu fark ettiler. Örneğin, dağılımın dış kenarlarında daha az gözlemle (çok yüksek veya çok düşük değerler) çok sayıda veri ‘orta’ değerler etrafında gruplandı. Bu modeller, verilerin olası değerler aralığında nasıl ‘dağıtıldığını’ açıkladıkları için ‘dağılımlar’ olarak bilinir.

Matematikçiler bu kalıpları tanımlayan standart istatistiksel dağılımlar geliştirdiler. Bu standart istatistiksel dağılımlar genellikle istatistiksel analizde referans dağılımlar olarak kullanılır. Bu durum araştırmacıların verileri ve örnek gruplarını daha kolay karşılaştırmalarına izin verdikleri anlamına gelir.

Bu sayfada bazı standart dağılımlar açıklanmakta ve istatistiksel testlerdeki önemi açıklanmaktadır.

Normal Dağılım

Normal dağılım belki de en iyi bilinen istatistiksel dağılımdır ve şuna benzer:

Aynı zamanda şekli ve onu ilk tanımlayan matematikçi Carl F Gauss’tan sonraki Gauss dağılımı nedeniyle çan eğrisi olarak da bilinir.

Verilerin herhangi iki değer arasında sonsuz sayıda değer alabildiği sürekli değişkenlerin bir dağılımıdır (bunun hakkında daha fazla bilgi için Veri Türleri sayfamıza bakın).

Normal dağılıma yakın yaklaşımlar doğada, özellikle biyolojide yaygın olarak bulunur. Örneğin, yükseklikler, ağırlıklar ve kan basıncı, popülasyonda bu dağılım şeklini takip etme eğilimindedir, ortada bir küme, her iki tarafa doğru (çok yüksek ve çok düşük değerler). Kuyruklar asimptotik veya sonsuzdur, sıfır olasılığa yönelir. Fakat asla ulaşmaz.

Aynı zamanda önemlidir çünkü en güçlü istatistiksel testlerin çoğu verilerin normal olmasını gerektirir. Bunlar, Pearson ürün-moment korelasyon testini içerir (bunun hakkında daha fazla bilgi için İstatistiksel Analiz: Korelasyonları Anlamak sayfamıza bakın).

Normal eğri, olasılık ve standart sapmayla ilgili bazı yararlı özelliklere de sahiptir (verilerin ortalamanın etrafına ne kadar geniş yayıldığının bir ölçüsü). Standart sapma hakkında daha fazla bilgi için Basit İstatistiksel Analiz sayfamıza bakın.

Örneğin:

İlgili Makaleler
  • Değerlerin %68’i ortalamanın her iki tarafında bir standart sapma (SD) içindedir (bazen ± 1 SD olarak yazılır):

    Bu nedenle, ortalamanın bir standart sapması dahilinde olan bir veri noktasını rastgele seçme şansınız %68’dir.

  • Değerlerin %95’i, ortalamanın her iki tarafında iki standart sapma içindedir (± 2 SD):

    Bu durum ortalamanın iki standart sapması içinde olan bir veri noktasını rastgele seçme şansınızın %95 olduğu anlamına gelir.

  • Değerlerin %99,7’si ortalamanın üç standart sapması içindedir (± 3 SD):

    Rastgele bir veri noktası seçerseniz, ortalamanın üç standart sapması içinde olma şansı %99,7’dir.

Kolmogorov-Smirnov testi veya Shapiro-Wilk testi (istatistiksel yazılım paketleri bunları sizin için otomatik olarak hesaplayacaktır) gibi istatistiksel testleri kullanarak verilerinizin normal bir dağılımı takip edip etmediğini test edebilirsiniz. Önemsiz bir sonuç, verilerinizin normal olarak dağıtıldığını gösterir.

Anlamlılık testleri hakkında daha fazla bilgiyi Önem Testi ve Güven Aralıkları sayfamızda bulabilirsiniz.

Özel Bir Durum: t-Dağıtım

T-dağılımı, normal dağılım ile aynıdır. Ancak istatistiksel testlerde bir referans dağılımı olarak kullanıldığında, referans verilerinin standart sapması standart olarak verilmektense örnek verilerden tahmin edilir.

Binom ve Poisson Dağılımları

Binom ve Poisson dağılımlarının her ikisi de ayrık olasılık dağılımlarıdır. Başka bir deyişle, belirli olayların gerçekleşme olasılığının dağılımını tanımlarlar.

Binom dağılımı, her biri evet/hayır (veya doğru/yanlış) sonucuna sahip bağımsız deneyler dizisindeki başarı sayısının ayrık olasılık dağılımıdır. Bu nedenle, örneğin, bir kart destesinden bir as çekme olasılığı için, kart her çekilişten sonra değiştirilirse veya bir zara belirli bir değer atılması için kullanılabilir.

Normal dağılımın aksine, iki terimli dağılım histogram olarak gösterilebilir:

Yukarıdaki grafik, on testte (n=10) bir yazı (%50 olasılık veya p=0.5) veren bir yazı tura atma şansının dağılımını göstermektedir. Diğer bir deyişle, yaklaşık 100 kez 10 jeton atışı yapsaydınız, şunun gibi bir dağılım elde edersiniz: Çoğu zaman, yaklaşık %24’ü olmak üzere beş yazı alırsınız, ardından yaklaşık %20’sinde dört ve altı gelir. , ve bunun gibi.

Poisson dağılımı, belirli bir zaman diliminde belirli sayıda olayın meydana gelme olasılığını gösterir. Bu nedenle, binom dağılımının belirli bir durumudur ve hisse senedi ticareti için yaygın olarak kullanılır (belirli bir seviyenin altında ticaret olmadığı. Fakat maksimum değer teknik olarak sonsuzdur). Radyoaktif bozunmaya bakmak için de uygundur. Standart binom dağılımından daha az simetriktir ve değerlerin üst ucunda daha uzun bir kuyruk vardır:

Diğer İstatistiksel Dağılımlar

Her biri biraz farklı parametrelere sahip olan istatistiksel testlerde kullanılan birkaç başka istatistiksel dağılım vardır. Onlar içerir:

  • Değişken değerler veya ortalamalar yerine varyansların dağılımı olan ki-kare (χ2) dağılımı (daha önce açıklanan dağılımlar gibi);
  • Varyans oranlarının dağılımı olan F dağılımı.

Standart Dağılımların Özellikleri

Standart dağıtımlar bir dizi özelliği paylaşır. Bu özellikler şunları içerir:

  • Açık bir matematiksel tanım. Şekilleri, ortalama ve standart sapma (normal dağılım için) veya varyans (ki-kare dağılımı için) gibi sadece birkaç parametreyi yansıtır.

  • Kurulmuş teorik özellikler. Bu dağılımlar hakkında çok şey biliyoruz (örneğin, normal eğri simetriktir).

  • Gerçek veriler için iyi tahminlerdir. Gerçek dünya verilerinin bir örneğinde, tam bir normal dağılım elde etmek imkansızdır. Bununla birlikte, bu dağılımlar gerçek verilerin çok iyi tahminleridir.

Standart Dağılımları Referans Dağılımlar Olarak Kullanma

Standart dağılımlar genellikle istatistiksel testlerde referans dağılımlar olarak kullanılır.

Bu durum verilerin rastgele oluşma olasılığını görmek için örnek verilerin onlarla karşılaştırıldığı anlamına gelir.

Standart dağıtımların özellikleri, özellikle iyi bilinen özellikler ve bunların gerçek dünya verilerine iyi tahminler oldukları gerçeği olmak üzere, referans dağılımlar olmaya çok uygun hale getirir.

Bununla birlikte, başka referans dağıtım kaynakları da vardır.

  • Bootstrap dağıtımları, örnek verilerin mevcut tek veri olduğu varsayılarak ve bu verilerden tekrarlanan (daha küçük) örneklerin çıkarılmasıyla oluşturulur. Bunlar yalnızca bir bilgisayara erişiminiz olduğunda gerçekten kullanılabilir ve ideal değildir. Bu nedenle, yalnızca alternatif olmadığında kullanılmalıdırlar.

  • Permütasyonel dağılımlar, sıralanmış verilerin tüm olası permütasyonlarını bularak oluşturulur. Bu nedenle, tüm olası sonuçları alırlar ve ne kadar olası olduklarını görürler. Altta yatan herhangi bir teorik dağılımı varsaymazlar. Bu dağılımları kullanan testler. Bunları bilinen parametrelerle standart dağılımlar kullanan “parametrik” testlerden ayırmak için “parametrik olmayan” testler olarak bilinir.

  • Arşiv verileri, bir referans dağıtımı oluşturmak için de kullanılabilir. Bu durum kullanılabilecek çok sayıda geçmiş verinin olduğu durumlarda uygun olabilir.

İstatistiksel Dağılımlar Neden Önemlidir?

İstatistiksel dağılımları anlamanızın temel nedeni, bunların istatistiksel testlerde kullanılmasıdır.

Verilerinizden gerçek bir ilişki veya özellik belirlemenizin ne kadar olası olduğunu anlamanıza yardımcı olması için verilerinizi karşılaştırmak için bunları kullanabilirsiniz.

İlgili Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu