1. EğitimMatistikİstatistik ve Histogramlar
Online Pratik Aptallar için İstatistik Çalışma Kitabı, 2. Baskı

Deborah J. Rumsey tarafından

Histogram, nicel veriler için yapılmış bir çubuk grafiktir. Veriler sayısal olduğundan, aralarında boşluk bırakmadan gruplara ayırırsınız (böylece çubuklar bağlanır). Y ekseni, her bir gruba düşen verilerin frekanslarını (sayımlarını) veya göreli frekanslarını (yüzdeleri) gösterir.

Histogram nasıl oluşturulur

Bir histogram yapmak için, önce verilerinizi eşit uzunlukta eşit sayıda gruba ayırırsınız. Her grupta yer alan veri kümesindeki değerlerin sayısını hesaplayın (başka bir deyişle, bir sıklık tablosu oluşturun). Bir veri noktası sınıra giriyorsa, hangi gruba yerleştirileceğine karar vererek tutarlı kaldığınızdan emin olun (her zaman ikisinin en üstüne koyun veya her zaman ikisinin altına koyun). Grupları ve frekanslarını kullanarak bir çubuk grafik yapın - bir frekans histogramı.

Frekansları toplam örnek boyutuna böldüğünüzde, her gruba düşen yüzdeyi alırsınız. Grupları ve yüzdelerini gösteren bir tablo göreceli sıklık tablosudur. Karşılık gelen histogram, nispi frekans histogramıdır.

Histogram yapmak için Minitab veya farklı bir yazılım paketi kullanabilir veya histogramlarınızı elle yapabilirsiniz. Her iki durumda da, aralık genişlikleri seçiminiz (bilgisayar paketleri tarafından bölmeler olarak adlandırılır), şekillerinizdekilerden farklı olabilir; Ve alışılmadık derecede düşük veya yüksek sayıda çubuk kullanmadığınız sürece ve çubuklarınız eşit genişlikte olduğu sürece, bunlar olacaktır.

Her aralık için farklı başlangıç ​​/ bitiş noktaları da seçebilirsiniz ve bu da iyidir. Eğitmeninizin ne yapmaya çalıştığınızı görebilmesi için her şeyi açıkça etiketlediğinizden emin olun. Ve bir sınırda ortaya çıkan değerler konusunda tutarlı olun; bunları daima alt gruba koyun veya her zaman üst gruba koyun. Bununla birlikte, bir seçeneğiniz varsa, Minitab gibi bir bilgisayar paketi kullanarak histogramlarınızı yapın. Görevinizi çok daha kolay hale getirir.

İki tür histogram yapma örneği için aşağıdakilere bakın.

30 kişilik bir sınıf için test puanları aşağıdaki tabloda gösterilmektedir.

Frekans histogramları ve bağıl frekans histogramları aynı görünür; sadece Y eksenindeki farklı ölçekler kullanılarak yapılır.

Skor verileri için frekans histogramı aşağıdaki şekilde gösterilmiştir.

frekans histogramı

Göreceli frekansları, her bir frekansı alarak ve 30'a (toplam örnek boyutu) bölerek bulabilirsiniz. Bu üç grup için bağıl frekanslar 8/30 = 0.27 veya% 27; 16/30 =% 0.53 veya% 53; ve sırasıyla 6/30 = 0.20 veya% 20'dir.

Göreceli frekanslara dayanan bir histogram, (aynı verilerin) histogramıyla aynı görünür. Tek fark Y eksenindeki etikettir.

Histogramları anlama

Histogram, nicel (sayısal) verilerinizin üç ana özelliği hakkında genel bilgi verir: şekil, merkez ve yayılma.

Bir histogramın şekli genel şekliyle gösterilir. Birçok desen mümkündür ve bazıları aşağıdakiler de dahil olmak üzere yaygındır:

  • Çan şeklindeki: Çan gibi görünüyor - ortada büyük bir yumru ve her iki tarafta da aynı oranda aşağı doğru giden kuyruklar. (Şekil a) Sağ eğri: Verilerin büyük bir kısmı sola doğru, birkaç büyük gözlem sağa doğru ilerliyor. (Şekil b) Sol eğri: Verilerin büyük bir kısmı sağa doğru, birkaç küçük gözlem ise sola doğru gidiyor. (Şekil c) Düzgün: Tüm çubuklar benzer bir yüksekliğe sahiptir. (Şekil d) Bimodal: İki tepe veya (Şekil e) U-şeklinde: Ortada daha az veri ile alçak ve yüksek uçlarda iki tepe bulunan bimodal. (Bkz.Şekil 4-1 (Şekil f) Simetrik: Ortaya böldüğünüzde her iki tarafta da aynı görünür; çan şeklindeki, tek biçimli ve U şeklindeki histogramların hepsi simetrik verilere örnektir. (Şekil a, d ve f)
ortak histogram kalıpları

Bir histogramın merkezini iki şekilde görüntüleyebilirsiniz. Birincisi, x-ekseni üzerindeki verinin gerçek değerleri dikkate alınarak grafiğin dengelendiği noktadır. Bu noktaya ortalama denir ve dengeleme noktasını bularak bulabilirsiniz (verilerin bir sallanmakta olduğunu hayal edin). Merkezi görüntülemenin diğer bir yolu, histogramdaki verilerin yüzde 50'sinin her iki tarafta bulunduğu çizgiyi bulmaktır. Çizgi medyan olarak adlandırılır ve veri kümesinin fiziksel ortasını temsil eder. Histogramın yarısını, alanın yarısı çizginin her iki tarafında olacak şekilde kestiğinizi düşünün.

Spread, veriler arasındaki mesafeyi, birbirlerine göre veya merkezi bir noktaya göre ifade eder. Yayılmayı ölçmenin kaba bir yolu, aralığı veya en büyük değer ile en küçük değer arasındaki mesafeyi bulmaktır. Başka bir yol, standart sapma olarak bilinen, ortadan ortalama mesafeyi aramaktır. Standart sapmayı sadece bir histograma bakarak bulmak zordur, ancak aralığı 6'ya ayırırsanız kaba bir fikir edinebilirsiniz. Ortadaki çubukların yükseklikleri çok uzun görünüyorsa, bu çoğu değerler ortalamaya yakındır ve küçük bir standart sapmayı gösterir. Çubuklar kısa görünüyorsa, daha büyük bir standart sapmaya sahip olabilirsiniz.

Kantitatif verileri hesaplamak için gerçek özet istatistikleri yapabilirsiniz, ancak bir histogram bu kilometre taşlarını bulmak için size genel bir yön verebilir. Pasta grafikler ve çubuk grafikler gibi, tüm histogramlar adil, tam ve doğru değildir. Onları değerlendirmek için nelere dikkat etmeniz gerektiğini bilmelisiniz.

Çarpık verilerin histogramlarla düzeltilmesi

Çarpık veri kümeleri için, hangi istatistiklerin ne zaman ve en uygun şekilde kullanılacağına ilişkin özel değerlendirmeler yapmanız gerekir. Ayrıca, yanlış istatistiklerin kullanılmasının yanıltıcı cevaplar vermesini de bilmelisiniz.

Verilerinizin şekli hakkında bilgi edinmek için ortalama ve medyan arasında ilişki kurabilirsiniz. Ortalama ve medyanın eşit olmaya yakın olması kabaca simetrik olan bir şekil yaratacaktır.

Ortalama, verilerdeki aykırı değerlerden etkilenir, ancak medyan etkilenmez. Ortalama ve medyan birbirine yakınsa, veriler çarpık değildir ve muhtemelen bir tarafta veya diğer tarafta aykırı değerler içermez. Bu, verilerin simetrik verilerin tanımı olan ortadaki her iki tarafta da aynı görüneceği anlamına gelir (önceki şekilde a, d veya f'ye bakın).

Ortalama ve medyanın yakın olmanın, verilerin kabaca simetrik olduğunu söylemesi, farklı türde bir test sorusunda kullanılabilir. Birisinin size verilerin simetrik olup olmadığını sorduğunu ve histogramınızın olmadığını, ancak ortalama ve medyanın olduğunu varsayalım. Ortalama ve medyanın iki değerini karşılaştırın ve yakınlarsa veriler simetriktir. Eğer değilse, veriler simetrik değildir.

Yanıltıcı bir histogram nasıl belirlenir

Okuyucular çubuk grafikle mümkün olmayan şekillerde bir histogramla yanlış yönlendirilebilir. Bir histogramın kategorik verilerle değil, sayısal verilerle ilgilendiğini unutmayın; bu, sayısal verilerin gruplara bölünmüş yatay eksende nasıl görüntülenmesini istediğinizi belirlemeniz gerektiği anlamına gelir. Ve bu gruplamaları nasıl belirlediğiniz grafiğin çok farklı görünmesini sağlayabilir. Okuyucuları yanlış yönlendirmek için ölçek kullanan histogramları izleyin. Çubuk grafiklerde olduğu gibi, bir histogramın dikey ekseninde daha küçük bir ölçek kullanarak farkları abartabilir ve daha büyük bir ölçek kullanarak farklılıkları önemsiz gösterebilirsiniz.