Pada artikel ini akan di bahas mengenai ukuran penyebaran

Apa itu Ukuran Penyebaran?

Ukuran penyebaran memberikan variabilitas dalam data dan seberapa baik data didistribusikan. Untuk mendapatkan gambaran keseluruhan dari data, kita akan menggunakan tendensi sentral dan ukuran deskripsi. Hal ini terutama digunakan dalam polling pemilihan, atau untuk menilai nilai ujian atau bahkan persentase kenaikan gaji.

Ukuran penyebaran terbagi 4 kategori

Range
Quartile
Variance
Standar Deviasi

Jupyter Notebook

import library numpy

In [1]:

import numpy as np

Membuat Data

In [2]:

# generate 30 data bilangan real
data = np.random.randn(30)
data

Out[2]:

array([-0.20181808,  0.56644081, -0.5385213 ,  0.95774588,  0.97635735,
       -1.0941052 ,  0.93006759,  0.4492942 ,  0.19985695,  0.66997106,
        0.14827642,  1.2728451 , -0.11812149,  0.60403548, -0.40400818,
        0.62219441,  0.46435442,  0.27383479, -0.89920297, -0.05828149,
        0.74119153, -0.55061788, -0.68031783,  1.54683908, -1.66209298,
        1.20524697,  0.32575178, -0.07868015,  0.53524161, -0.01932291])

In [3]:

# mengurutkan data
data = np.sort(data)
data

Out[3]:

array([-1.66209298, -1.0941052 , -0.89920297, -0.68031783, -0.55061788,
       -0.5385213 , -0.40400818, -0.20181808, -0.11812149, -0.07868015,
       -0.05828149, -0.01932291,  0.14827642,  0.19985695,  0.27383479,
        0.32575178,  0.4492942 ,  0.46435442,  0.53524161,  0.56644081,
        0.60403548,  0.62219441,  0.66997106,  0.74119153,  0.93006759,
        0.95774588,  0.97635735,  1.20524697,  1.2728451 ,  1.54683908])

1. Range
Menghitung selisih antara data terbesar dan data terkecil $$range = max(data) - min(data)$$

In [4]:

# menghitung range
np.max(data) - np.min(data)

Out[4]:

3.2089320572772344

2. Quartile
Quartile membagi urutan-urutan data menjadi 4 bagian yang sama

In [5]:

# Quartile Pertama
Q1 = np.percentile(data,25)
Q1

Out[5]:

-0.18089393017739763

In [6]:

# Quartile Kedua
Q2 = np.percentile(data,50)
Q2

Out[6]:

0.2997932878575289

In [7]:

# Quartile Ketiga
Q3 = np.percentile(data,75)
Q3

Out[7]:

0.6580268993082843

Interquatile Range $$IQR = Q_3 - Q_1$$

In [8]:

IQR = Q3 - Q1
IQR

Out[8]:

0.8389208294856819

3. Variance
Menunjukkan sejauh mana data tersebar dari rata-rata
Rumus Variance untuk populasi $$\sigma^2 = \frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}$$

Rumus Variance untuk sampel $$S^2 = \frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}$$

In [9]:

# generate 100 data bilangan real
populasi = np.random.randn(100)

# mengurutkan data
populasi = np.sort(populasi)

populasi

Out[9]:

array([-2.53211626e+00, -1.98230935e+00, -1.56840010e+00, -1.50407864e+00,
       -1.43215884e+00, -1.36079405e+00, -1.31673459e+00, -1.26141567e+00,
       -1.06062988e+00, -1.06062771e+00, -9.78396710e-01, -9.77292420e-01,
       -9.64091140e-01, -9.48780367e-01, -9.24499652e-01, -9.04653064e-01,
       -8.56245634e-01, -7.67055257e-01, -7.30042060e-01, -7.01571723e-01,
       -6.95768924e-01, -6.94302445e-01, -6.94119909e-01, -6.45289676e-01,
       -6.22733420e-01, -6.01237917e-01, -5.95411061e-01, -5.87801735e-01,
       -5.86108748e-01, -5.73332169e-01, -5.40135774e-01, -4.63402257e-01,
       -4.46188339e-01, -4.21859375e-01, -3.57440395e-01, -3.32591025e-01,
       -3.30816966e-01, -3.11657057e-01, -2.83051890e-01, -2.79316128e-01,
       -2.69953269e-01, -2.38457920e-01, -2.09225580e-01, -1.79321574e-01,
       -1.65357898e-01, -1.65034083e-01, -1.61820912e-01, -1.55502134e-01,
       -7.32946941e-02, -4.87252346e-02, -4.65713333e-02, -2.78876738e-02,
       -5.62504973e-04,  1.55312885e-03,  1.61204312e-03,  1.12644357e-02,
        5.85513500e-02,  6.71316417e-02,  9.41455675e-02,  9.57520488e-02,
        1.28188529e-01,  1.57180103e-01,  2.25363633e-01,  3.30052735e-01,
        3.78691235e-01,  3.80828982e-01,  4.27167209e-01,  4.34420849e-01,
        4.46889945e-01,  4.71867190e-01,  5.00382295e-01,  5.01100163e-01,
        5.68993168e-01,  5.92910356e-01,  5.99786642e-01,  6.05940466e-01,
        6.23246039e-01,  6.25202110e-01,  6.85139416e-01,  6.92884674e-01,
        7.56749547e-01,  8.42005769e-01,  8.74988284e-01,  9.05711220e-01,
        9.15043533e-01,  9.33772173e-01,  9.71122009e-01,  9.92562992e-01,
        1.02604635e+00,  1.04729636e+00,  1.06295994e+00,  1.11294042e+00,
        1.20282996e+00,  1.21598137e+00,  1.32093338e+00,  1.35358198e+00,
        1.37846837e+00,  1.42845490e+00,  1.58786941e+00,  1.74833911e+00])

In [10]:

# generate 100 data bilangan real
sampel = np.random.choice(populasi, 20)

# mengurutkan data
sampel = np.sort(sampel)

sampel

Out[10]:

array([-1.31673459e+00, -9.78396710e-01, -9.64091140e-01, -7.67055257e-01,
       -5.95411061e-01, -4.46188339e-01, -4.46188339e-01, -3.32591025e-01,
       -3.32591025e-01, -2.38457920e-01, -2.09225580e-01, -1.55502134e-01,
       -5.62504973e-04,  3.30052735e-01,  4.46889945e-01,  5.01100163e-01,
        6.05940466e-01,  7.56749547e-01,  9.92562992e-01,  1.06295994e+00])

Menghitung Variance

In [11]:

np.var(populasi)

Out[11]:

0.6997660157012142

In [12]:

np.var(sampel)

Out[12]:

0.43522759137818684

4. Standar Deviasi
Standar Deviasi adalah akar dari variance
Rumus standar deviasi untuk populasi

$$\sigma =\sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}}$$

Rumus standar deviasi untuk sampel $$S =\sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}}$$

Menghitung Standar Deviasi

In [13]:

np.std(populasi)

Out[13]:

0.836520182482894

In [14]:

np.std(sampel)

Out[14]:

0.6597178119303638

Kesimpulan

Telah dipelajari mengenai cara mengukur sebaran data. Untuk artikel lain terkait dengan statistik silahkan lihat kumpulan artikelnya disini.

Belajar Statistik – Apa itu Ukuran Penyebaran?

Jupyter Notebook

Kesimpulan

Rajo Intan

Ads Blocker Detected!!!

Jupyter Notebook

Kesimpulan

Rajo Intan

You might also like

Ads Blocker Detected!!!