Artikel ini akan mengeksplorasi data kapal Titanic yang tersedia di situs Kaggle. Berikut ini tahapan-tahapan yang akan dilakukan.
1. Mengambil data
Data akan diambil dari github yang disiapkan oleh tim Onestring Lab. Data akan disimpan dalam bentuk Pandas dataframe. Penjelasan mengenai Pandas dataframe dapat dipelajari pada bagian Data Science. Berikut ini kode program untuk mengambil data dari github Onestring Lab.
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Onestringlab/osl_datascience/main/data/titanic/train.csv')
df.head()
2. Mengetahui jenis data dan jumlah data
Langkah selanjutnya adalah mengetahui jenis data yang pada setiap variabel. Selain itu, juga untuk mengetahui berapa jumlah kelengkapan data pada masing-masing variabel. Tipe data variabel pada data kapal Titanic cukup beragam yaitu int64, object, dan float64. Untuk jumlah data kosong, variabel Age dan Cabin memiliki data kosong. Variabel Age memiliki 177 data kosong, sedangkan variabel Cabin memiliki 687 data kosong.
df.info()
4. Mengetahui statistik deskriptif
Bagian ini akan diperlihatan statistif deskriptif dari data kapal Titanic. Data menunjukan bahwa jumlah data sebanyak 891 data dan presentase rata-rata penumpang selamat pada tragedi tenggelamnya kapa tersebut sebesar 38.38%. Selain itu, pada variabel Age juga dapat diketahui pada usia penumpang kapal Titani antar 0.42 – 80 tahun.
df.describe()
5. Mengetahui jumlah data yang kosong
Bagian ini akan mengeksplorasi lebih jauh mengenai variabel yang memiliki data yang kosong. Tabel menunjukkan bahwa terdapat 2 variabel yang memiliki data kosong, yaitu Cabin dan Age. Variabel Cabin memiliki presetanse data kosong sebesar 77.10%, sedangkan Age sebesar 19.92%.
row = df.shape[0]
total = df.isnull().sum().sort_values(ascending=False)
presentase = ((df.isnull().sum()/row)*100).sort_values(ascending=False)
presentase = round(presentase,2)
dt_missing = list(zip(total,presentase))
df_missing = pd.concat([total,presentase],axis=1,keys=['Total','%'])
df_missing
Kesimpulan Mengeksplorasi Data Kapal Titanic
Setelah dilakukan eksplorasi tahap awal pada data Kapal Titanic maka dapat disimpulkan bahwa data ini memiliki 891 baris data terdiri dari 11 variabel dengan tipe data int64, float64 dan object dan terdapat 2 variabel yang memiliki data kosong yaitu Cabin dan Age. Cabin memiliki presentase data kosong yang besar yaitu mencapai 77.10%, sehingga layak untuk tidak digunakan, sedangkan variabel Age masih di layak untuk digunakan untuk proses selanjutnya.