January 21, 2025
Mengeksplorasi Data Kapal Titanic

Belajar Data Science – Mengeksplorasi Data Kapal Titanic (Bagian 1)

Artikel ini akan mengeksplorasi data kapal Titanic yang tersedia di situs Kaggle. Berikut ini tahapan-tahapan yang akan dilakukan.

1. Mengambil data

Data akan diambil dari github yang disiapkan oleh tim Onestring Lab. Data akan disimpan dalam bentuk Pandas dataframe. Penjelasan mengenai Pandas dataframe dapat dipelajari pada bagian Data Science. Berikut ini kode program untuk mengambil data dari github Onestring Lab.

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Onestringlab/osl_datascience/main/data/titanic/train.csv')
df.head()
Mengeksplorasi Data Kapal Titanic

2. Mengetahui jenis data dan jumlah data

Langkah selanjutnya adalah mengetahui jenis data yang pada setiap variabel. Selain itu, juga untuk mengetahui berapa jumlah kelengkapan data pada masing-masing variabel. Tipe data variabel pada data kapal Titanic cukup beragam yaitu int64, object, dan float64. Untuk jumlah data kosong, variabel Age dan Cabin memiliki data kosong. Variabel Age memiliki 177 data kosong, sedangkan variabel Cabin memiliki 687 data kosong.

df.info()
Informasi mengenai tipe dan jumlah data yang tersedia.

4. Mengetahui statistik deskriptif

Bagian ini akan diperlihatan statistif deskriptif dari data kapal Titanic. Data menunjukan bahwa jumlah data sebanyak 891 data dan presentase rata-rata penumpang selamat pada tragedi tenggelamnya kapa tersebut sebesar 38.38%. Selain itu, pada variabel Age juga dapat diketahui pada usia penumpang kapal Titani antar 0.42 – 80 tahun.

df.describe()
Data kapal Titanic dalam statistik deskriptif.

5. Mengetahui jumlah data yang kosong

Bagian ini akan mengeksplorasi lebih jauh mengenai variabel yang memiliki data yang kosong. Tabel menunjukkan bahwa terdapat 2 variabel yang memiliki data kosong, yaitu Cabin dan Age. Variabel Cabin memiliki presetanse data kosong sebesar 77.10%, sedangkan Age sebesar 19.92%.

row = df.shape[0]
total = df.isnull().sum().sort_values(ascending=False)
presentase = ((df.isnull().sum()/row)*100).sort_values(ascending=False)
presentase = round(presentase,2)
dt_missing = list(zip(total,presentase))
df_missing = pd.concat([total,presentase],axis=1,keys=['Total','%'])
df_missing
Presentase variabel yang memiliki data kosong.

Kesimpulan Mengeksplorasi Data Kapal Titanic

Setelah dilakukan eksplorasi tahap awal pada data Kapal Titanic maka dapat disimpulkan bahwa data ini memiliki 891 baris data terdiri dari 11 variabel dengan tipe data int64, float64 dan object dan terdapat 2 variabel yang memiliki data kosong yaitu Cabin dan Age. Cabin memiliki presentase data kosong yang besar yaitu mencapai 77.10%, sehingga layak untuk tidak digunakan, sedangkan variabel Age masih di layak untuk digunakan untuk proses selanjutnya.

Rajo Intan

Blogger, pemiliki Onestring Lab, menulis artikel terkait teknologi informasi dan pendidikan. Web Developer, berpengalaman lebih dari 20 tahun mengembangkan berbagai aplikasi dan sistem informasi. Kerjasama kontak di [email protected] atau https://forms.gle/xAGKkpi6B3BzJyzk7

View all posts by Rajo Intan →

Leave a Reply

Your email address will not be published. Required fields are marked *

Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.

Powered By
100% Free SEO Tools - Tool Kits PRO