Visualisasi data adalah sesuatu yang sangat penting agar pembaca dapat memahami data secara lebih baik. Ini merupakan lanjutan dari pembahasan mengeksplorasi data kapal Titanic bagian 1. Artikel ini akan berfokus untuk proses visualisasi dari kumpulan data yang ada. Data kapal Titanic dapat di akses melalui situs Kaggle.
Diagram yang digunakan pada proses visualisasi kali ini adalah Histogram. Dalam bidang statistik, histogram adalah tampilan grafis dari tabel frekuensi yang diwakili oleh grafik batang sebagai bentuk dari pengelompokan data. Setiap tampilan batang menunjukkan proporsi frekuensi di setiap kelompok kategori yang berdekatan pada interval yang tidak tumpang tindih.
Mengambil data
Data akan diambil dari github yang disiapkan oleh tim Onestring Lab. Data akan disimpan dalam bentuk Pandas dataframe. Penjelasan mengenai Pandas dataframe dapat dipelajari pada bagian Data Science. Berikut ini kode program untuk mengambil data dari github Onestring Lab.
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Onestringlab/osl_datascience/main/data/titanic/train.csv')
df.head()
Histogram Visualisasi Data Kapal Titanic
Bagian ini akan melihat hubungan antara kelompok umur dan jenis kelamin dengan jumlah penumpang yang selamat. Diagram yang akan digunakan pada visualisasi ini adalah Histogram. Berikut ini adalah kode programnya.
import matplotlib.pyplot as plt
data_age_survived =df[['Sex','Age','Survived']].copy()
data_age_survived =df[['Sex','Age','Survived']].copy()
data_male_0 = data_age_survived.loc[(data_age_survived['Sex'] == 'male') &
(data_age_survived['Survived'] == 0)].copy()
data_male_0 = data_male_0.dropna()
data_male_1 = data_age_survived.loc[(data_age_survived['Sex'] == 'male') &
(data_age_survived['Survived'] == 1)].copy()
data_male_1 = data_male_1.dropna()
fig = plt.figure(figsize=(12,8))
plt.hist(data_male_0['Age'],40, color ='orange', alpha = 0.7, label = "Not Survived")
plt.hist(data_male_1['Age'],40, color ='blue', alpha = 0.7, label = "Survived")
plt.title('Male')
plt.xlabel('Age')
plt.ylabel('Survived')
plt.legend()
plt.show()
Keluaran dari kode program ditunjukkan pada gambar berikut ini
data_female_0 = data_age_survived.loc[(data_age_survived['Sex'] == 'female') &
(data_age_survived['Survived'] == 0)].copy()
data_female_0 = data_female_0.dropna()
data_female_1 = data_age_survived.loc[(data_age_survived['Sex'] == 'female') &
(data_age_survived['Survived'] == 1)].copy()
data_female_1 = data_female_1.dropna()
fig = plt.figure(figsize=(12,8))
plt.hist(data_female_0['Age'],40, color ='orange', alpha = 0.7, label = "Not Survived")
plt.hist(data_female_1['Age'],40, color ='blue', alpha = 0.7, label = "Survived")
plt.title('Female')
plt.xlabel('Age')
plt.ylabel('Survived')
plt.legend()
plt.show()
Keluaran dari kode program ditunjukkan pada gambar berikut ini
Kesimpulan
Visualisasi data dapat memberikan pemahaman yang lebih baik daripada data ditampilkan dalam bentuk tabel. Histogram menunjukkan bahwa penumpang wanita dengan rentang usia 20-40 tahun memilki kemungkinan yang tinggi untuk selamat dari kecelakan kapal Titanic dan juga terlihat bahwa pada rentang usia tersebutlah baik penumpang laki-laki atau perempuan yang paling banyak selamat.