✅ 12. Visualisasi Data dengan Matplotlib & Seaborn
📌 Visualisasi data sangat penting dalam analisis data karena membantu kita memahami pola dan tren dalam dataset.
📌 Matplotlib digunakan untuk membuat grafik dasar seperti garis, batang, dan sebaran.
📌 Seaborn adalah pustaka berbasis Matplotlib yang membuat visualisasi lebih menarik dan mudah digunakan.
📌 Pandas sering digunakan untuk membaca dan mengolah data sebelum divisualisasikan.
1️⃣ Membuat Grafik Sederhana dengan Matplotlib
📌 Instalasi (jika belum ada)
pip install matplotlib seaborn pandas
📌 Menggambar Grafik Garis dengan Matplotlib
import matplotlib.pyplot as plt
# Data contoh
tahun = [2018, 2019, 2020, 2021, 2022]
penjualan = [100, 150, 200, 250, 300]
# Membuat grafik garis
plt.plot(tahun, penjualan, marker='o', linestyle='-', color='b', label="Penjualan")
# Menambahkan judul dan label
plt.title("Grafik Penjualan 2018-2022")
plt.xlabel("Tahun")
plt.ylabel("Penjualan")
plt.legend()
# Menampilkan grafik
plt.show()
📌 Penjelasan:
✅ plt.plot(x, y, marker='o') → Membuat grafik garis dengan titik-titik.
✅ plt.title(), plt.xlabel(), plt.ylabel() → Menambahkan informasi grafik.
✅ plt.legend() → Menambahkan keterangan grafik.
2️⃣ Membuat Grafik Batang
import matplotlib.pyplot as plt
produk = ["Produk A", "Produk B", "Produk C"]
penjualan = [500, 700, 450]
plt.bar(produk, penjualan, color=['red', 'blue', 'green'])
plt.title("Penjualan Produk")
plt.xlabel("Produk")
plt.ylabel("Jumlah Terjual")
plt.show()
📌 Penjelasan:
✅ plt.bar(x, y, color=[]) → Membuat grafik batang.
✅ Warna batang bisa dikustomisasi untuk membedakan kategori.
3️⃣ Analisis Data dengan Pandas & Seaborn
📌 Membaca dan Menampilkan Data CSV
import pandas as pd
# Membaca data dari file CSV
df = pd.read_csv("data_penjualan.csv")
# Menampilkan 5 data pertama
print(df.head())
📌 Penjelasan:
✅ pd.read_csv("file.csv") → Membaca file CSV.
✅ df.head() → Menampilkan 5 baris pertama.
🔹 Membuat Histogram dengan Seaborn
📌 Histogram digunakan untuk melihat distribusi data
import seaborn as sns
import matplotlib.pyplot as plt
# Contoh data
data = {"Harga": [10000, 20000, 15000, 30000, 25000, 20000, 10000, 15000]}
df = pd.DataFrame(data)
# Membuat histogram
sns.histplot(df["Harga"], bins=5, kde=True)
plt.title("Distribusi Harga Produk")
plt.show()
📌 Penjelasan:
✅ sns.histplot(data, bins=5, kde=True) → Membuat histogram dengan 5 interval.
✅ kde=True → Menampilkan kurva distribusi data.
4️⃣ Membuat Grafik Korelasi (Heatmap)
📌 Heatmap membantu memahami hubungan antar variabel dalam dataset.
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
# Contoh data
data = {
"Harga": [10000, 20000, 30000, 40000, 50000],
"Penjualan": [50, 40, 30, 20, 10],
"Rating": [4.5, 4.0, 3.8, 3.5, 3.0]
}
df = pd.DataFrame(data)
# Membuat heatmap korelasi
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
plt.title("Korelasi Antara Harga, Penjualan, dan Rating")
plt.show()
📌 Penjelasan:
✅ df.corr() → Menghitung korelasi antar variabel.
✅ sns.heatmap(df.corr(), annot=True, cmap="coolwarm") → Membuat heatmap dengan warna berbeda.
📌 Kesimpulan
✅ Matplotlib digunakan untuk visualisasi sederhana (grafik garis, batang, pie chart).
✅ Seaborn lebih cocok untuk analisis data yang lebih kompleks.
✅ Pandas membantu membaca dan mengolah data sebelum divisualisasikan.
✅ Heatmap digunakan untuk memahami hubungan antar variabel dalam data.
🔥 Selanjutnya, kita bisa belajar bagaimana menggunakan visualisasi data ini untuk menganalisis tren penjualan produk di marketplace. Mau lanjut? 🚀
Tidak ada komentar:
Posting Komentar