✅ 15. Data Engineering & Big Data
📌 Tujuan:
- Memahami pengolahan data besar menggunakan Pandas untuk analisis data.
- Memahami Big Data dan pemrosesan data skala besar dengan Apache Spark (PySpark).
📌 Durasi: 1-2 bulan
1️⃣ Menggunakan Pandas untuk Analisis Data
📌 Apa itu Pandas?
Pandas adalah pustaka Python yang digunakan untuk manipulasi, analisis, dan eksplorasi data berbasis tabel (DataFrame).
📌 Library yang dibutuhkan:
✅ pandas → Untuk manipulasi data.
✅ numpy → Untuk operasi matematika dan array.
✅ matplotlib & seaborn → Untuk visualisasi data.
🔹 Instalasi Pandas
pip install pandas numpy matplotlib seaborn
🔹 Membaca dan Menampilkan Data
import pandas as pd
# Membaca data dari file CSV
df = pd.read_csv("data.csv")
# Menampilkan 5 baris pertama
print(df.head())
# Menampilkan informasi dataset
print(df.info())
# Menampilkan statistik deskriptif
print(df.describe())
📌 Penjelasan:
✅ pd.read_csv("data.csv") → Membaca file CSV ke dalam DataFrame.
✅ df.head() → Menampilkan 5 baris pertama.
✅ df.info() → Menampilkan tipe data dan jumlah data.
✅ df.describe() → Statistik dasar (rata-rata, min, max, dsb.).
🔹 Manipulasi Data
# Menghapus kolom tertentu
df = df.drop(columns=["kolom_tidak_diperlukan"])
# Mengisi nilai yang hilang
df.fillna(0, inplace=True)
# Filter data berdasarkan kondisi
df_filtered = df[df["harga"] > 50000]
# Mengelompokkan data
df_grouped = df.groupby("kategori")["harga"].mean()
print(df_filtered)
print(df_grouped)
📌 Penjelasan:
✅ drop(columns=...) → Menghapus kolom yang tidak diperlukan.
✅ fillna(0) → Mengisi nilai kosong dengan angka 0.
✅ df[df["harga"] > 50000] → Menampilkan data dengan harga lebih dari 50.000.
✅ groupby("kategori")["harga"].mean() → Menghitung rata-rata harga per kategori.
🔥 Selanjutnya: Gabungkan Pandas dengan SQL atau API untuk analisis data lebih lanjut!
2️⃣ Big Data dengan PySpark
📌 Apa itu Apache Spark?
Apache Spark adalah platform Big Data yang mampu memproses data dalam jumlah besar dengan cepat. PySpark adalah API untuk menggunakan Spark dengan Python.
📌 Kapan menggunakan PySpark?
✅ Data lebih dari 1 juta baris atau berukuran GB/TB.
✅ Data terlalu besar untuk diproses dengan Pandas di RAM.
✅ Membutuhkan pemrosesan distribusi (cluster computing).
🔹 Instalasi PySpark
pip install pyspark
🔹 Membaca Data Besar dengan PySpark
from pyspark.sql import SparkSession
# Membuat sesi Spark
spark = SparkSession.builder.appName("BigDataProcessing").getOrCreate()
# Membaca data CSV dengan PySpark
df = spark.read.csv("big_data.csv", header=True, inferSchema=True)
# Menampilkan 5 baris pertama
df.show(5)
# Menampilkan skema (struktur tabel)
df.printSchema()
📌 Penjelasan:
✅ SparkSession.builder.appName("BigDataProcessing").getOrCreate() → Membuat sesi PySpark.
✅ spark.read.csv() → Membaca file CSV dalam skala besar.
✅ df.show(5) → Menampilkan 5 baris pertama.
✅ df.printSchema() → Menampilkan tipe data di setiap kolom.
🔥 Selanjutnya: Gunakan Spark untuk memproses data TB dengan cepat!
🔹 Query Data seperti SQL dengan PySpark
df.createOrReplaceTempView("data_table")
# Menjalankan query SQL di PySpark
query = spark.sql("SELECT kategori, AVG(harga) FROM data_table GROUP BY kategori")
query.show()
📌 Penjelasan:
✅ createOrReplaceTempView("data_table") → Mengubah DataFrame menjadi tabel SQL sementara.
✅ spark.sql("SELECT ...") → Menjalankan query SQL langsung di PySpark!
🔥 Selanjutnya: Gunakan Spark Streaming untuk real-time data processing!
📌 Kesimpulan
✅ Gunakan Pandas → Untuk analisis data pada dataset kecil hingga sedang (hingga jutaan baris).
✅ Gunakan PySpark → Untuk Big Data (dataset miliaran baris atau ukuran dalam GB/TB).
🚀 Selanjutnya: Integrasikan Pandas & PySpark dengan Machine Learning untuk analisis data otomatis! 🔥
Tidak ada komentar:
Posting Komentar