15. Data Engineering & Big Data

 

✅ 15. Data Engineering & Big Data

📌 Tujuan:

  • Memahami pengolahan data besar menggunakan Pandas untuk analisis data.
  • Memahami Big Data dan pemrosesan data skala besar dengan Apache Spark (PySpark).

📌 Durasi: 1-2 bulan


1️⃣ Menggunakan Pandas untuk Analisis Data

📌 Apa itu Pandas?
Pandas adalah pustaka Python yang digunakan untuk manipulasi, analisis, dan eksplorasi data berbasis tabel (DataFrame).

📌 Library yang dibutuhkan:
pandas → Untuk manipulasi data.
numpy → Untuk operasi matematika dan array.
matplotlib & seaborn → Untuk visualisasi data.

🔹 Instalasi Pandas

pip install pandas numpy matplotlib seaborn

🔹 Membaca dan Menampilkan Data

import pandas as pd

# Membaca data dari file CSV
df = pd.read_csv("data.csv")

# Menampilkan 5 baris pertama
print(df.head())

# Menampilkan informasi dataset
print(df.info())

# Menampilkan statistik deskriptif
print(df.describe())

📌 Penjelasan:
pd.read_csv("data.csv") → Membaca file CSV ke dalam DataFrame.
df.head() → Menampilkan 5 baris pertama.
df.info() → Menampilkan tipe data dan jumlah data.
df.describe() → Statistik dasar (rata-rata, min, max, dsb.).


🔹 Manipulasi Data

# Menghapus kolom tertentu
df = df.drop(columns=["kolom_tidak_diperlukan"])

# Mengisi nilai yang hilang
df.fillna(0, inplace=True)

# Filter data berdasarkan kondisi
df_filtered = df[df["harga"] > 50000]

# Mengelompokkan data
df_grouped = df.groupby("kategori")["harga"].mean()

print(df_filtered)
print(df_grouped)

📌 Penjelasan:
drop(columns=...) → Menghapus kolom yang tidak diperlukan.
fillna(0) → Mengisi nilai kosong dengan angka 0.
df[df["harga"] > 50000] → Menampilkan data dengan harga lebih dari 50.000.
groupby("kategori")["harga"].mean() → Menghitung rata-rata harga per kategori.

🔥 Selanjutnya: Gabungkan Pandas dengan SQL atau API untuk analisis data lebih lanjut!


2️⃣ Big Data dengan PySpark

📌 Apa itu Apache Spark?
Apache Spark adalah platform Big Data yang mampu memproses data dalam jumlah besar dengan cepat. PySpark adalah API untuk menggunakan Spark dengan Python.

📌 Kapan menggunakan PySpark?
✅ Data lebih dari 1 juta baris atau berukuran GB/TB.
✅ Data terlalu besar untuk diproses dengan Pandas di RAM.
✅ Membutuhkan pemrosesan distribusi (cluster computing).

🔹 Instalasi PySpark

pip install pyspark

🔹 Membaca Data Besar dengan PySpark

from pyspark.sql import SparkSession

# Membuat sesi Spark
spark = SparkSession.builder.appName("BigDataProcessing").getOrCreate()

# Membaca data CSV dengan PySpark
df = spark.read.csv("big_data.csv", header=True, inferSchema=True)

# Menampilkan 5 baris pertama
df.show(5)

# Menampilkan skema (struktur tabel)
df.printSchema()

📌 Penjelasan:
SparkSession.builder.appName("BigDataProcessing").getOrCreate() → Membuat sesi PySpark.
spark.read.csv() → Membaca file CSV dalam skala besar.
df.show(5) → Menampilkan 5 baris pertama.
df.printSchema() → Menampilkan tipe data di setiap kolom.

🔥 Selanjutnya: Gunakan Spark untuk memproses data TB dengan cepat!


🔹 Query Data seperti SQL dengan PySpark

df.createOrReplaceTempView("data_table")

# Menjalankan query SQL di PySpark
query = spark.sql("SELECT kategori, AVG(harga) FROM data_table GROUP BY kategori")
query.show()

📌 Penjelasan:
createOrReplaceTempView("data_table") → Mengubah DataFrame menjadi tabel SQL sementara.
spark.sql("SELECT ...") → Menjalankan query SQL langsung di PySpark!

🔥 Selanjutnya: Gunakan Spark Streaming untuk real-time data processing!


📌 Kesimpulan

Gunakan Pandas → Untuk analisis data pada dataset kecil hingga sedang (hingga jutaan baris).
Gunakan PySpark → Untuk Big Data (dataset miliaran baris atau ukuran dalam GB/TB).

🚀 Selanjutnya: Integrasikan Pandas & PySpark dengan Machine Learning untuk analisis data otomatis! 🔥

Tidak ada komentar:

Posting Komentar