Skip to content

Instantly share code, notes, and snippets.

@ardzz
Created May 8, 2025 06:14
Show Gist options
  • Save ardzz/6a5ca63f176ef7b3de0ac4861e6cb8a2 to your computer and use it in GitHub Desktop.
Save ardzz/6a5ca63f176ef7b3de0ac4861e6cb8a2 to your computer and use it in GitHub Desktop.

Cheatsheet: Big Data dan Komponen Terkait

1. Konsep Big Data dan 5V

  • Big Data: Kumpulan data besar dan kompleks yang sulit diproses dengan alat tradisional.
  • 5V:
    • Volume: Jumlah data yang besar (terabyte, petabyte).
    • Velocity: Kecepatan data dihasilkan dan diproses.
    • Variety: Jenis data beragam (terstruktur, semi-terstruktur, tidak terstruktur).
    • Veracity: Keandalan dan akurasi data.
    • Value: Nilai yang diekstrak untuk pengambilan keputusan.

2. 4 Komponen Hadoop

  • HDFS: Sistem file terdistribusi untuk penyimpanan data besar.
  • MapReduce: Model pemrograman untuk pemrosesan data paralel.
  • YARN: Manajemen sumber daya dan penjadwalan tugas di klaster.
  • Hadoop Common: Utilitas dan pustaka pendukung modul Hadoop.

3. Perbandingan RDBMS dan Sistem Big Data

Aspek RDBMS Sistem Big Data (mis. Hadoop)
Jenis Data Terstruktur Terstruktur, semi-terstruktur, tidak terstruktur
Skalabilitas Vertikal Horizontal
Pemrosesan SQL Framework seperti MapReduce
Cocok Untuk Transaksi, data kecil Analisis batch, data besar

4. NoSQL dan 3 Database NoSQL

  • NoSQL: Database non-relasional, fleksibel, dan skalabel untuk data besar.
  • Contoh:
    • MongoDB: Berbasis dokumen, format JSON, untuk data dinamis.
    • Redis: Key-value store, cepat, untuk caching dan analisis real-time.
    • Cassandra: Column-family, untuk skalabilitas dan data time-series.

5. Tantangan Implementasi Big Data

  • Keamanan dan Privasi: Melindungi data sensitif, mematuhi regulasi.
  • Kualitas Data: Memastikan data akurat dan konsisten.
  • Skalabilitas: Mengelola infrastruktur untuk data besar.
  • Kekurangan Keterampilan: Menemukan tenaga ahli big data.
  • Biaya: Investasi tinggi untuk teknologi dan infrastruktur.
  • Integrasi: Menggabungkan dengan sistem yang ada.
  • Pemrosesan Real-time: Menangani data untuk wawasan segera.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment