Apache Spark : retour d’expérience - décembre 2018

En résumé :

"POC DataStorm", quezako ?
#1 Vue d’ensemble
#2 : Récupération des données via le module sql
#3 : parallélisation du traitement (transformation des données + appel des API + export CSV)
#4 : use the framework, Luke!
#5 : tests
#6 : monitoring avec la console Spark
#7 : monitoring avec les outils devops
- via grafana
- via glowroot
#8 : exécution
- facteur limitant
- itérations
#9 : devops rulez!
#10 : regrets ?

"POC DataStorm", quezako ?

But : analyser un an de sécurisation, via des fichiers CSV fournis à DataStorm

Comment : application Spark Java secu-replay, lancée via Jenkins sur le cluster "val"

Spark ?

pas nécessaire (facteur limitant : latence des API de sécurisation) 😇

on apprend (équipes dév / data / infra) et on renforce le socle technique 🤓

#1 Vue d’ensemble

Une appli s’exécutant dans un cluster Spark avec :

entrée : base de donnée SQL Server
traitements en parallèle :
- appel d’API de sécurisation karadoc (cluster d’API)
- sortie : fichiers CSV (HDFS)

Terminologie Spark :

cluster : contient n workers
worker Spark : m cœurs (cores)

cf. glossaire

#2 : Récupération des données via le module `sql`

Utilisé pour lire les données (équivalent à l’instruction SQL select) : DataSet User Guide

Montre moi le code ! 👓

Facile à utiliser (DSL façon SQL) 👍

Remarques :

on n’a pas eu besoin de paralléliser le chargement (comme le fait vidal-express via le MongoDB Connector for Spark)
toutes les données d’entrée tiennent en mémoire

#3 : parallélisation du traitement (transformation des données + appel des API + export CSV)

d’abord dans le code (codé en dur 🤔) cf. DataSet#repartition(Int)
dans les paramètres de l’appli 👍

exemple 1 👓 : https://github.com/softwarevidal/secu-replay/blob/sprint-poc.datastorm/docker/docker-compose.yml#L114(dockeer-compose)

exemple 2 👓 :

/usr/local/bin/spark-submit \
  --class com.vidal.SecuReplayApp \
  --deploy-mode cluster \
  --master spark://val-spark.vidal.net:7077 \
  --executor-memory 4g \
  --num-executors 6 \ # 6 EXECUTEURS...
  --executor-cores 3 \ # et 3 COEURS PAR EXECUTEUR => 18 EXECUTIONS PARALLELES MAX
  --conf spark.default.parallelism=1500 \ # 1500 FICHIERS CSV
  http://nexus.vidal.net/service/local/repositories/vidal-snapshots/content/com/vidal/secu-replay/1.1.0-SNAPSHOT/secu-replay-1.1.0-20181213.105335-29.jar \
  --api.url http://preprod-haproxy-secureplay.vidal.net \
  --input.sqlserver.criteria yearWeek >= 200003  AND yearWeek <= 201727 \
  --input.sqlserver.database VIGI2_DSA \
  --input.sqlserver.domain FRANCE \
  --input.sqlserver.password **** \
  --input.sqlserver.table dbo.v_UnifiedPrescription \
  --input.sqlserver.url jdbc:jtds:sqlserver://srv-vid-valbi01:1433;databaseName=VIGI2_DSA \
  --input.sqlserver.user **** \
  --output.csv file:///mnt/Datastorm/2018-12-14T12_08_01_00

#4 : use the framework, Luke!

Don’t: recoder la désérialisation/désérialisation pour les formats supportés nativement (JSON, CSV) cf. PrescriptionJsonDeserializer.java 💣

Pourquoi ? scalabilité (et ne pas perdre de temps)

Do: utiliser la API DataSet (exemple) 👍

⇒ moins de boulot

⇒ scalabilité "gratos"

#5 : tests

JUnit 5

😎

Tests d’intégration

Tests d’intégration avec Docker via testcontainers

Librairie facile à utiliser. 👍

Tests manuels

avec Docker Compose

Docker + Spark + Jenkins = ?

Quelques problèmes avec les tests Spark avec Docker dans Jenkins. 💣

cf. Prevent Spark integration tests from failing during CI

#6 : monitoring avec la console Spark

la console Spark web UI :

navigation WTF? (cluster 8080 / worker 8081 driver 4040 etc.) cause : mauvaise configuration ? 💣
logs : sortie standard avec logs applicatif et Spark mélangés 🤔

#7 : monitoring avec les outils devops

via `grafana`

via `glowroot`

métriques Java sur les API via glowroot (pour monitoring MySQL + JVM)

#8 : exécution

facteur limitant

API de sécurisation car :

1 ordonnance à la fois
100 ms mini par requête

En augmentant le nombre d’appels aux API (+ de cœurs Spark sur le cluster) le débit d’appel/secondes n’augmentait pas ⇒ hypothèse confirmée

On a donc ajouté des instances karadoc au cluster d’API (load balancer haproxy)

itérations

Augmentation progression du débit requête API/s : https://grafana.vidal.net/d/XMHIRzYik/haproxy-metric-eng?orgId=1&from=1542628179190&to=1545209001148

#9 : devops rulez!

infra + data + dev = ♥

#10 : regrets ?

Infra pas cloisonnée 😢

temps de réponse non prédictibles → incompréhensions / doutes (ex : filtrage des alertes via l’API de sécurisation)

"Petits clusters" 😢

Cluster d’API avec 1 puis 2, 3… et finalement 5 instances On aurait aimé tester avec 100 instances pour aller vite !

nicokosi/spark_datastorm.adoc

Apache Spark : retour d’expérience - décembre 2018

"POC DataStorm", quezako ?

#1 Vue d’ensemble

#2 : Récupération des données via le module `sql`

#3 : parallélisation du traitement (transformation des données + appel des API + export CSV)

#4 : use the framework, Luke!

#5 : tests

JUnit 5

Tests d’intégration

Tests manuels

Docker + Spark + Jenkins = ?

#6 : monitoring avec la console Spark

#7 : monitoring avec les outils devops

via `grafana`

via `glowroot`

#8 : exécution

facteur limitant

itérations

#9 : devops rulez!

#10 : regrets ?

nicokosi commented Dec 19, 2018

nicokosi commented Dec 28, 2018

nicokosi commented Jan 8, 2019 •

edited

Loading

nicokosi/spark_datastorm.adoc

Apache Spark : retour d’expérience - décembre 2018

"POC DataStorm", quezako ?

#1 Vue d’ensemble

#2 : Récupération des données via le module sql

#3 : parallélisation du traitement (transformation des données + appel des API + export CSV)

#4 : use the framework, Luke!

#5 : tests

JUnit 5

Tests d’intégration

Tests manuels

Docker + Spark + Jenkins = ?

#6 : monitoring avec la console Spark

#7 : monitoring avec les outils devops

via grafana

via glowroot

#8 : exécution

facteur limitant

itérations

#9 : devops rulez!

#10 : regrets ?

nicokosi commented Dec 19, 2018

nicokosi commented Dec 28, 2018

nicokosi commented Jan 8, 2019 • edited Loading

#2 : Récupération des données via le module `sql`

via `grafana`

via `glowroot`

nicokosi commented Jan 8, 2019 •

edited

Loading