fpaupier · March 26, 2025 14:19
diff --git a/asciiart.txt b/asciiart.txt
 +-----------------------+      HTTP Requests      +---------------------------------+      Trace Data       +-------------------+
 | Client de Load Test   | -------------------> |   vLLM OpenAI API Endpoint      | -------------------> |   Langfuse Cloud  |
 | (k6, Locust, script)  |      (Load Profile)      |   (Tournant sur H100 ou L40)    |      (SDK/API Call)     |   (UI & API)      |
 |                       |                        |   (Modèle: Qwen / Llama3)       |                     |                   |
 | - Génère QPS          | <------------------- |                                 | <------------------- |   - Visualisation |
 | - Mesure Latence (Client) |      Responses         | - Traite les requêtes           |      User Query     |   - Analyse       |
 | - Mesure Taux Succès  |                        | - Mesure Latence (Server)       |                     |   - Export        |
 +-----------------------+                        | - Mesure Tokens In/Out          |                     +-------------------+
                                                 +---------------------------------+
                                                          |        ^
                                                          |        | (Optionnel)
                                                 nvidia-smi query  | GPU Metrics (Util, Mem)
                                                          V        |
                                                      +-------+
                                                      |  GPU  |
                                                      +-------+
	+-----------------------+ HTTP Requests +---------------------------------+ Trace Data +-------------------+
	\| Client de Load Test \| -------------------> \| vLLM OpenAI API Endpoint \| -------------------> \| Langfuse Cloud \|
	\| (k6, Locust, script) \| (Load Profile) \| (Tournant sur H100 ou L40) \| (SDK/API Call) \| (UI & API) \|
	\| \| \| (Modèle: Qwen / Llama3) \| \| \|
	\| - Génère QPS \| <------------------- \| \| <------------------- \| - Visualisation \|
	\| - Mesure Latence (Client) \| Responses \| - Traite les requêtes \| User Query \| - Analyse \|
	\| - Mesure Taux Succès \| \| - Mesure Latence (Server) \| \| - Export \|
	+-----------------------+ \| - Mesure Tokens In/Out \| +-------------------+
	+---------------------------------+
	\| ^
	\| \| (Optionnel)
	nvidia-smi query \| GPU Metrics (Util, Mem)
	V \|
	+-------+
	\| GPU \|
	+-------+