Benchmark de arranque en frío

vLLM vs Ollama

Generado: 2026-05-18T16:27:24+00:00

mateolafalce / chunking.md

Last active May 19, 2026 23:47

Chunking

Definimos preliminarmente un maximo de chunking de 200 tokens

Bajo el siguiente supuesto:

mateolafalce / modelos_lines_2026.md

Created May 15, 2026 22:14

Seleccion de modelos de IA para correr localmente usando el motor de inferencia Ollama en la placa RTX 3070 (8 GB VRAM)

Selección de modelos de IA para correr localmente en una RTX 3070 (8 GB de VRAM).
Se verificó que todos los modelos listados a continuación pueden ejecutarse en nuestro hardware.
La carpeta /modelos contiene los archivos docker-compose correspondientes a cada modelo para su despliegue.
El motor de inferencia utilizado es Ollama.

mateolafalce / modelos_lines_2026.md

Last active May 15, 2026 22:12

Seleccion de modelos de IA para correr localmente usando el motor de inferencia VLLM en la placa RTX 3070 (8 GB VRAM)

Selección de modelos de IA para correr localmente en una RTX 3070 (8 GB de VRAM).
Se verificó que todos los modelos listados a continuación pueden ejecutarse en nuestro hardware.
La carpeta /modelos contiene los archivos docker-compose correspondientes a cada modelo para su despliegue.
El motor de inferencia utilizado es vllm.