Stack di inferenza on-prem ricostruito su Ollama nativo — affidabilità delle richieste salita dal 65,8% al 90,0% e throughput seriale stabilizzato a ~44 tok/s su tutti i prompt.
Dopo il deployment del framework di load testing, abbiamo eseguito un benchmark completo a 12 celle prima e dopo la migrazione dello stack di inferenza on-prem dallo shim MLX personalizzato a Ollama nativo. I risultati hanno misurato un miglioramento netto su affidabilità, throughput e consistenza.
Le richieste riuscite sono passate da 79/120 a 108/120. Quattro celle di test che in precedenza fallivano completamente — medium_parallel_history, heavy_serial_history, heavy_parallel_no_history e heavy_parallel_history — ora passano. Nessuna cella registra 0/10 dopo la migrazione.
Il throughput seriale del Run A era irregolare — un andamento a dente di sega da 0,34 a 33,6 tok/s causato dallo shim che ricaricava il modello a freddo su alcune richieste. Dopo la migrazione, il throughput seriale si è stabilizzato a ~40–45 tok/s indipendentemente dalla dimensione del prompt. Le celle medium-history sono passate da 2,3 → 26,6 tok/s (+1055%) e da 3,2 → 45,2 tok/s (+1315%). Ollama nativo mantiene il modello residente con una KV cache calda.
| Metrica | Prima (shim) | Dopo (Ollama) |
|---|---|---|
| Affidabilità richieste | 65,8% (79/120) | 90,0% (108/120) |
| Celle con 0/10 fallimenti | 4 celle | 0 celle |
| Range throughput seriale | 0,34–33,6 tok/s | 26,6–45,2 tok/s |
| Durata esecuzione | ~43 min | ~22 min |
OLLAMA_NUM_PARALLEL=4 limita la concorrenza heavy a 4/10 — le richieste in eccesso accodano oltre il timeout di 120 s. Il controllo della concorrenza a livello LiteLLM gestirà queste con un 429 pulito.num_ctx (default Ollama: 4096 token) — i turni precedenti vengono scartati. Impostare num_ctx esplicitamente (≥16K) è una correzione di correttezza in attesa.