Salto di Affidabilità dell'Inferenza

Stack di inferenza on-prem ricostruito su Ollama nativo — affidabilità delle richieste salita dal 65,8% al 90,0% e throughput seriale stabilizzato a ~44 tok/s su tutti i prompt.

Dopo il deployment del framework di load testing, abbiamo eseguito un benchmark completo a 12 celle prima e dopo la migrazione dello stack di inferenza on-prem dallo shim MLX personalizzato a Ollama nativo. I risultati hanno misurato un miglioramento netto su affidabilità, throughput e consistenza.

Affidabilità: 65,8% → 90,0%

Le richieste riuscite sono passate da 79/120 a 108/120. Quattro celle di test che in precedenza fallivano completamente — medium_parallel_history, heavy_serial_history, heavy_parallel_no_history e heavy_parallel_history — ora passano. Nessuna cella registra 0/10 dopo la migrazione.

Throughput seriale: stabile a ~44 tok/s

Il throughput seriale del Run A era irregolare — un andamento a dente di sega da 0,34 a 33,6 tok/s causato dallo shim che ricaricava il modello a freddo su alcune richieste. Dopo la migrazione, il throughput seriale si è stabilizzato a ~40–45 tok/s indipendentemente dalla dimensione del prompt. Le celle medium-history sono passate da 2,3 → 26,6 tok/s (+1055%) e da 3,2 → 45,2 tok/s (+1315%). Ollama nativo mantiene il modello residente con una KV cache calda.

Confronto in sintesi

Metrica	Prima (shim)	Dopo (Ollama)
Affidabilità richieste	65,8% (79/120)	90,0% (108/120)
Celle con 0/10 fallimenti	4 celle	0 celle
Range throughput seriale	0,34–33,6 tok/s	26,6–45,2 tok/s
Durata esecuzione	~43 min	~22 min

Lavori rimanenti tracciati

Cap concorrenza heavy: OLLAMA_NUM_PARALLEL=4 limita la concorrenza heavy a 4/10 — le richieste in eccesso accodano oltre il timeout di 120 s. Il controllo della concorrenza a livello LiteLLM gestirà queste con un 429 pulito.
Troncamento del contesto: Le conversazioni multi-turno medium/heavy superano silenziosamente num_ctx (default Ollama: 4096 token) — i turni precedenti vengono scartati. Impostare num_ctx esplicitamente (≥16K) è una correzione di correttezza in attesa.