// TRAGUARDI.LOG / 21 MAGGIO 2026
◈ TECNICO

Framework di Load Testing

Harness a matrice 12 celle misura il throughput su dimensioni di dimensione, concorrenza e contesto.

Prima di ottimizzare le prestazioni bisogna misurarle. Abbiamo costruito un harness di load testing dedicato che stress-testa lo stack di inferenza su tre dimensioni indipendenti simultaneamente.

Matrice di test

DimensioneValoriScopo
Dimensione richiestasmall (128 tok), medium (384 tok), heavy (1024 tok)Modella l'intero range di token
Concorrenzaseriale, parallelo (10 simultanei)Stress-test della coda di inferenza
Contestosenza history, con historyMisura degradazione per lunghezza prompt

12 celle × 10 richieste ciascuna = 120 richieste totali per esecuzione. L'harness usa il tokenizer Qwen per un budgeting accurato dei token.

Scoperta chiave

Throughput di picco: 33,59 tok/s (small, seriale, senza history). La serializzazione Semaphore(1) nello shim ha causato un crollo 10× sotto carico parallelo.