Framework di Load Testing

Harness a matrice 12 celle misura il throughput su dimensioni di dimensione, concorrenza e contesto.

Prima di ottimizzare le prestazioni bisogna misurarle. Abbiamo costruito un harness di load testing dedicato che stress-testa lo stack di inferenza su tre dimensioni indipendenti simultaneamente.

Matrice di test

Dimensione	Valori	Scopo
Dimensione richiesta	small (128 tok), medium (384 tok), heavy (1024 tok)	Modella l'intero range di token
Concorrenza	seriale, parallelo (10 simultanei)	Stress-test della coda di inferenza
Contesto	senza history, con history	Misura degradazione per lunghezza prompt

12 celle × 10 richieste ciascuna = 120 richieste totali per esecuzione. L'harness usa il tokenizer Qwen per un budgeting accurato dei token.

Scoperta chiave

Throughput di picco: 33,59 tok/s (small, seriale, senza history). La serializzazione Semaphore(1) nello shim ha causato un crollo 10× sotto carico parallelo.