Harness a matrice 12 celle misura il throughput su dimensioni di dimensione, concorrenza e contesto.
Prima di ottimizzare le prestazioni bisogna misurarle. Abbiamo costruito un harness di load testing dedicato che stress-testa lo stack di inferenza su tre dimensioni indipendenti simultaneamente.
| Dimensione | Valori | Scopo |
|---|---|---|
| Dimensione richiesta | small (128 tok), medium (384 tok), heavy (1024 tok) | Modella l'intero range di token |
| Concorrenza | seriale, parallelo (10 simultanei) | Stress-test della coda di inferenza |
| Contesto | senza history, con history | Misura degradazione per lunghezza prompt |
12 celle × 10 richieste ciascuna = 120 richieste totali per esecuzione. L'harness usa il tokenizer Qwen per un budgeting accurato dei token.
Throughput di picco: 33,59 tok/s (small, seriale, senza history). La serializzazione Semaphore(1) nello shim ha causato un crollo 10× sotto carico parallelo.