Hai messo in produzione un agente AI. Funziona, risponde, la demo del vendor era convincente. Ma sei mesi dopo, durante una riunione di management, arriva la domanda scomoda: “Sta davvero servendo a qualcosa?”
La maggior parte dei team non sa rispondere con chiarezza. Non perché l’agente non funzioni — potrebbe anche performare bene — ma perché nessuno aveva concordato in anticipo cosa significa “funzionare”. Scegliere i giusti KPI per agenti AI prima (o subito dopo) il go-live è la differenza tra gestire un sistema utile e mantenere in vita una demo costosa di cui ti vergogni a fare il kill.
Questo articolo copre le metriche che contano per gli agenti in produzione: quelle che ti dicono se l’agente si guadagna il posto, dove si inceppa e quando è il momento di intervenire.
Perché “ha risposto alla domanda” non è un KPI
L’istinto, al lancio di un agente, è tracciare i punteggi di soddisfazione o l’accuratezza delle risposte a livello aggregato. Non sono metriche inutili, ma non ti danno controllo operativo. Un agente può rispondere in modo fluente e al tempo stesso passare ogni quinta richiesta a un umano, far lievitare i costi LLM, o fallire silenziosamente su un’intera categoria di casi limite che la tua test suite non aveva mai coperto.
La misurazione della performance degli agenti AI richiede metriche che si colleghino direttamente ai risultati di business: tempo risparmiato, costo per outcome e la percentuale con cui l’agente chiude task senza intervento umano.
Il framework che segue raggruppa i KPI in tre livelli: completamento dei task, escalation e failure, ed economics.
Livello 1: Completamento dei task — l’agente porta davvero a termine il lavoro?
Containment Rate
Il containment rate è la percentuale di richieste in entrata che l’agente risolve da cima a fondo senza che un umano debba intervenire. Per un agente di customer support significa che il cliente ha ricevuto una risposta e ha chiuso la conversazione. Per un agente di document processing significa che il documento è stato classificato, estratto e instradato senza che nessun revisore umano lo abbia toccato.
Perché è la metrica principale: ogni punto di containment è un’unità di tempo umano liberata. Un agente di supporto che gestisce 400 ticket a settimana al 60% di containment ne chiude 240 senza coinvolgimento umano. All’80%, salgono a 320.
Non esiste un tasso “buono” universale — dipende dal task. Un agente FAQ con scope ristretto dovrebbe raggiungere il 70–85% o oltre. Un agente di document intake che tratta formati molto vari potrebbe andare bene già al 50–60%. Stabilisci la baseline nella prima settimana, poi traccia il trend.
Task Completion Rate vs. Deflection Rate
Questi due concetti vengono spesso confusi. Il deflection rate misura semplicemente con quale frequenza l’agente evita un touchpoint umano — ma non conferma che la richiesta sia stata risolta. Un utente che se ne va dopo una risposta non pertinente gonfia il tuo deflection rate senza aggiungere valore.
Il task completion rate traccia se l’obiettivo reale dell’utente è stato raggiunto: la prenotazione è stata effettuata, il rimborso processato, l’informazione trovata e confermata. Abbinare completion rate e deflection rate ti dice se stai davvero deflettendo o se stai solo abbandonando l’utente.
Livello 2: Escalation e failure — dove si rompe l’agente?
Escalation Rate (e categorie di escalation)
L’escalation rate è l’inverso del containment: la quota di richieste che finiscono a un umano. Tracciare solo il numero non basta. Devi sapere perché avvengono le escalation.
La maggior parte delle piattaforme agent espone i trigger di escalation nei log. Categorie comuni:
- Intent non riconosciuto — l’agente non ha capito la richiesta
- Confidence sotto soglia — ha capito ma non è abbastanza sicuro per agire
- Limite di policy — per design richiede approvazione umana
- Richiesta dell’utente — l’utente ha chiesto esplicitamente un umano
Le prime due sono azionabili. Se il 30% delle tue escalation è “intent non riconosciuto”, hai un problema di prompt design. Se la maggior parte sono policy-driven, le tue soglie potrebbero essere impostate in modo troppo conservativo.
Hallucination e Error Rate
Per gli agenti che recuperano e restituiscono informazioni — query su knowledge base, riassunti di documenti, risposte FAQ — tracciare l’accuratezza fattuale conta più di quanto la maggior parte dei team realizzi. Spot-check manuali su un campione di risposte, combinati con il feedback degli utenti, forniscono un segnale pratico.
Le eval automatizzate — LLM-as-judge scoring su un ground-truth set — sono più sistematiche. L’articolo Testare gli agenti AI: come le eval garantiscono un’automazione affidabile spiega come impostarle senza che diventino un progetto di ricerca.
Time-to-Resolution
Per workflow con uno stato finale definito — un ticket risolto, un modulo inviato, un appuntamento confermato — il time-to-resolution è una metrica pulita. Confronta i tempi di risoluzione gestiti dall’agente con quelli gestiti dagli umani. Il divario è il racconto sull’efficienza che puoi portare internamente.
Una precisazione onesta: alcuni task dovrebbero andare agli umani e lì dovrebbero richiedere più tempo. Il time-to-resolution va misurato per categoria di task, non mediato su tutto.
Livello 3: Economics — quanto ti costa ogni outcome?
Qui le metriche degli agenti AI si collegano al business case. Le tre metriche che contano di più:
Costo per Task Completato
Prendi il costo totale di esercizio dell’agente per un periodo — chiamate API LLM, infrastruttura, eventuali fee di piattaforma, più una quota equa di tempo di manutenzione engineering — e dividilo per il numero di task completati. Confronta con il costo fully-loaded di un umano che svolge lo stesso task.
Scenario illustrativo: un’operazione e-commerce di medie dimensioni processa 3.000 richieste di reso al mese. Ciascuna richiede circa 8 minuti di lavoro umano a un costo datore di lavoro blended di circa CHF 0,65–0,85/minuto (salari mediani svizzeri per personale a contatto con i clienti più contributi sociali del datore di lavoro di circa il 19%, secondo i dati dell’Indagine sulla struttura dei salari dell’UST), quindi circa CHF 5–7 per richiesta. Se l’agente gestisce il 70% di questi a un costo totale di esercizio di CHF 900/mese, il costo per task sulle richieste gestite dall’agente scende ben al di sotto di CHF 1. È matematica illustrativa — i tuoi numeri reali dipendono dall’utilizzo LLM, dai costi del lavoro e dall’overhead di manutenzione — ma questa è la struttura del calcolo.
Costo LLM Token per Task
Quando il tuo agente scala, i costi API LLM diventano una variabile significativa. Traccia i token consumati per task, suddivisi per modello. System prompt lunghi e poco focalizzati e pipeline di retrieval che restituiscono troppo contesto fanno lievitare questo numero in modo non necessario — monitorarlo segnala inefficienze prima che si compongano.
Tempo Umano Reindirizzato
Cosa stanno facendo gli umani adesso che l’agente gestisce il carico di routine? Se le escalation che arrivano al team sono genuinamente più complesse o di maggior valore, l’agente sta facendo il suo lavoro. Se gli umani stanno riformattando cose che l’agente ha prodotto in modo imperfetto, hai un problema di qualità che il costo-per-task da solo non farà emergere.
Una dashboard KPI pratica per agenti in produzione
La maggior parte dei team complica troppo. Per un agente in produzione, parti con sei numeri tracciati settimanalmente:
| Metrica | Cosa ti dice | Direzione target |
|---|---|---|
| Containment rate | Task chiusi senza umano | Su |
| Task completion rate | Obiettivi effettivamente raggiunti | Su |
| Escalation rate per categoria | Dove si rompe l’agente | Categorie intent/confidence giù |
| Error / hallucination rate | Qualità dell’output | Giù |
| Costo per task completato | Economics | Giù nel tempo |
| Time-to-resolution (agente vs. umano) | Gap di efficienza | Agente più veloce |
Rivedi questi mensilmente rispetto alla baseline stabilita al deployment. Un containment rate piatto dopo due mesi è un segnale per investigare. Un costo per task in aumento mentre il containment tiene significa di solito che i tuoi prompt o la pipeline di retrieval hanno bisogno di ottimizzazione.
L’articolo Misurare il ROI degli agenti AI: un framework per le PMI spiega come costruire il caso finanziario da questi numeri una volta che hai qualche mese di dati.
Quando i KPI segnalano che è il momento di ripensare l’agente
A volte le metriche ti dicono che è il design stesso dell’agente a dover cambiare — non solo i prompt o le soglie. Segnali d’allarme:
- Il containment rate si attesta sotto il 50% nonostante molteplici iterazioni
- Le categorie di escalation mostrano gli stessi intent non riconosciuti settimana dopo settimana
- Gli utenti sistematicamente ignorano l’output dell’agente invece di accettarlo
- Il costo per task è superiore alla baseline umana e non migliora
Questi pattern di solito indicano un problema di scoping: all’agente è stato assegnato un task troppo ampio, oppure è stato deployato in un contesto dove la variabilità degli input supera ciò che il suo design può gestire. L’articolo Dal pilot alla flotta: gestire gli agenti AI in produzione spiega come affrontare questo in modo sistematico.
La modalità di failure più insidiosa è un agente che statisticamente sembra a posto ma sta erodendo silenziosamente la fiducia. I segnali qualitativi contano: ticket di supporto sull’agente, feedback degli utenti e la percentuale con cui i clienti escalano a un umano entro 24 ore da una sessione “risolta”.
Come si presenta una misurazione efficace fin dal primo giorno
I team che misurano bene gli agenti AI condividono una pratica: definiscono i criteri di successo prima che l’agente vada live, non dopo. Che containment rate giustifica l’investimento? Quale escalation rate fa scattare una revisione del prompt design? Quale error rate è accettabile per il tuo settore e tipo di task?
Non sono ipotesi — sono negoziati tra chi è proprietario del risultato di business e chi è proprietario della build tecnica. Senza questa negoziazione, ogni riunione di review diventa una discussione su se il 62% di containment sia buono o deludente.
Se stai pianificando o revisionando un deployment e vuoi capire chiaramente quali metriche si adattano al tuo caso d’uso, Orange ITS conduce una sessione focalizzata di 30 minuti per mappare il set di KPI giusto al tuo specifico agente e contesto di business. Contattaci per prenotare quella chiamata.
Per domande più ampie sul design operativo, il nostro servizio di Process Optimisation copre come instrumentiamo, monitoriamo e iteriamo sugli agenti in produzione — inclusi i framework di misurazione che usiamo per i deployment dei clienti.
L’articolo Perché i progetti di agenti AI falliscono — e come ridurre i rischi tratta anche i gap di misurazione come una delle modalità di failure più comuni, se vuoi vedere come i KPI blind spot contribuiscano al rischio complessivo del progetto.