KPI per agenti AI: misurare ciò che conta davvero

Hai messo in produzione un agente AI. Funziona, risponde, la demo del vendor era convincente. Ma sei mesi dopo, durante una riunione di management, arriva la domanda scomoda: “Sta davvero servendo a qualcosa?”

La maggior parte dei team non sa rispondere con chiarezza. Non perché l’agente non funzioni — potrebbe anche performare bene — ma perché nessuno aveva concordato in anticipo cosa significa “funzionare”. Scegliere i giusti KPI per agenti AI prima (o subito dopo) il go-live è la differenza tra gestire un sistema utile e mantenere in vita una demo costosa di cui ti vergogni a fare il kill.

Questo articolo copre le metriche che contano per gli agenti in produzione: quelle che ti dicono se l’agente si guadagna il posto, dove si inceppa e quando è il momento di intervenire.

Perché “ha risposto alla domanda” non è un KPI

L’istinto, al lancio di un agente, è tracciare i punteggi di soddisfazione o l’accuratezza delle risposte a livello aggregato. Non sono metriche inutili, ma non ti danno controllo operativo. Un agente può rispondere in modo fluente e al tempo stesso passare ogni quinta richiesta a un umano, far lievitare i costi LLM, o fallire silenziosamente su un’intera categoria di casi limite che la tua test suite non aveva mai coperto.

La misurazione della performance degli agenti AI richiede metriche che si colleghino direttamente ai risultati di business: tempo risparmiato, costo per outcome e la percentuale con cui l’agente chiude task senza intervento umano.

Il framework che segue raggruppa i KPI in tre livelli: completamento dei task, escalation e failure, ed economics.

Livello 1: Completamento dei task — l’agente porta davvero a termine il lavoro?

Containment Rate

Il containment rate è la percentuale di richieste in entrata che l’agente risolve da cima a fondo senza che un umano debba intervenire. Per un agente di customer support significa che il cliente ha ricevuto una risposta e ha chiuso la conversazione. Per un agente di document processing significa che il documento è stato classificato, estratto e instradato senza che nessun revisore umano lo abbia toccato.

Perché è la metrica principale: ogni punto di containment è un’unità di tempo umano liberata. Un agente di supporto che gestisce 400 ticket a settimana al 60% di containment ne chiude 240 senza coinvolgimento umano. All’80%, salgono a 320.

Non esiste un tasso “buono” universale — dipende dal task. Un agente FAQ con scope ristretto dovrebbe raggiungere il 70–85% o oltre. Un agente di document intake che tratta formati molto vari potrebbe andare bene già al 50–60%. Stabilisci la baseline nella prima settimana, poi traccia il trend.

Task Completion Rate vs. Deflection Rate

Questi due concetti vengono spesso confusi. Il deflection rate misura semplicemente con quale frequenza l’agente evita un touchpoint umano — ma non conferma che la richiesta sia stata risolta. Un utente che se ne va dopo una risposta non pertinente gonfia il tuo deflection rate senza aggiungere valore.

Il task completion rate traccia se l’obiettivo reale dell’utente è stato raggiunto: la prenotazione è stata effettuata, il rimborso processato, l’informazione trovata e confermata. Abbinare completion rate e deflection rate ti dice se stai davvero deflettendo o se stai solo abbandonando l’utente.

Livello 2: Escalation e failure — dove si rompe l’agente?

Escalation Rate (e categorie di escalation)

L’escalation rate è l’inverso del containment: la quota di richieste che finiscono a un umano. Tracciare solo il numero non basta. Devi sapere perché avvengono le escalation.

La maggior parte delle piattaforme agent espone i trigger di escalation nei log. Categorie comuni:

Intent non riconosciuto — l’agente non ha capito la richiesta
Confidence sotto soglia — ha capito ma non è abbastanza sicuro per agire
Limite di policy — per design richiede approvazione umana
Richiesta dell’utente — l’utente ha chiesto esplicitamente un umano

Le prime due sono azionabili. Se il 30% delle tue escalation è “intent non riconosciuto”, hai un problema di prompt design. Se la maggior parte sono policy-driven, le tue soglie potrebbero essere impostate in modo troppo conservativo.

Hallucination e Error Rate

Per gli agenti che recuperano e restituiscono informazioni — query su knowledge base, riassunti di documenti, risposte FAQ — tracciare l’accuratezza fattuale conta più di quanto la maggior parte dei team realizzi. Spot-check manuali su un campione di risposte, combinati con il feedback degli utenti, forniscono un segnale pratico.

Le eval automatizzate — LLM-as-judge scoring su un ground-truth set — sono più sistematiche. L’articolo Testare gli agenti AI: come le eval garantiscono un’automazione affidabile spiega come impostarle senza che diventino un progetto di ricerca.

Time-to-Resolution

Per workflow con uno stato finale definito — un ticket risolto, un modulo inviato, un appuntamento confermato — il time-to-resolution è una metrica pulita. Confronta i tempi di risoluzione gestiti dall’agente con quelli gestiti dagli umani. Il divario è il racconto sull’efficienza che puoi portare internamente.

Una precisazione onesta: alcuni task dovrebbero andare agli umani e lì dovrebbero richiedere più tempo. Il time-to-resolution va misurato per categoria di task, non mediato su tutto.

Livello 3: Economics — quanto ti costa ogni outcome?

Qui le metriche degli agenti AI si collegano al business case. Le tre metriche che contano di più:

Costo per Task Completato

Prendi il costo totale di esercizio dell’agente per un periodo — chiamate API LLM, infrastruttura, eventuali fee di piattaforma, più una quota equa di tempo di manutenzione engineering — e dividilo per il numero di task completati. Confronta con il costo fully-loaded di un umano che svolge lo stesso task.

Scenario illustrativo: un’operazione e-commerce di medie dimensioni processa 3.000 richieste di reso al mese. Ciascuna richiede circa 8 minuti di lavoro umano a un costo datore di lavoro blended di circa CHF 0,65–0,85/minuto (salari mediani svizzeri per personale a contatto con i clienti più contributi sociali del datore di lavoro di circa il 19%, secondo i dati dell’Indagine sulla struttura dei salari dell’UST), quindi circa CHF 5–7 per richiesta. Se l’agente gestisce il 70% di questi a un costo totale di esercizio di CHF 900/mese, il costo per task sulle richieste gestite dall’agente scende ben al di sotto di CHF 1. È matematica illustrativa — i tuoi numeri reali dipendono dall’utilizzo LLM, dai costi del lavoro e dall’overhead di manutenzione — ma questa è la struttura del calcolo.

Costo LLM Token per Task

Quando il tuo agente scala, i costi API LLM diventano una variabile significativa. Traccia i token consumati per task, suddivisi per modello. System prompt lunghi e poco focalizzati e pipeline di retrieval che restituiscono troppo contesto fanno lievitare questo numero in modo non necessario — monitorarlo segnala inefficienze prima che si compongano.

Tempo Umano Reindirizzato

Cosa stanno facendo gli umani adesso che l’agente gestisce il carico di routine? Se le escalation che arrivano al team sono genuinamente più complesse o di maggior valore, l’agente sta facendo il suo lavoro. Se gli umani stanno riformattando cose che l’agente ha prodotto in modo imperfetto, hai un problema di qualità che il costo-per-task da solo non farà emergere.

Una dashboard KPI pratica per agenti in produzione

La maggior parte dei team complica troppo. Per un agente in produzione, parti con sei numeri tracciati settimanalmente:

Metrica	Cosa ti dice	Direzione target
Containment rate	Task chiusi senza umano	Su
Task completion rate	Obiettivi effettivamente raggiunti	Su
Escalation rate per categoria	Dove si rompe l’agente	Categorie intent/confidence giù
Error / hallucination rate	Qualità dell’output	Giù
Costo per task completato	Economics	Giù nel tempo
Time-to-resolution (agente vs. umano)	Gap di efficienza	Agente più veloce

Rivedi questi mensilmente rispetto alla baseline stabilita al deployment. Un containment rate piatto dopo due mesi è un segnale per investigare. Un costo per task in aumento mentre il containment tiene significa di solito che i tuoi prompt o la pipeline di retrieval hanno bisogno di ottimizzazione.

L’articolo Misurare il ROI degli agenti AI: un framework per le PMI spiega come costruire il caso finanziario da questi numeri una volta che hai qualche mese di dati.

Quando i KPI segnalano che è il momento di ripensare l’agente

A volte le metriche ti dicono che è il design stesso dell’agente a dover cambiare — non solo i prompt o le soglie. Segnali d’allarme:

Il containment rate si attesta sotto il 50% nonostante molteplici iterazioni
Le categorie di escalation mostrano gli stessi intent non riconosciuti settimana dopo settimana
Gli utenti sistematicamente ignorano l’output dell’agente invece di accettarlo
Il costo per task è superiore alla baseline umana e non migliora

Questi pattern di solito indicano un problema di scoping: all’agente è stato assegnato un task troppo ampio, oppure è stato deployato in un contesto dove la variabilità degli input supera ciò che il suo design può gestire. L’articolo Dal pilot alla flotta: gestire gli agenti AI in produzione spiega come affrontare questo in modo sistematico.

La modalità di failure più insidiosa è un agente che statisticamente sembra a posto ma sta erodendo silenziosamente la fiducia. I segnali qualitativi contano: ticket di supporto sull’agente, feedback degli utenti e la percentuale con cui i clienti escalano a un umano entro 24 ore da una sessione “risolta”.

Come si presenta una misurazione efficace fin dal primo giorno

I team che misurano bene gli agenti AI condividono una pratica: definiscono i criteri di successo prima che l’agente vada live, non dopo. Che containment rate giustifica l’investimento? Quale escalation rate fa scattare una revisione del prompt design? Quale error rate è accettabile per il tuo settore e tipo di task?

Non sono ipotesi — sono negoziati tra chi è proprietario del risultato di business e chi è proprietario della build tecnica. Senza questa negoziazione, ogni riunione di review diventa una discussione su se il 62% di containment sia buono o deludente.

Se stai pianificando o revisionando un deployment e vuoi capire chiaramente quali metriche si adattano al tuo caso d’uso, Orange ITS conduce una sessione focalizzata di 30 minuti per mappare il set di KPI giusto al tuo specifico agente e contesto di business. Contattaci per prenotare quella chiamata.

Per domande più ampie sul design operativo, il nostro servizio di Process Optimisation copre come instrumentiamo, monitoriamo e iteriamo sugli agenti in produzione — inclusi i framework di misurazione che usiamo per i deployment dei clienti.

L’articolo Perché i progetti di agenti AI falliscono — e come ridurre i rischi tratta anche i gap di misurazione come una delle modalità di failure più comuni, se vuoi vedere come i KPI blind spot contribuiscano al rischio complessivo del progetto.

Domande frequenti

Quali KPI bisogna monitorare per un agente AI in produzione?

Sei metriche settimanali sono un buon punto di partenza: containment rate, task completion rate, escalation rate per categoria, tasso di errori e allucinazioni, costo per task completato e time-to-resolution confrontato con quello umano. Vanno riviste mensilmente rispetto alla baseline stabilita al deployment.

Cos'è il containment rate di un agente AI?

È la percentuale di richieste che l'agente risolve completamente senza intervento umano. Non esiste un valore buono universale: un agente FAQ con scope ristretto dovrebbe raggiungere il 70-85%, mentre un agente di document intake con formati molto vari può essere adeguato già al 50-60%.

Che differenza c'è tra deflection rate e task completion rate?

Il deflection rate misura solo quante volte l'agente evita un contatto umano, senza confermare che il problema sia stato risolto: un utente che abbandona dopo una risposta non pertinente gonfia comunque il dato. Il task completion rate verifica invece se l'obiettivo reale dell'utente è stato raggiunto, quindi vanno monitorati insieme.

Come si calcola il costo per task di un agente AI?

Si somma il costo totale di esercizio in un periodo (chiamate API LLM, infrastruttura, fee di piattaforma e una quota del tempo di manutenzione) e lo si divide per il numero di task completati, confrontandolo con il costo fully-loaded di un umano per lo stesso task. In uno scenario illustrativo, richieste di reso che costano CHF 5-7 a mano possono scendere sotto CHF 1 quando gestite dall'agente.

Quando i KPI indicano che un agente AI va riprogettato?

I segnali d'allarme sono un containment rate stabilmente sotto il 50% nonostante più iterazioni, escalation per intent non riconosciuti che si ripetono settimana dopo settimana, utenti che ignorano sistematicamente l'output e un costo per task superiore alla baseline umana senza miglioramenti. Di solito indicano un problema di scoping, non di prompt.