Framework open source per agenti AI: la shortlist per CTO

L’ecosistema open source degli agenti AI si è frammentato velocemente. Un anno fa c’erano tre o quattro contendenti seri. Oggi ce ne sono decine, ognuno con un README curato, un numero crescente di stelle su GitHub e un Discord pieno di utenti entusiasti. La domanda difficile non è “quali framework esistono?” — è “su quale di questi scommetterei il sistema in produzione di un cliente?”

Questa è la nostra risposta a quella domanda, a metà 2026. Non una checklist di funzionalità. Non una classifica di benchmark. La shortlist onesta di un team di sviluppo — i framework che abbiamo effettivamente usato, quelli su cui abbiamo passato e i criteri che hanno separato i due gruppi.

Se vuoi capire l’architettura sottostante prima di scegliere un framework, Architettura degli agenti AI, spiegata per chi decide è un buon punto di partenza.

I criteri di selezione che contano davvero

Prima di elencare i candidati, vale la pena nominare gli assi che guidano le nostre scelte. Vengono dall’aver osservato progetti di agent fallire e avere successo in produzione — non dalla lettura della documentazione.

Osservabilità out of the box. Un agente che non sa spiegarti perché ha preso una direzione sbagliata non è pronto per la produzione. Tracing, logging a livello di step e audit trail dei token devono esistere nativamente o tramite un’integrazione ben supportata — non come aggiunta rattoppata sei mesi dopo il lancio.

Costo di manutenzione per funzionalità. Alcuni framework sono potenti ma richiedono di gestire molta infrastruttura in proprio. Altri astraggono così aggressivamente che si finisce a combattere l’astrazione nel momento in cui i requisiti divergono dal percorso felice. Nessuno dei due estremi è gratuito.

Maturità dell’ecosistema e salute della community. Le stelle sono vanità. Quello che guardiamo: frequenza dei rilasci, reattività sulle issue, segnali di un supporto commerciale e se la community sta risolvendo problemi reali in produzione o sta principalmente ripetendo il tutorial introduttivo.

Supporto multi-agent senza forzature. La maggior parte dei deployment reali finisce per richiedere più di un agente che lavora insieme. I framework che trattano il multi-agent come una preoccupazione di primo livello risparmiano una rielaborazione significativa in seguito. Approfondisci in Sistemi multi-agent: quando un solo agente AI non basta.

Neutralità rispetto a LLM e provider di tool. Il lock-in a livello di framework si somma al lock-in a livello di modello. Meglio preferire framework che trattino l’LLM come una dipendenza sostituibile.

La shortlist: framework su cui puntiamo

LangGraph

LangGraph è il framework a cui ricorriamo quando la complessità del control flow è alta e le conseguenze di un’azione sbagliata sono rilevanti. Modella gli agenti come grafi con stato — i nodi sono step di esecuzione, i bordi sono transizioni, e si definisce esattamente cosa succede quando il grafo incontra un errore o una condizione di ramificazione.

Quella chiarezza ha costi reali. L’onboarding richiede più tempo. Gli agenti semplici sembrano sovra-ingegnerizzati in LangGraph. Ma per sistemi multi-step e multi-agent in cui servono percorsi di recovery deterministici, checkpoint e interruzioni human-in-the-loop, nient’altro in questa categoria offre lo stesso livello di controllo.

LangSmith (il layer di osservabilità di LangChain) si integra strettamente e copre bene il gap di tracing. Il supporto commerciale è disponibile. Il progetto è attivamente mantenuto. Queste sono verifiche fondamentali, e LangGraph le supera. Per un approfondimento, vedi CrewAI vs LangGraph: scegliere il framework giusto per gli agenti.

Ideale per: Orchestrazione complessa, workflow finanziari o di compliance, sistemi che richiedono audit trail, team a proprio agio con Python e i primitivi a grafo.

Non è la scelta giusta quando: Stai rilasciando un semplice task loop a singolo agente, o il tuo team non è a proprio agio con l’overhead cognitivo del modello a grafo.

CrewAI

CrewAI ha reso accessibile il coordinamento multi-agent. L’astrazione ruolo/task/crew si mappa naturalmente su come i non-tecnici pensano al lavoro (“abbiamo un ricercatore, uno scrittore e un editor”) — il che significa che il framework colma il gap tra requisiti di prodotto e implementazione in modo insolitamente efficace.

Astrae più di LangGraph, il che è sia un punto di forza che un rischio. La maggior parte dei workflow dei clienti si adatta al modello di CrewAI senza attrito. Quando non è così — quando servono una gestione precisa dello stato, flussi non lineari o backend di memoria personalizzati — si sente il soffitto. CrewAI ha aggiunto funzionalità enterprise e continua lo sviluppo attivo, quindi il soffitto si è alzato, ma esiste ancora.

Ideale per: Workflow multi-agent con chiara separazione dei ruoli, team che vogliono muoversi velocemente su una struttura di task ben definita, pipeline di contenuti, task di ricerca e sintesi.

Non è la scelta giusta quando: Il workflow ha molto stato, le eccezioni sono frequenti o serve un controllo granulare su cosa succede tra uno step e l’altro.

OpenAI Agents SDK

Rilasciato all’inizio del 2025, l’OpenAI Agents SDK (noto in anteprima come “Swarm”) è l’opzione orientata alla produzione più snella di questa lista. I primitivi sono minimali: agenti, handoff e tool. Quel minimalismo è una scelta deliberata, e per i deployment semplici funziona bene.

L’aspetto da tenere presente vale la pena nominarlo: l’SDK è ottimizzato per i modelli OpenAI, e le integrazioni più strette — tracing, tool integrati, guardrail — sono native OpenAI. Usare modelli di terze parti è tecnicamente possibile, ma si perdono la maggior parte di quelle capacità native. È un vincolo ecosistemico più che un lock-in tecnico duro, ma è una considerazione strategica reale per qualsiasi cliente che pensa alla flessibilità di provider a lungo termine.

Ideale per: Team già impegnati nello stack OpenAI, progetti con perimetro chiaro e definito, prototipazione rapida dove la semplicità dell’astrazione è un vero vantaggio.

Non è la scelta giusta quando: La flessibilità del provider di modello è importante, o si sta costruendo qualcosa di abbastanza complesso da dover re-inventare i primitivi minimali a livello applicativo.

Mastra

Mastra è un nuovo arrivato da tenere d’occhio. È TypeScript-native, il che conta per i team che costruiscono logica di agent vicino a un backend Node.js o Next.js — rimuove il problema del bridging con Python che crea complessità operativa negli stack misti. Ha primitivi di workflow sensati, supporto integrato per l’esecuzione durabile e un insieme crescente di integrazioni.

Lo abbiamo usato in progetti dove il team frontend doveva possedere la logica degli agenti senza cambiare contesto in Python. L’esperienza è stata materialmente migliore rispetto alle alternative. L’ecosistema è ancora in maturazione, quindi il profilo di rischio è più alto di LangGraph o CrewAI per sistemi mission-critical. Ma per i team TypeScript-first, Mastra merita una valutazione seria.

Ideale per: Stack Node.js/TypeScript, team che vogliono evitare deployment poliglotta, agenti adiacenti alle web app.

Framework valutati e scartati (per ora)

AutoGen / AG2. Il contributo di Microsoft all’ecosistema è genuinamente interessante per i casi d’uso di ricerca e le simulazioni multi-agent complesse. Nel lavoro cliente in produzione, il modello basato sulla conversazione aggiunge attrito: si ragiona su agenti che si scambiano messaggi anziché eseguire step discreti, il che rende il debugging più difficile e il controllo dei costi meno prevedibile. Il progetto ha anche attraversato un fork e un cambio di nome significativi (AG2) che hanno introdotto frammentazione nella community. Nota: a partire da ottobre 2025, Microsoft ha messo AutoGen in modalità manutenzione — solo correzioni di bug e patch di sicurezza, nessuna nuova funzionalità — e ha lanciato il Microsoft Agent Framework (che fonde AutoGen e Semantic Kernel) come successore per la produzione, con una GA 1.0 ad aprile 2026. I team che valutano l’ecosistema Microsoft dovrebbero esaminare l’Agent Framework anziché AutoGen; il fork community AG2 continua indipendentemente sotto ag2ai.

smolagents. Il framework di Hugging Face è deliberatamente minimale e privilegia l’esecuzione del codice come meccanismo primario di uso degli strumenti. È una scelta di design fondata — gli agenti code-first sono potenti. Ma il minimalismo significa che si assembla da zero la propria storia di osservabilità, memoria e deployment. Per i team che sanno quello che fanno e vogliono evitare l’overhead del framework, è un’opzione legittima. Per la maggior parte dei progetti cliente, il costo di assemblaggio non vale.

VoltAgent. TypeScript-first come Mastra, ma con tradeoff diversi. VoltAgent è in uno stadio più iniziale e ha un ecosistema più piccolo. Vale la pena monitorarlo, soprattutto per i team che valutano opzioni TypeScript. Non dove punteremmo la prima scommessa in produzione oggi.

Una matrice decisionale per i professionisti

Framework	Linguaggio	Granularità controllo	Multi-Agent	Osservabilità	Maturità in produzione
LangGraph	Python	Molto alta	First-class	Forte (LangSmith)	Alta
CrewAI	Python	Media	First-class	Moderata	Alta
OpenAI Agents SDK	Python / TypeScript	Bassa-Media	Via handoff	Nativa OpenAI	Media-Alta
Mastra	TypeScript	Media	Supportata	In crescita	Media
AutoGen/AG2	Python	Alta	First-class	Debole in produzione	Media

Cosa significa per il tuo progetto

La scelta del framework non è la parte più difficile della costruzione di un sistema di agenti AI. Le domande più difficili vengono prima: quale problema stai effettivamente risolvendo? Come appare il successo in produzione? Qual è il failure mode da cui ti devi guardare di più?

Anche la decisione build vs buy influenza questa scelta. I team che adottano framework open source stanno implicitamente scegliendo di possedere manutenzione, versionamento e cicli di aggiornamento. È la scelta giusta in molte situazioni — in particolare quando i requisiti di personalizzazione sono alti, o quando è necessario mantenere i dati sensibili all’interno di un’infrastruttura controllata. Ma è una scelta che dovrebbe essere fatta esplicitamente, non per default.

Soprattutto: la scelta del framework deve seguire l’architettura, non precederla. Se selezioni LangGraph prima di aver mappato le transizioni di stato del tuo agente, sovra-ingegnerizzerai. Se selezioni CrewAI senza verificare se il tuo workflow si adatta all’astrazione ruolo/task, raggiungerai il soffitto rapidamente. Un test di production-readiness applicato prima di impegnarsi fa risparmiare una rielaborazione significativa.

Disciplina ingegneristica, interfacce di tool ben definite, osservabilità dal primo giorno e un perimetro realistico — questi sono i fattori che separano i sistemi di agenti che funzionano in modo affidabile da quelli che richiedono supervisione costante. Il framework è raramente la variabile decisiva.

Parla con un team che ha già fatto queste scelte

Se stai valutando framework open source per agenti AI per un progetto reale — non un prototipo, ma qualcosa che deve funzionare in modo affidabile tra sei mesi — la questione del framework merita una conversazione seria. La risposta giusta dipende dal tuo stack, dal tuo team, dal tuo ambiente di dati e da cosa stai effettivamente cercando di automatizzare.

Lavoriamo con aziende svizzere ed europee per progettare e costruire agenti AI personalizzati usando i framework più adatti a ciascuna situazione. Questo significa essere onesti quando un framework è lo strumento sbagliato, e altrettanto onesti quando un approccio più leggero serve meglio dello sviluppo custom.

Prenota una chiamata di 30 minuti con il nostro team per analizzare il tuo caso d’uso, i vincoli tecnici e quale framework — o combinazione — raccomanderemmo effettivamente. Nessuna presentazione commerciale, nessun consiglio generico. Solo una conversazione diretta sulla tua situazione specifica.

Puoi anche saperne di più su come approcciamo lo sviluppo di agenti AI in Orange ITS.

Domande frequenti

Quali framework open source per agenti AI sono nella shortlist per la produzione nel 2026?

Quattro: LangGraph per orchestrazioni complesse ad alto rischio con audit trail, CrewAI per workflow multi-agente basati sui ruoli dove conta la velocità, l'OpenAI Agents SDK per deployment snelli su stack OpenAI, e Mastra come unico TypeScript-native per team Node.js. AutoGen/AG2, smolagents e VoltAgent sono stati valutati ma per ora scartati.

Con quali criteri si valuta un framework per agenti prima di adottarlo?

Cinque assi: osservabilità out of the box con tracing e audit trail nativi, costo di manutenzione per funzionalità, maturità dell'ecosistema misurata su frequenza dei rilasci e reattività alle issue (non le stelle GitHub), supporto multi-agente come preoccupazione di primo livello, e neutralità rispetto a LLM e provider di strumenti.

Qual è il compromesso dell'OpenAI Agents SDK?

I primitivi minimali (agenti, handoff, strumenti) funzionano bene per deployment con perimetro definito, ma l'SDK è ottimizzato per i modelli OpenAI: tracing, tool integrati e guardrail sono nativi OpenAI, e usare modelli terzi fa perdere gran parte di quelle capacità. È un vincolo ecosistemico da considerare per la flessibilità di provider a lungo termine.

Perché AutoGen non è più raccomandato per nuovi progetti?

Da ottobre 2025 Microsoft ha messo AutoGen in modalità manutenzione, con solo bug fix e patch di sicurezza, lanciando il Microsoft Agent Framework (GA 1.0 ad aprile 2026) come successore. Chi valuta l'ecosistema Microsoft dovrebbe esaminare l'Agent Framework, mentre il fork community AG2 continua in modo indipendente.

La scelta del framework è la decisione più importante di un progetto agenti?

No: la scelta deve seguire l'architettura, non precederla. Le domande più difficili vengono prima: quale problema si sta risolvendo, come appare il successo in produzione e qual è il failure mode principale. Disciplina ingegneristica, interfacce ben definite e osservabilità dal primo giorno contano più del framework.