PER TUTTI 19 May 2026

Dati e AI: perché la qualità dei dati è il vero collo di bottiglia (e come affrontarlo)

Quando un’organizzazione decide di introdurre l’AI, la prima preoccupazione è quasi sempre la tecnologia. Quale strumento scegliere, quale fornitore, quale piattaforma. La seconda preoccupazione è il costo. La terza è la formazione delle persone.

I dati arrivano quasi sempre dopo, quando il progetto è già avviato e ci si accorge che lo strumento scelto non funziona come previsto. Non perché lo strumento sia sbagliato, ma perché i dati su cui dovrebbe lavorare sono inaccessibili, incompleti, incoerenti o semplicemente non nel formato giusto.

È il problema più comune nei progetti AI nelle organizzazioni italiane, ed è quasi sempre evitabile se affrontato nella fase giusta.

Il mito dei big data

Per anni il dibattito sull’AI è stato dominato dal concetto di big data: più dati hai, più l’AI funziona bene. È una semplificazione fuorviante che ha prodotto due effetti opposti entrambi sbagliati.

Il primo è la paralisi: molte organizzazioni, soprattutto PMI e enti pubblici di medie dimensioni, hanno concluso di non avere abbastanza dati per fare AI e hanno rimandato qualsiasi progetto. Il secondo è l’accumulo indiscriminato: alcune organizzazioni hanno iniziato a raccogliere dati su tutto, senza una strategia, creando archivi enormi e inutilizzabili.

La verità è più semplice. La maggior parte dei casi d’uso AI nelle organizzazioni non richiede grandi quantità di dati. Richiede dati sufficienti, accessibili e di qualità adeguata rispetto all’obiettivo specifico. Un agente AI che gestisce le richieste frequenti dei clienti ha bisogno di un archivio ben strutturato delle richieste passate e delle risposte date, non di milioni di record. Un sistema di classificazione documentale ha bisogno di un campione rappresentativo di documenti correttamente classificati, non di tutti i documenti mai prodotti dall’organizzazione.

Cosa significa davvero qualità dei dati

La qualità dei dati non è un concetto astratto. Si misura su dimensioni concrete, ciascuna delle quali ha impatti diretti sul funzionamento di un sistema AI.

L’accuratezza riguarda quanto i dati riflettono la realtà che dovrebbero descrivere. Un database clienti con indirizzi obsoleti, nomi scritti in modo incoerente e campi compilati a metà è un database che produce output inaffidabili qualunque strumento AI ci lavori sopra.

La completezza riguarda quante informazioni mancano. I dati mancanti non sono un problema solo statistico, sono un problema operativo: un sistema AI che non ha le informazioni necessarie per completare un ragionamento produce output parziali o errati.

La coerenza riguarda quanto i dati sono uniformi tra fonti diverse. Nella maggior parte delle organizzazioni i dati sono distribuiti su più sistemi, un gestionale, un CRM, fogli Excel, archivi documentali, email. Quando gli stessi dati esistono in formati diversi su sistemi diversi, qualsiasi integrazione richiede un lavoro preliminare di normalizzazione che viene quasi sempre sottovalutato.

L’accessibilità riguarda quanto è facile estrarre i dati dai sistemi in cui sono conservati. Dati di ottima qualità bloccati in un sistema legacy senza API sono dati inutilizzabili per un progetto AI finché non si risolve il problema di accesso.

Il problema più diffuso: i dati ci sono ma non si trovano

La situazione più comune nelle organizzazioni italiane non è la mancanza di dati. È la loro dispersione. I dati esistono, ma sono distribuiti su sistemi diversi, in formati incompatibili, gestiti da persone diverse con logiche diverse, senza una governance centralizzata che garantisca coerenza nel tempo.

Un’azienda manifatturiera di medie dimensioni ha tipicamente dati nel gestionale ERP, nel CRM commerciale, nei fogli Excel dei responsabili di reparto, negli archivi email, nei documenti condivisi e nei sistemi di produzione. Nessuno di questi sistemi parla con gli altri in modo automatico. Estrarre una visione integrata richiede un lavoro manuale che nessuno fa sistematicamente, perché nessuno ne ha il mandato esplicito.

Questa frammentazione è il vero collo di bottiglia nei progetti AI, non la mancanza di dati.

Come si affronta il problema nella pratica

Il primo passo è la mappatura delle fonti dati, che facciamo come parte integrante della fase di analisi del metodo MVF. Prima di progettare qualsiasi soluzione AI, identifichiamo dove sono i dati rilevanti per il caso d’uso scelto, in quale formato, con quale qualità e con quale accessibilità.

Questa mappatura produce quasi sempre sorprese. Dati che si pensava di avere non ci sono. Dati che si pensava inutilizzabili si rivelano preziosi. Sistemi che si pensava incompatibili hanno in realtà modalità di integrazione già disponibili.

Il secondo passo è la valutazione della qualità rispetto all’obiettivo specifico. Non esiste una qualità dei dati in assoluto, esiste una qualità adeguata o inadeguata rispetto a quello che il sistema AI deve fare. Dati sufficientemente accurati per un caso d’uso possono essere insufficienti per un altro.

Il terzo passo, quando necessario, è il lavoro di pulizia e strutturazione. È un lavoro che richiede tempo e non è glamour, ma è la fondamenta su cui si costruisce qualsiasi sistema AI affidabile. Saltarlo per andare più veloci è la scorciatoia più costosa che un’organizzazione possa prendere.

Il caso specifico della PA

Nella Pubblica Amministrazione il problema dei dati ha una dimensione aggiuntiva: la normativa. I dati dei cittadini sono soggetti al GDPR e al Codice dell’Amministrazione Digitale, con vincoli precisi su come possono essere trattati, conservati e utilizzati. Qualsiasi progetto AI che tratta dati personali dei cittadini deve includere una valutazione d’impatto sulla protezione dei dati, la cosiddetta DPIA, e garantire che il trattamento sia conforme ai principi di minimizzazione e limitazione della finalità.

Questo non è un ostacolo insormontabile, ma è un lavoro che va fatto prima di iniziare a costruire, non dopo.

Il punto di arrivo

La qualità dei dati non è un problema tecnico che si risolve con uno strumento. È un problema organizzativo che si risolve con una governance: regole chiare su come i dati vengono raccolti, strutturati, mantenuti e condivisi nel tempo.

Le organizzazioni che investono in questa governance non lo fanno solo per i progetti AI. Lo fanno perché dati affidabili e accessibili migliorano la qualità di qualsiasi decisione, con o senza AI. L’AI è spesso il catalizzatore che finalmente rende visibile un problema che esisteva da anni.

Se vuoi capire qual è lo stato dei tuoi dati e come affrontare il problema in modo strutturato prima di avviare un progetto AI, prenota una call gratuita. Partiamo da una mappatura onesta della tua situazione reale.