Dacă AI este “motorul”, datele sunt combustibilul și uleiul în același timp. Poți avea cel mai bun model din lume — dacă datele sunt incomplete, haotice sau greu de accesat, AI fie nu pornește, fie pornește și “dă rateuri”.
În lecția asta înțelegi, practic și clar: ce tipuri de date contează, cum le pregătești, cum eviți capcana “avem multe date” și cum transformi datele dintr-o problemă tehnică într-un avantaj competitiv.
Foarte multe companii sunt în situația asta: au ERP, CRM, ticketing, analytics, BI, Excel-uri, rapoarte, emailuri, documente, SharePoint, drive-uri… și totuși, când vrei să faci un proiect AI, apare replica: “nu avem date”.
În 90% din cazuri, problema nu este lipsa datelor, ci una dintre acestea:
Deci lecția cheie: proiectul AI nu începe cu “modelul”. Începe cu data readiness. Dacă vrei rezultate, prima investiție este disciplina datelor.
Echipa pornește un pilot “AI pentru churn”. După 3 săptămâni, descoperă că: nu există o definiție unică de churn, statusurile din CRM sunt folosite diferit pe regiuni, iar datele despre “ultima interacțiune” sunt în email, nu în sistem.
Modelul nu e problema. Problema e că “adevărul” nu e definit, iar datele nu spun aceeași poveste.
În practică, datele care hrănesc AI se împart în câteva categorii mari. Important este să înțelegi că nu toate au aceeași valoare și nu toate sunt la fel de ușor de folosit.

Sunt datele din ERP/CRM: tranzacții, comenzi, facturi, statusuri, date clienți, produse, prețuri, termene. Aici AI clasic strălucește: scoring, predicție, clasificare.
Sunt datele de “comportament”: pagini vizitate, secvențe de acțiuni, evenimente în aplicație, timpi, erori, sesiuni. Sunt excelente pentru: funnel optimization, fraud signals, next best action.
Aici intră AI generativ și NLP: rezumate, extragere de informații, clasificare de tichete, voice-of-customer. Problema: textul e haotic și “adevărul” e greu de etichetat.
Se folosesc pentru: recunoaștere documente, verificare identitate, inspecții, defecte, inventar. În business, apar mai rar decât textul/cifrele, dar pot avea ROI mare în operațiuni.

În AI predictiv, ai nevoie de un rezultat clar: ce vrei să prezici?
Asta se numește “label” sau “outcome”.
Exemplu: “churn = clientul a plecat”, “default = întârziere > 90 zile”, “lead bun = a cumpărat în 30 zile”.
Problema clasică în business: label-ul este definit prost.
De exemplu:
Calitatea datelor nu înseamnă “să fie frumos”. Înseamnă să fie util pentru decizia pe care o iei. Cele mai importante dimensiuni (cu impact direct în AI) sunt:

Un pipeline bun este un flux repetabil. Nu un proiect “o dată”. În business, pipeline-ul minim arată așa:

În proiectele AI, variabilele (features) sunt locul unde business-ul devine matematică fără să simți.
Exemple:
În AI generativ, datele sunt alt tip de combustibil: nu doar “tabele”, ci și cunoaștere. Ai 3 moduri sănătoase de a alimenta un LLM cu informație reală:

Pui un fragment de text în prompt și ceri rezumat/extragere. Bun pentru task-uri mici, dar nu scalabil.
Sistemul caută în documente interne (policy, proceduri, FAQ) și aduce fragmente relevante în prompt.
Modelul răspunde “sprijinit” pe surse. Aici scade riscul de inventare.
Ajustezi modelul pentru stil/format specific. Util în unele cazuri, dar de multe ori RAG + prompt engineering e suficient.
“Guvernanță” sperie. În practică, guvernanța minimă pentru AI înseamnă 4 lucruri: dicționar, owner, reguli de calitate, rutină de revizuire.

Da, AI poate ajuta chiar la problema datelor, dacă o folosești corect. Unde are impact:

PROMPT B — Detectare probleme de calitate:
„Iată un rezumat al calității datelor (missing %, duplicate %, outliers). Identifică top 5 riscuri de interpretare și propune reguli simple (if/then) de monitorizare.”
PROMPT C — Generare dicționar de date:
„Pe baza listei de câmpuri de mai jos, propune un data dictionary:
– Definiție
– Unitate/format
– Exemple valide/invalid
– Owner recomandat
NU inventa surse de date. Folosește doar câmpurile date.”
PROMPT D — Rezumat pentru management:
„Scrie un rezumat scurt (max 10 bullet-uri) despre starea datelor: ce e ok, ce e critic, ce acțiuni propui (owner + deadline).
Ton: direct, fără jargon.”
Înainte să alegi model, fă acest exercițiu. Te scutește de 70% din eșecuri.
A) Decizia (claritate)
– Ce decizie vrei? ______________________
– Output: scor / clasă / text / recomandare: ______________________
B) Label / adevăr (pentru predictiv)
– Care e outcome? ______________________
– Există în date? DA/NU
– Definiție stabilă? DA/NU
C) Surse & acces
– Surse: ______________________
– Avem acces repetabil? DA/NU
– Owner pe sursă? DA/NU
D) Calitate (estimativ)
– Missing %: ______
– Duplicate %: ______
– Consistency (1-5): ______
– Timeliness (1-5): ______
E) Guvernanță minimă
– Data dictionary există? DA/NU
– Reguli QA (8–12) există? DA/NU
– Ritm review (lunar/trimestrial): ______________________
F) Risc & guardrails
– Date sensibile? (PII) DA/NU
– Acces pe roluri? DA/NU
– Fallback când AI nu știe? DA/NU
“Pregătit” nu înseamnă perfect. Înseamnă: decizie clară, label definit, acces repetabil la surse,
calitate suficientă (și monitorizată), ownership, plus guardrails pentru date sensibile.
Țintă: 4-6 minute.
Datele sunt diferența dintre AI “demo” și AI “în producție”.
Nu volumul contează, ci accesul repetabil, definițiile, label-ul, calitatea și guvernanța.
Pentru AI predictiv, label-ul este cheia: dacă e definit prost, modelul optimizează greșit.
Pentru AI generativ, datele înseamnă cunoaștere: folosești RAG și guardrails ca să reduci inventarea.
Când ai pipeline și rutină de calitate, AI devine scalabil și predictibil.