În lecția asta înveți cea mai importantă regulă din modelare de risc: nu există “model bun” peste date proaste.
Vei vedea ce înseamnă calitatea datelor “pe bune”, cum arată un istoric util (vs. unul “frumos în Excel, inutil în viață”), ce sanity checks sunt obligatorii înainte să antrenezi orice model, și cum folosești AI ca să accelerezi verificările (fără să inventezi sau să maschezi probleme).
În analytics există o expresie celebră: garbage in, garbage out.
În credit, traducerea e mai dură:
garbage in → pierderi reale.
De ce? Pentru că un model nu “știe” realitatea. El vede doar ceea ce îi dai.
Dacă îi dai istoric incomplet, etichete greșite, variabile nealiniate, perioade amestecate, valori lipsă mascate,
atunci modelul nu învață riscul — învață artefacte.
Și artefactele sunt periculoase pentru că arată convingător: scoruri, grafice, AUC, lift.
Dar când treci în producție, apare șocul:
modelul performează pe hârtie și e slab în viață.
Echipa: “Avem datele, sunt în DWH.”
Modeler: “Perfect. Ce înseamnă default la voi? E consistent pe ani? Avem cure window? Avem date lipsă marcate corect?”
Echipa: “E… în principiu… depinde… cred…”
Modeler: “Ok, deci nu avem date. Avem un folder.”
“Date bune” nu înseamnă doar “multe”. În risc, date bune înseamnă 5 lucruri:
În modelarea de risc, “cât istoric” nu se răspunde cu un număr magic, ci cu o întrebare:
istoricul acoperă suficiente situații ca modelul să învețe?
În practică, istoric util înseamnă:
Dacă ai doar ani “buni”, modelul învață să fie optimist. Dacă ai doar ani “răi”, modelul poate supra-penaliza.
De aceea, în risc, vorbim mult despre representativeness și despre monitorizare continuă.
Default-ul este eticheta pe care modelul o învață. Dacă eticheta e incoerentă, totul cade.
În practică, trebuie să stabilești:
Sanity checks sunt verificări simple care îți spun dacă datele au sens.
Nu sunt “nice to have”. Sunt “nu treci mai departe fără ele”.
| Check | Întrebare | De ce contează | Red flag tipic |
|---|---|---|---|
| Unicitate | Am un rând per entitate per dată? | Altminteri dublezi expuneri și strici ținta | aceeași expunere apare de 2–3 ori |
| Completitudine | Ce % e missing pe câmpurile cheie? | Missing poate induce bias sau poate ascunde probleme | missing mascat ca 0 / “N/A” |
| Range | Valorile sunt plauzibile? | Outliers pot fi erori sau evenimente rare | DSCR 999, LGD -20% |
| Semn & logică | Indicatorii respectă semnificația? | Semnele greșite inversează concluzii | dobânzi negative fără motiv |
| Timp | Nu am leakage (info din viitor)? | Leakage = performanță falsă, eșec în producție | folosești “status final” ca input |
| Stabilitate | Distribuțiile sunt stabile în timp? | Drift = model degradat, necesită recalibrare | salt brusc în feature |
În risc, fiecare câmp important ar trebui să aibă o “fișă” scurtă: definiție, sursă, transformări, frecvență, owner.
Asta se numește data lineage (pe scurt).
Fără lineage, ajungi în situații periculoase:
În credit, “missing” poate însemna 3 lucruri complet diferite:
Un model care tratează toate cele 3 ca “0” face praf realitatea.
De aceea, în practică, missing se tratează cu:
Aici AI-ul e foarte util, pentru că poate accelera:
Dar regula e simplă: AI nu trebuie să “repare” datele fără să înțelegi ce repară.
AI te ajută să vezi problema mai repede și să o documentezi mai bine.
Întrebare: care sunt 5 pași practici ca să previi asta data viitoare?
1) Adevărat/Fals: Dacă nu ai missing values, datele sunt de calitate.
2) Alege 1: Cel mai periculos tip de problemă de date pentru performanță “fals bună” este:
3) Completează: În risc, “date bune” = definite, consistente, reprezentative și ________.
4) Adevărat/Fals: AI ar trebui folosit ca să “repare” automat outliers și missing.
DATA QUALITY PACK — Minim înainte de model
A) Definiții:
– Default: definiție + orizont + cure rules
– Segmente: criterii și stabilitate în timp
– Timestamp-uri: moment decizie (t0), outcome (t+), observații (t-)
B) Sanity checks (obligatorii):
– Unicitate: 1 rând per entitate per dată
– Missing: % pe câmpuri cheie + motiv (NU mascate ca 0)
– Range/Plauzibilitate: min/max/p99/p1 + reguli de business
– Leakage: listă de câmpuri interzise/monitorizate + test time alignment
– Stabilitate: distribuții în timp + semnal drift
C) Lineage:
– pentru fiecare câmp critic: sursă, ETL, owner, refresh, schimbări
D) AI (rol permis):
– rezumat profil date
– generare checklist și test cases
– documentare lineage
– semnalare anomalii / drift
Regulă: AI nu schimbă datele fără aprobarea procesului.