Ce înseamnă un model calibrat și de ce contează mai mult decât acuratețea

Majoritatea site-urilor de predicții se laudă cu acuratețea: „58% hit rate". Sună bine. Dar acuratețea e doar jumătate din poveste. Întrebarea mai importantă: când modelul zice 70%, cât de des are dreptate?

Definiția calibrării

Un model e calibrat dacă probabilitățile afișate se potrivesc cu frecvența reală. Pe 100 de meciuri unde modelul zice 70%, rezultatul prezis ar trebui să apară ~70 de ori. Nu 85, nu 50 — 70.

Modele brute (XGBoost, random forest) sunt aproape mereu supraîncrezătoare. Spun 80% când real e 65%. Calibrarea corectează asta. Folosim isotonic regression pe vârful ensemble-ului pentru a recalibra output-ul.

De ce contează

Pentru că edge-ul se bazează pe probabilitatea ta. Dacă modelul zice 70% iar realul e 60%, edge-ul calculat e fals-pozitiv. Pariezi crezând că ai value — în realitate pierzi bani pe termen lung.

Calibrarea e ce face diferența între un model „bun la hârtie" și unul pe care poți paria bani reali.

Cum o măsurăm

Log loss: penalizează puternic probabilitățile mari greșite. Un model care zice 95% și pierde primește o penalizare enormă. Ideal: cât mai mic.
Brier score: suma erorilor pătrate între probabilitate și realitate. Mai robust decât log-loss la outliers. Între 0 (perfect) și 1 (catastrofal).
Reliability diagram: grafic în care împarți probabilitățile în bucket-uri (0-10%, 10-20% etc.) și compari cu frecvența reală. Modelele calibrate trasează pe diagonala 45°.

Ce raportăm public

Pe pagina Performanță, afișăm log-loss și Brier pe cele 3 piețe principale (1X2, Over 2.5, BTTS), calculate via walk-forward cross-validation pe 24.693 de meciuri. Fără cherry-picking, fără cifre „optimizate" pe datele de antrenament.

Cifre actuale: Log-loss 1X2 = 0.9086 (vs random baseline 1.0986 → −17.3%). Peste Over 2.5: 0.6191 (vs 0.6931 → −10.7%). BTTS: 0.6442 (vs 0.6931 → −7.1%).

Ce NU facem

Nu raportăm doar acuratețea. Acuratețea e manipulabilă — orice model care mereu zice „favoritul câștigă" nimerește ~55% din meciuri, dar probabilitățile sunt irelevante pentru pariuri. Calibrarea e testul adevărat.

Concluzie

Când vezi un site de predicții care se laudă cu „80% hit rate", întreabă: la ce probabilități afișate?Și pe câte pariuri? Și cum au fost validate cronologic? Dacă nu există răspuns, probabil nu ai edge — ai un generator de random.