3 miesiące później: Model zbieżny — oto co naprawdę mówią dane
W styczniu opublikowałem nasz pierwszy szczery raport po 16 dniach. Wtedy osiągaliśmy 63,8% dokładności przy 66,2% w backteście — lukę tę przypisałem szumowi małej próbki i tarciom między danymi historycznymi a warunkami rzeczywistymi. Od tego czasu wprowadziliśmy jedną istotną korektę modelu i zebraliśmy 587 prognoz na żywo dla zaktualizowanej wersji. Obraz kalibracji uległ zmianie — i to nie w taki sposób, jakiego można by się spodziewać.
Główna liczba
Oto gdzie obecnie stoimy z aktualną wersją modelu:
Uwaga co do liczb: wszystkie dane tutaj odzwierciedlają tylko obecną wersję modelu. Oryginalny model działał wcześniej w sezonie; mieszanie obu zaciemniłoby obraz wydajności. Te 587 prognoz to czysty odczyt tego, co system faktycznie potrafi.
Dokładność live przekraczająca backtest o 0,25 punktu jest rzadkością — modele zazwyczaj tracą nieco gruntu przy przejściu z danych historycznych do warunków czasu rzeczywistego. To mały margines, mieszczący się w granicach błędu statystycznego, ale kierunek ma znaczenie. Model nie degraduje się. On trzyma poziom.
Nie oddaliliśmy się od założeń. Poprawiliśmy je.
Obraz kalibracji zmienił się — ponownie
Po zastosowaniu metody Scalingu Platta, profil kalibracji znacznie się zacieśnił — ale stał się też bardziej szczery w kwestii tego, gdzie model wciąż ma trudności.
| Tier pewności | Prognozy | Trafione | Faktyczne % | Model wskazał | Luka |
|---|---|---|---|---|---|
| Wysoki (74%+) | 172 | 146 | 84,9% | 78,9% | −6,0 pp |
| Średni (66-74) | 96 | 69 | 71,9% | 70,1% | −1,8 pp |
| Niski (55-66%) | 213 | 134 | 62,9% | 60,2% | −2,7 pp |
| Bardzo niski (<55%) | 106 | 47 | 44,3% | 52,4% | +8,1 pp |
Trzy poziomy pokazują, że model jest niedoszacowany — rzeczywiste wyniki są systematycznie lepsze niż przewidywane prawdopodobieństwa. Jeden poziom (Bardzo niska pewność) wykazuje nadmierną pewność siebie (overconfidence), gdzie model przypisuje ~52% prawdopodobieństwa, podczas gdy mecze kończą się sukcesem na poziomie 44%.
Co to oznacza w praktyce
Tier wysokiej pewności: Silny sygnał, wciąż konserwatywny
Przy prawie 84,9% zrealizowanej dokładności, prognozy o najwyższym stopniu pewności pozostają najsilniejszym atutem modelu. Luka -6pp pokazuje stałą tendencję do niedoszacowania — model wciąż „wstrzymuje się” przy swoich najlepszych przewagach.
Tiery średni i niski: Sukces kalibracji
To tutaj Scaling Platta wykonał swoją pracę.
Oba poziomy znajdują się teraz w granicach ~2pp od idealnej kalibracji — dokładnie tego oczekuje się od modelu probabilistycznego. Te prognozy są teraz godne zaufania w dosłownym sensie: gdy model mówi 70%, oznacza to ~70%.
Bardzo niska pewność: Jedyny realny problem
Zostało to teraz wyraźnie odizolowane.
Gdy model generuje prawdopodobieństwo poniżej 55%, wyniki lądują na poziomie 44,3%, a nie 52,4%. To nie szum — to strukturalna nadmierna pewność siebie w marginalnych przewagach.
Co ważne, nie jest to już problem całego systemu, lecz konkretnego segmentu, co ułatwia naprawę.
Dlaczego kalibracja liczy się bardziej niż czysta dokładność
Większość platform pokazuje tylko jedną liczbę. My pokazujemy ich znacznie więcej — możesz sprawdzić pełny wykres wiarygodności, krzywą ROC i podział na poziomy ufności na naszym Panelu Kalibracji. Rozkład tego, gdzie znajduje się Twoja dokładność, zmienia wszystko w kwestii tego, jak powinieneś reagować na prognozy.
Rozważmy dwie hipotetyczne usługi, obie o ogólnej dokładności 67%:
Usługa A: Dokładność rozłożona równomiernie
Każdy poziom ufności ląduje blisko przewidywanego prawdopodobieństwa. Gdy mówią 70%, mecze kończą się sukcesem w ok. 70% przypadków.
Usługa B: 90% trafności na oczywistych faworytach, 45% na reszcie
Liczą to w ten sam sposób. Główna liczba wygląda podobnie, ale sygnał pod spodem jest bezwartościowy przy podejmowaniu jakichkolwiek realnych decyzji.
Czysta dokładność to metryka próżności. Kalibracja mówi Ci, czy faktycznie możesz podjąć działanie na podstawie tych liczb.
Powyższa tabela to nasza wersja przejrzystości typu „Usługa A”. Możesz dokładnie zobaczyć, które poziomy ufności (tiery) działają, z jaką skutecznością i w jakim kierunku zmierzają wyniki.
Co zmieniło się od stycznia
W raporcie 16-dniowym poziomy o wysokiej pewności nie dociągały do przewidywanych prawdopodobieństw. Model miał rację co do kierunku, ale był źle skalibrowany.
Dzisiaj ten wzorzec się odwrócił.
Nie dlatego, że model „nauczył się” więcej o koszykówce, ale dlatego, że zmieniliśmy sposób interpretacji prawdopodobieństw.
Od surowych wyników do skalibrowanych prawdopodobieństw
Kluczową zmianą było wprowadzenie Scalingu Platta.
Zamiast używać bezpośrednio surowych wyników modelu, przepuszczamy je przez transformację logistyczną wytrenowaną na zaobserwowanych wynikach.
Co robi Scaling Platta
- Pobiera surowe wyniki pewności modelu.
- Uczy się, jak te wyniki mapują się na rzeczywistą częstotliwość wygranych.
- Zwraca prawdopodobieństwa, które lepiej odzwierciedlają realne rezultaty.
To nie zmienia samych przewidywań. Zmienia to, jak pewni siebie deklarujemy się być.
To zupełnie co innego.
Nie zmieniliśmy tego, co przewiduje model. Zmieniliśmy to, jak te przewidywania są wyrażane w kategoriach prawdopodobieństwa.
Dlaczego poprzedni model sprawiał wrażenie zbyt pewnego siebie
Przed kalibracją model systematycznie błędnie określał swoją pewność — szczególnie w meczach o wysokim i niskim prawdopodobieństwie.
Kiedy wskazywał:
- 75–80% → wyniki oscylowały w okolicach 65%
- 50–55% → wyniki oscylowały w okolicach 68%
To klasyczny wzorzec w modelach uczenia maszynowego:
Surowe modele nie są naturalnie skalibrowane
Modele oparte na drzewach (takie jak XGBoost czy Random Forests) są optymalizowane pod kątem dokładności rankingu i klasyfikacji — a nie dokładności prawdopodobieństwa.
Uczą się one tego, kto ma większe szanse na wygraną, a nie jak bardzo prawdopodobna jest ta wygrana w kategoriach bezwzględnych.
Dlatego kalibracja jest osobnym krokiem — a nie wbudowaną gwarancją.
Co faktycznie zmienił Scaling Platta
Po zastosowaniu kalibracji Platta rozkład prawdopodobieństwa nie uległ kompresji — został przekształcony, co wzmocniło separację między prognozami.
To kluczowe rozróżnienie.
1. Ekspansja prawdopodobieństwa, a nie kompresja
Zamiast przyciągać prawdopodobieństwa do środka, funkcja skalująca wypchnęła pewne prognozy dalej od progu 50%.
Realne przykłady z modelu:
- 83% → 92%
- 74% → 89%
- 66% → 81%
- 56% → 68%
- 54% → 65% or ~51% (zależnie od siły sygnału)
Co to oznacza
Model nie stał się bardziej konserwatywny — stał się bardziej zdecydowany.
Silniejsze sygnały zostały wzmocnione. Słabsze sygnały zostały albo nieco podniesione, albo zepchnięte z powrotem w stronę „rzutu monetą”.
2. Migracja między tierami (w górę)
To przekształcenie spowodowało strukturalne przesunięcie w rozkładzie prognoz między poziomami ufności.
Przykłady z realnych wyników:
- Medium → High (72% → 88%)
- Low → High (63% → 76–79%)
- Very Low → Low lub pozostaje w Very Low (zależnie od sygnału)
Co to oznacza
Poziom High Certainty jest teraz:
- Większy
- Bardziej selektywny
- Złożony z autentycznie silnych sygnałów
Jednocześnie słabsze przewagi nie są już sztucznie grupowane w środku stawki.
3. Separacja sygnału od szumu
Przed skalowaniem:
- Wiele prognoz skupiało się w przedziale 55–70%
- Sygnały o różnej jakości były do siebie zbliżone liczbowo
Po skalowaniu:
- Silne przewagi → wyraźnie wysokie prawdopodobieństwa (80%+)
- Słabe przewagi → pozostają w okolicach 50–55%
Co to oznacza
Model teraz lepiej rozróżnia:
- „To powinno wygrać” vs
- „To może wygrać”
Zamiast spłaszczać wszystko do środka stawki.
4. Błędy kalibracji stały się widoczne — nie zostały wygładzone
To najważniejszy efekt.
Wcześniej:
- Błędy kalibracji były niespójne na różnych poziomach
- Niektóre tiery były niedoszacowane, inne przeszacowane
Teraz:
- Środkowe tiery → precyzyjnie skalibrowane
- Tier High → systematycznie niedoszacowany
- Tier Very Low → systematycznie przeszacowany
To nie jest skutek uboczny skalowania.
To się dzieje, gdy:
- Zastosujesz globalną transformację monotoniczną
- I usuniesz szum ze środka stawki
W ten sposób odsłaniasz prawdziwą strukturę błędu modelu.
Wyjaśnienie przesunięcia kalibracji
Kluczowa zmiana nie jest tylko liczbowa — jest strukturalna.
Przed kalibracją prawdopodobieństwa były skompresowane i zaszumione:
| Tier | Zachowanie rzeczywiste | Luka |
|---|---|---|
| 70–80% | Przeszacowany | −11pp |
| 60–70% | Przeszacowany | −6pp |
| 55–60% | Niedoszacowany | +5pp |
| 50–55% | Silnie niedoszacowany | +16pp |
Tworzyło to zniekształcony obraz:
- Silne i słabe sygnały były ze sobą zmieszane
- Prawdopodobieństwa ze środka skali były przeładowane
- Błędy kalibracji znosiły się wzajemnie
Po zastosowaniu Scalingu Platta:
Silne sygnały zostały odizolowane
Mecze, które już wcześniej były prawdopodobnymi zwycięstwami, przesunęły się wyraźnie w zakres 80–90%+.
Tworzą one teraz czystszy i bardziej niezawodny poziom High Certainty.
Zredukowano szum w średnim zakresie
Przeładowany zakres 55–70% został rozdzielony:
- Niektóre mecze awansowały (prawdziwe przewagi)
- Niektóre zostały zdegradowane (fałszywe przewagi)
Dlatego poziomy Medium i Low są teraz dobrze skalibrowane.
Słabe przewagi zostały obnażone
Mecze bliskie „rzutu monetą” nie zniknęły.
Stały się za to wyraźnie identyfikowalne:
- Pozostają w zakresie poniżej 55%
- Systematycznie osiągają wyniki poniżej oczekiwań
To tutaj model wciąż ma trudności — ale teraz jest to widoczne.
Co to oznacza dla modelu
Skalowanie Platta nie tylko „naprawiło kalibrację”.
Zmieniło ono sposób, w jaki model wyraża pewność siebie — i sprawiło, że jego struktura stała się łatwiejsza do interpretacji.
Co uległo poprawie
- Silne prognozy są teraz wyraźnie oddzielone od tych granicznych
- Prawdopodobieństwa w średnich tierach są teraz statystycznie wiarygodne
- Poziom wysokiej pewności (High-confidence) zawiera czystsze sygnały wyższej jakości
- Wyniki prawdopodobieństwa są bardziej użyteczne przy podejmowaniu decyzji
Co pozostało do zrobienia
- Tier Very Low wykazuje systematyczne przeszacowanie (~+8 pp luki)
- Tier High jest nadal nieco zbyt konserwatywny w stosunku do rzeczywistych wyników
- Globalne skalowanie wprowadza kompromisy na skrajach rozkładu
Dlaczego ma to większe znaczenie niż wcześniejsze korekty modelu
Wcześniej w tym sezonie korygowaliśmy dane wejściowe modelu (takie jak przewaga własnego boiska). To poprawiło jakość prognoz.
Skalowanie Platta działa na innym poziomie:
- Korekty modelu → poprawiają to, czego model się uczy
- Skalowanie Platta → poprawia to, jak wyrażana jest pewność siebie
W praktyce jednak ta zmiana jest równie istotna.
Ponieważ:
Podsumowanie po 3 miesiącach
Co działa
- Dokładność live > backtest — 67,5% vs 67,25% to walidacja, a nie drift
- Precyzyjna kalibracja — kluczowe środkowe tiery są niemal idealne
- Poziom High Certainty dostarcza elitarnych wyników — 84,9% przy 172 prognozach
- Prawdopodobieństwa są teraz interpretowalne — a nie tylko wskazujące kierunek
- Przejrzystość uległa poprawie — błędy są widoczne, a nie ukryte
Co wymaga pracy
- Nadmierna pewność na poziomie Very Low — luka +8,1pp to nasz główny priorytet.
- Poziom High — model wciąż zbyt konserwatywny.
Co z tym robimy
Skalowanie Platta rozwiązało ogólny problem kalibracji. Teraz możemy skupić się na konkretnych pozostałych słabościach.
Krótkoterminowo:
- Analiza składu tieru Very Low
- Identyfikacja czynników strukturalnych:
- Mecze dzień po dniu (back-to-backs)
- Zmęczenie podróżą
- Specyficzne profile drużyn
- Ocena, czy te mecze powinny być filtrowane, a nie poprawiane
Średnioterminowo:
- Testy nieliniowych metod kalibracji (np. regresja izotoniczna)
- Badanie kalibracji specyficznej dla tierów zamiast skalowania globalnego
- Rewizja zasad wyświetlania prognoz poniżej 55%
Długoterminowo:
- Pełna spójność wiarygodności we wszystkich przedziałach prawdopodobieństwa
- Budowa ram decyzyjnych uwzględniających kalibrację (nie tylko same prognozy)
- Rozszerzenie skalibrowanego podejścia na inne dyscypliny sportowe
Dlaczego to podejście wygrywa
Branża prognoz sportowych jest pełna "cudownych środków" i ukrytych statystyk.
Po 3 miesiącach dane potwierdzają inną ścieżkę:
Radykalna przejrzystość:
Pokazywać wszystko, nawet gdy jest to niewygodne
Uczciwe oczekiwania:
67,5% na żywo jest realne. 80% nie.
Ciągłe doskonalenie:
695 prognoz opartych na danych na żywo stanowi fundament dla rzeczywistych prac nad kalibracją
Edukacja użytkowników:
Uczymy, jak oceniać prognozy, a nie tylko je przyjmować
Wiarygodność kumuluje się z czasem. Nie można jej kupić — można ją jedynie wypracować poprzez spójne i przejrzyste raportowanie.
Konkluzja
Po 3 miesiącach i 695 prognozach na żywo:
- Skuteczność 67,5% live – przewyższa backtesty, potwierdzona na 695 prognozach
- Pełna kalibracja – 4 tiery monitorowane i publicznie dostępne w Panelu Kalibracji
- Tier High Certainty dowozi wyniki – 84,9% skuteczności przy 172 prognozach
- Szczerość ws. słabości – luka w tierze VLC została udokumentowana i jest analizowana
- Brak fałszywych obietnic – nie manimy wynikiem 80%, aby sprzedawać subskrypcje
Jeśli szukasz zawyżonych statystyk i prognoz typu „czarna skrzynka”, na rynku jest mnóstwo alternatyw.
Jeśli jednak oczekujesz uczciwych wyników, przejrzystej metodologii i autentycznego rozwoju opartego na realnych danych — jesteś we właściwym miejscu.
Właśnie dlatego pokazujemy każdą prognozę.
Dołącz do nas
Tier Preview
Zobacz 1-2 prognozy dziennie
Za darmo
Tier Core
Dostęp do wszystkich prognoz z poziomami pewności
€9.90/miesiąc
Tier Insight
Pełna metodologia, zaawansowana analityka, dane kalibracyjne
€24.90/miesiąc
Każda prognoza ma sygnaturę czasową. Każdy wynik jest śledzony. Każdy wskaźnik skuteczności jest publiczny.
Bo w świecie obietnic o 80% skuteczności, 67,5% szczerości stanowi przewagę konkurencyjną.