Przeanalizowałem 5 000 meczów NBA – Oto co naprawdę przewiduje zwycięstwa
Kiedy zacząłem budować model predykcyjny dla NBA, myślałem, że znam się na koszykówce. Obejrzałem tysiące meczów, studiowałem analitykę, rozumiałem "Four Factors". Byłem gotowy.
Wtedy dane sprowadziły mnie na ziemię.
Po przeanalizowaniu ponad 5 000 meczów NBA z sześciu sezonów, przygotowaniu 267 różnych zmiennych i przeprowadzeniu setek iteracji modelu, odkryłem coś niewygodnego: większość rzeczy, które uważamy za kluczowe dla wygrywania meczów, albo nie ma znaczenia, albo ma go znacznie mniej, niż nam się wydaje.
Oto pięć najbardziej zaskakujących wniosków, które wyłoniły się z danych — i dlaczego na zawsze zmieniły one mój sposób myślenia o koszykówce.
Insight #1: Różnice (Differentials) znaczą więcej niż surowe rankingi
Obiegowa opinia: Aby przewidzieć zwycięzcę, spójrz na to, jak gospodarze radzą sobie u siebie, a goście na wyjeździe.
Co mówią dane: Indywidualne rankingi dom/wyjazd są drugorzędne. Rolling 10-Game Offensive Differential (różnica ofensywna z ostatnich 10 meczów) między dwoma zespołami jest lepszym predyktorem zwycięstwa.
Porównując korelację absolutną (r) z wynikami meczów, "Luka" (Gap) między zespołami jest znacznie silniejszym sygnałem niż izolowany status pojedynczej drużyny:
| Typ metryki | Nazwa metryki | Siła predykcyjna (r) |
|---|---|---|
| L10 Differential | off_rating_l10_diff | 0.2567 |
| L5 Differential | off_rating_l5_diff | 0.2467 |
| Season Differential | off_rating_diff | 0.2204 |
| Season Home Raw | home_off_rating | 0.1891 |
| Season Away Raw | away_off_rating | 0.1240 |
| L10 Home Raw | home_off_rating_l10 | 0.1086 |
| L5 Home Raw | home_off_rating_l5 | 0.1079 |
| L10 Away Raw | away_off_rating_l10 | 0.0781 |
| L5 Away Raw | away_off_rating_l5 | 0.0630 |
Paradoks "Status vs. Gap"
Dane ujawniają fascynującą hierarchię mocy predykcyjnej. O ile sezonowy ranking ofensywny gospodarzy (0.1891) jest lepszym wskaźnikiem niż ich ranking z ostatnich 10 meczów (0.1086), sytuacja odwraca się całkowicie, gdy patrzymy na starcie jako całość.
W momencie obliczenia Różnicy (Differential) między dwoma przeciwnikami, średnia krocząca z 10 meczów staje się nadrzędnym sygnałem.
Dlaczego średnia krocząca (Rolling Differential) wygrywa
- Siła kontekstowa: Wysoki ranking ofensywny jest bez znaczenia, jeśli ofensywa przeciwnika jest jeszcze lepsza. Metryki
diffoddają "zderzenie" dwóch konkretnych drużyn, a nie izolowaną średnią. - Przewaga "Aktualnej Wersji":
off_rating_l10_diff(0.2567) przewyższa sezonowyoff_rating_diff(0.2204). Potwierdza to, że choć jedna z drużyn może mieć stabilną przewagę w skali sezonu, wynik konkretnego meczu zależy od tego, jak zderzają się obecne trajektorie obu drużyn. - Statystyczna "Złota Strefa": Różnica z 10 meczów (L10) jest silniejsza niż z 5 (L5). Sugeruje to, że próbka 5 meczów jest zbyt "szumiąca" (podatna na pojedyncze występy), podczas gdy 10 meczów zapewnia idealną równowagę między świeżą formą a istotnością statystyczną.
Pułapka analityka: Nie daj się zwieść drużynie z ogromnym sezonowym rankingiem ofensywnym. Jeśli Różnica między ich L10 a L10 przeciwnika maleje, statystyka z całego sezonu jest opóźnionym wskaźnikiem, który doprowadzi do błędnych prognoz.
Praktyczny wniosek
Oceniając mecz, priorytetyzuj Różnicę. Odejmij wynik L10 drużyny gości od wyniku L10 gospodarzy. Ta pojedyncza liczba jest mniej więcej dwukrotnie bardziej predykcyjna niż surowy ranking gości i znacznie bardziej wiarygodna niż agregaty z całego sezonu.
Insight #2: Hierarchia "Four Factors" wywrócona do góry nogami
Obiegowa opinia: Cztery Czynniki Deana Olivera (Four Factors) są fundamentem analizy i powinny być traktowane niemal na równi: Skuteczność (eFG%), Straty (TOV%), Zbiórki (REB%) oraz Rzuty wolne (FTR).
Co mówią dane: Wcale nie są równe. Mój model pokazuje, że rzuty wolne mają minimalny wpływ na ostateczny wynik, podczas gdy walka na tablicach i poszanowanie piłki ważą znacznie więcej.
Po przetestowaniu wszystkich Czterech Czynników w różnych wariantach, oto rzeczywista hierarchia ważności cech (feature importance) z mojego modelu:
Four Factors – Ranking rzeczywistej ważności:
- Turnover % Away Team (L10): 4,1%
- Offensive Rebounding % Away Team (L5): 3,.5%
- Defensive Rebounding % Differential (L10): 2,6%
- Free Throw Rate Home Team (L10): 1,8%
Asymetria zbiórek: Intensywność kontra fundamenty
Mój model przyniósł fascynujący wynik: Zbiórka w ataku gości (L5) z wynikiem 3,5% jest znacznie istotniejsza niż Różnica w zbiórce w obronie (L10) - 2,6%.
- Energia ponad podręczniki: Trenerzy od lat powtarzają, że zbiórka w obronie wygrywa mistrzostwa, bo ucina ponowienia rywala. Jednak model sugeruje coś innego: dla drużyny przyjezdnej to zbiórka w ataku jest najlepszym wskaźnikiem fizyczności i intensywności.
- Sygnał "hustle": Agresywna walka na cudzej tablicy to dowód na to, że drużyna gra z wysokim „motorem”. Podczas gdy zbiórka w obronie jest elementem czysto rzemieślniczym, dominacja w ataku na wyjeździe to czynnik rozbijający rytm gospodarzy, który często odbiera im pewność siebie.
Straty: Cichy zabójca wyjazdów
Z wynikiem 4,1%, Procent strat gości (L10) to absolutnie najważniejsza cecha w obrębie „Four Factors”.
- Podatek od wyjazdu: Drużyny gości i tak mają pod górkę przez wrogą halę. Jeśli nie potrafią chronić piłki, „podatek od tranzycji” (punkty z kontry) staje się nie do udźwignięcia.
- Trend „niechlujstwa” (L10): Fakt, że model preferuje tu średnią z ostatnich 10 meczów, sugeruje, że chaos w grze to trend, a nie wypadek przy pracy. Jeśli zespół „sypie się” od dwóch tygodni, presja wyjazdowa prawdopodobnie ich dobije.
Paradoks rzutów wolnych: Iluzja łatwych punktów
Częstotliwość rzutów wolnych (FTR) zajęła ostatnie miejsce z wynikiem zaledwie 1,8%. To brutalne zderzenie z rzeczywistością dla typerów, którzy szukają zwycięzcy w drużynie częściej stającej na linii.
- Rytm kontra ratowanie się: Częste rzuty wolne to nierzadko objaw problemów ofensywy, która nie potrafi znaleźć płynności w grze z pola i desperacko szuka fauli.
- Nowoczesna koszykówka: W erze rzutów za 3 punkty korelacja między „rzucaniem większej liczby wolnych” a wygraną osłabła. Model potwierdza: wysoki wskaźnik FT często wskazuje na styl gry, który jest zbyt wolny i przewidywalny dla nowoczesnych, szybkich ofensyw.
Ostateczna hierarchia (Rzeczywistość modelu):
- Chroń piłkę (TOV% Gości): Główny motor napędowy wyjazdowych niespodzianek.
- Gryź parkiet w ataku (ORB% Gości): Metryka zaangażowania i energii.
- Kontroluj własna tablicę (DRB% Diff): Niezbędny fundament kontroli meczu.
- Wymuszaj faule (FT Rate): Miły dodatek, ale nie klucz do sukcesu.
Insight #3: Efekt B2B jest przeceniany, ale „okno odpoczynku” – kluczowe
Obiegowa opinia: Drużyny grające dwa mecze w dwa dni (Back-to-Back) są skazane na porażkę. Zawsze stawiaj przeciwko nim.
Co mówią dane: W rzeczywistości różnica B2B zajmuje dopiero 8. miejsce pod względem ważności w modelu (3,8%). Z kolei optymalna liczba dni odpoczynku gości (10. miejsce, 3,2%) dostarcza znacznie bardziej precyzyjnego sygnału prognostycznego.
Oto jak rozkłada się wpływ tych czynników:
Różnica Back-to-Back3,8% Optymalny odpoczynek gości3,2%
Dlaczego wpływ B2B jest mniejszy, niż nam się wydaje
- Ewolucja regeneracji: Nowoczesny load management (zarządzanie obciążeniami), zaawansowana medycyna sportowa i strategiczne absencje gwiazd (DNP) zniwelowały wyniszczający efekt B2B, który znaliśmy dekadę temu.
- Zniekształcenie przez terminarz: Drużyny w grafiku B2B często otrzymują trudniejszych rywali w drugą noc ze względu na konstrukcję kalendarza NBA. Model izoluje siłę rywala, przez co „czysty” efekt zmęczenia okazuje się słabszy.
"Sweet Spot": magia optymalnego odpoczynku
Mój model zidentyfikował idealne okno wydajności: 2–3 dni odpoczynku.
- Mniej (1 dzień): Zespół jest w fazie pośpiesznej regeneracji, co odbija się na precyzji.
- Więcej (4+ dni): Pojawia się efekt „rdzy” (rust) – zawodnicy wypadają z rytmu meczowego i tracą odpowiedni tonus mięśniowy.
Gdy goście wybiegają na parkiet dokładnie w interwale 2–3 dni przerwy po podróży, osiągają statystycznie lepsze wyniki niż zespoły, które odpoczywały za krótko lub zbyt długo.
Wniosek z modelu: Nie graj „z automatu” przeciwko drużynom w B2B. Zamiast tego sprawdź, czy goście znajdują się w „złotym oknie” 2–3 dni. To znacznie rzetelniejszy wskaźnik gotowości do gry niż sam fakt występu dzień po dniu.
Insight #4: Różnica PIE to absolutny król
Obiegowa opinia: Żadna pojedyncza statystyka nie wskaże faworyta — potrzebujesz skomplikowanego "koktajlu" danych, by zrozumieć układ sił.
Co mówią dane: Wyniki są jednoznaczne. Różnica PIE (Player Impact Estimate) to bezdyskusyjny tytan modelu. Odpowiada ona za blisko 38% całkowitej mocy predykcyjnej, gdy zsumujemy wpływ metryk sezonowych oraz tych z ostatnich 10 meczów (L10).
PIE to najbardziej holistyczny wskaźnik efektywności w NBA. W przeciwieństwie do Net Ratingu, precyzyjnie waży on każde zdarzenie na boisku:
- In plus: Punkty, zbiórki, asysty, przechwyty, bloki.
- In minus: Straty, pudła z gry, faule.
Dominacja efektywności
W zestawieniu TOP 17 zmiennych mojego modelu hierarchia jest przejrzysta: "Całkowita Luka Efektywności" bije na głowę wszystkie inne wskaźniki.
Top 5 kluczowych cech modelu:
- Różnica PIE (Sezon): ~20,2%
- Różnica PIE (L10): ~17,7%
- Różnica Porażek (Sezon): ~8,7%
- Skorygowany Net Rating Gospodarzy (SOS Adjusted): ~8,0%
- Różnica Offensive Rating (L10): ~7,1%
Warto zauważyć, że PIE dubluje się na samym szczycie. O ile sezonowe pie_diff stanowi stabilny fundament oceny potencjału drużyny, o tyle średnia z 10 meczów (pie_l10_diff) błyskawicznie wyłapuje aktualną formę i "momentum".
Dlaczego PIE wygrywa z Net Ratingiem?
Mimo że skorygowany o siłę terminarza (SOS) Net Rating gospodarzy jest istotny (8,0%), wciąż ma on o połowę mniejszą siłę przewidywania niż różnica PIE.
- Głębia danych: PIE docenia tzw. "hustle" i realną wydajność każdego posiadania, co w surowych różnicach punktowych często umyka.
- Odporność na anomalie: Sezonowe PIE skutecznie odfiltrowuje "szum" po wysokich pogromach (blowoutach), które potrafią sztucznie wykrzywić Net Rating.
- Magia "Luki": Model potwierdza: najważniejszą liczbą w nowoczesnej koszykówce jest dystans w efektywności wykorzystania posiadań między obiema stronami.
Kluczowy wniosek! Zanim zaczniesz analizować detale, spójrz na różnicę PIE. Jeśli zespół posiada wyraźną przewagę w tej metryce zarówno w skali sezonu, jak i ostatnich 10 spotkań — statystycznie jest potężnym faworytem.
Cała reszta — od Strat Gości (4,1%) po Przewagę Odpoczynku (3,2%) — to jedynie drobne korekty fundamentu, który buduje PIE.
Insight #5: Asysty nie przewidują zwycięstw (ale dyscyplina – jak najbardziej)
Obiegowa opinia: Drużyny z dużą liczbą asyst grają "właściwy basket" i dzięki temu częściej wygrywają.
Co mówią dane: Różnica asyst w ogóle nie załapała się do TOP 17 kluczowych zmiennych. Z kolei Różnica fauli osobistych (L10) zajęła 15. miejsce z wagą 2,0%.
To kontrintuicyjne odkrycie: "negatywna" statystyka, jaką są faule, ma większą moc predykcyjną niż tak pozytywny wskaźnik jak asysty.
Dlaczego asysty to metryka "próżności" (Vanity Metric)
Po przetestowaniu wielu wariantów statystyk dotyczących asyst, model konsekwentnie je odrzucał. Oto dlaczego:
- Redundancja: Wszystkie realne korzyści z dobrego ruchu piłki są już "zaszyte" w PIE (20,2%) oraz Offensive Ratingu (7,1%). Jeśli asysty faktycznie zamieniają się w punkty, model widzi to już w ogólnej efektywności.
- Styl vs Treść: Zespoły grające widowiskowo (jak Warriors czy Nuggets) oraz te oparte na izolacjach gwiazd (jak Rockets w czasach Jamesa Hardena) mogą być równie skuteczne. Wskaźnik asyst mierzy styl gry, a niekoniecznie szansę na sukces.
Dlaczego faule osobiste (L10) to ukryty sygnał
Obecność pf_l10_diff w czołówce sugeruje, że dyscyplina na dystansie ostatnich 10 meczów jest kluczowym czynnikiem decydującym o wyniku na styku.
- Problemy z rotacją (Foul Trouble): Nadmiar fauli wysyła liderów na ławkę wcześniej, niż planował trener. Gdy Twoi najlepsi gracze muszą uważać na przewinienia, model odnotowuje natychmiastowy spadek jakości gry.
- "Miękka" obrona: Zawodnicy z bagażem fauli grają zachowawczo. Trudno o agresywną obronę obręczy, gdy wisi nad Tobą widmo opuszczenia parkietu za szósty faul.
- Objaw "spóźnienia": Faulowanie to często symptom głębszego problemu. Drużyna, która na przestrzeni ostatnich 10 spotkań fauluje częściej niż rywale, zazwyczaj po prostu "nie nadąża" w rotacjach obronnych. To ogromna czerwona flaga.
Hierarchia dyscypliny
W moim modelu prawdziwa "Dyscyplina" opiera się na dwóch filarach, które ważą znacznie więcej niż efektowne podania:
- Kontrola piłki (Goście TO% L10): 4,1%
- Czystość gry (Różnica PF L10): 2,0%
Wniosek dla analityka. Ignoruj statystyki asyst przy ocenie szans na zwycięstwo. Zdolność drużyny do unikania głupich fauli i dbania o posiadanie piłki w ostatnich 10 meczach to znacznie lepszy wyznacznik zwycięskiej kultury niż liczba podań, które zakończyły się celnym rzutem.
Cechy, które (prawie) NIE mają znaczenia
W skutecznym prognozowaniu równie ważne jak wiedza o tym, co działa, jest zrozumienie, co należy ignorować. Poniższe czynniki albo w ogóle nie załapały się do TOP 17, albo zajęły zaskakująco niskie lokaty:
#1: Częstotliwość rzutów za 3 punkty Brak w TOP 17. W dzisiejszej NBA rzucać z dystansu potrafi każdy. Sam wolumen rzutów przestał być czynnikiem różnicującym – liczy się efektywność, a tę już teraz precyzyjnie wyłapują moje główne metryki: PIE i Offensive Rating.
#2: Tempo gry (Pace) Brak w TOP 17. Szybkie zespoły nie mają systemowej przewagi nad tymi grającymi wolniej. Wysokie tempo generuje po prostu więcej posiadań, co jedynie ułatwia bardziej efektywnej drużynie (z wyższym PIE) wypracowanie bezpiecznej przewagi.
#3: Wskaźniki asyst Brak w TOP 17. Jak pokazałem w Insight #5, ruch piłki to wybór stylistyczny, a nie gwarancja sukcesu. Model interesuje końcowy wynik posiadania (punkty i skuteczność), a nie liczba podań wykonanych przed rzutem.
#4: Produktywność ławki rezerwowych Brak w TOP 17. Wysokie statystyki zmienników często maskują słabość pierwszej piątki. Z punktu widzenia predykcji, efektywność kluczowej rotacji (zawarta w danych L10) jest znacznie stabilniejszym i bardziej wiarygodnym wskaźnikiem.
Fundament DataProven: jak działa model
Analizując wzorce na dystansie ponad 5 000 meczów, stworzyłem DataProven – model predykcyjny NBA oparty na twardych danych i realnych czynnikach zwycięstwa, a nie na tym, co "wydaje się" słuszne.
Architektura XGBoost_TOP17
Mój model operuje na 17 wypracowanych cechach, precyzyjnie ważonych przez ich rzeczywisty wpływ na wynik (Gain) w algorytmie XGBoost. To jest "DNA" każdej mojej prognozy:
| Ranga | Cecha | Ważność | Kategoria |
|---|---|---|---|
| 1 | Różnica PIE (Sezon) | 20,2% | Globalna Efektywność |
| 2 | Różnica PIE (L10) | 17,7% | Aktualna Forma |
| 3 | Różnica Porażek (Sezon) | 8,7% | Klasa Zespołu |
| 4 | Home Adjusted Net Rating | 8,0% | Siła Gospodarzy |
| 5 | Różnica Offensive Rating (L10) | 7,1% | Siła Ognia w Ataku |
| 6 | Różnica Wygranych (Sezon) | 6,9% | Stabilność Wyników |
| 7 | Straty Gości % (L10) | 4,1% | Dyscyplina na Wyjeździe |
| 8 | Różnica Back-to-Back | 3,8% | Zmęczenie i Terminarz |
| 9 | Zbiórki Ofensywne Gości % (L5) | 3,5% | Intensywność i Hustle |
| 10 | Jakość Odpoczynku Gości | 3,2% | Cykl Regeneracji |
| 11 | Dominacja w H2H | 2,9% | Historia Bezpośrednia |
| 12 | Porażki Gospodarzy (Sezon) | 2,9% | Podatność na Porażki Gospodarzy |
| 13 | Różnica Zbiórek Def. % (L10) | 2,6% | Kontrola Posiadań |
| 14 | Zbiórki Defensywne Gospodarzy % | 2,5% | Solidność Obrony Domowej |
| 15 | Różnica Fauli Osobistych (L10) | 2,0% | Dyscyplina Gry |
| 16 | Trafione Rzuty Wolne Gości (L10) | 1,8% | Agresja w Ataku |
| 17 | Częstotliwość Wolnych Gospodarzy (L10) | 1,8% | Domowa Presja na Obręczy |
Skuteczność i weryfikacja
Model został wytrenowany przy użyciu walidacji szeregów czasowych (bez zaglądania w przyszłość). Oto wyniki z realnych testów:
- 67% skuteczności ogólnej na dystansie ponad 900 meczów.
- 70%+ skuteczności przy prognozach wysokiej pewności (prawdopodobieństwo >65%).
- 8.1% ROI (zwrot z inwestycji) przy uwzględnieniu realnych kursów bukmacherskich.
- Doskonała kalibracja: Jeśli model wskazuje 70% szans na wygraną, to drużyny wygrywają dokładnie w 70% takich przypadków.
Dlaczego transparentność ma znaczenie
Większość serwisów obiecuje niemożliwe matematycznie 80-90% skuteczności, ukrywając przy tym swoje metody. Ja stawiam na pełną jawność:
- Każda zmienna ma udokumentowaną wagę i znaczenie.
- Każda prognoza (zarówno trafiona, jak i błędna) jest publicznie rozliczana.
- Logika modelu jest wyjaśniana przy każdym spotkaniu.
W świecie analityki kalibracja zawsze wygrywa z hypem. Kiedy prognozuję 70%, chcę widzieć 70% trafień na dużej próbie. To jest jedyna droga do długofalowego sukcesu.
Kluczowe wnioski:
- ✅ PIE to fundament: Luka efektywności to jedyna statystyka, którą naprawdę warto śledzić.
- ✅ Różnice > Suche dane: Sukces polega na wyłapaniu dystansu między potencjałem obu drużyn.
- ✅ Dyscyplina gości: Ochrona piłki i intensywność na wyjeździe to klucze do wyłapywania niespodzianek (upsetów).
- ✅ Faule > Asysty: Czysta obrona i brak głupich błędów ważą więcej niż efektowne podania.
To lekcje wyciągnięte z 5 000 meczów NBA. A na jakich statystykach Ty opierasz swoje przewidywania?