Я проаналізував 5 000 матчів НБА — ось що насправді прогнозує перемоги
Коли я брався за розробку моделі для прогнозування матчів НБА, то думав, що знаюся на баскетболі. Я переглянув тисячі матчів, вивчав аналітику, знав про "Four Factors". Я був готовий.
А тоді дані поставили мене на місце.
Після аналізу понад 5 000 матчів НБА за шість сезонів, розробки 267 різних змінних і сотень ітерацій моделі, я відкрив дещо неприємне: більшість того, що ми вважаємо важливим для перемоги в баскетболі, або не має значення, або важить набагато менше, ніж ми звикли думати.
Ось п'ять найбільш вражаючих інсайтів, виявлених даними — і чому вони назавжди змінили моє сприйняття баскетболу.
Інсайт #1: Різниця (Differentials) важливіша за сухі рейтинги
Загальноприйнята думка: Щоб визначити переможця, дивіться на те, як команда грає вдома, а суперник — на виїзді.
Що кажуть дані: Індивідуальні рейтинги "дім/виїзд" — це другорядне. (Най)кращим предиктором перемоги є Rolling 10-Game Offensive Differential (різниця рейтингів атаки двох команд за останні 10 матчів).
При порівнянні абсолютної кореляції (r) з результатом матчу, "розрив" (gap) між командами є набагато сильнішим сигналом, ніж індивідуальний показник будь-якої з команд:
| Тип метрики | Назва метрики | Прогностична сила (r) |
|---|---|---|
| L10 Differential | off_rating_l10_diff | 0,2567 |
| L5 Differential | off_rating_l5_diff | 0,2467 |
| Season Differential | off_rating_diff | 0,2204 |
| Season Home Raw | home_off_rating | 0,1891 |
| Season Away Raw | away_off_rating | 0,1240 |
| L10 Home Raw | home_off_rating_l10 | 0,1086 |
| L5 Home Raw | home_off_rating_l5 | 0,1079 |
| L10 Away Raw | away_off_rating_l10 | 0,0781 |
| L5 Away Raw | away_off_rating_l5 | 0,0630 |
Парадокс «Рейтингу та Розриву»
Дані виявляють цікаву ієрархію прогностичної сили. Хоча сезонний кумулятивний рейтинг атаки команди-господаря (0,1891) є кращим індивідуальним індикатором, ніж рухомий середній рейтинг за останні 10 ігор (0.1086), ситуація кардинально змінюється, коли поглянути на протистояння команд в цілому.
Якщо розрахувати Різницю (Differential) рейтингів опонентів, то найкращим сигналом стає саме рухомий середній показник за останні 10 ігор.
Чому рухоме середнє різниці (Rolling Differential) домінує
- Контекстуальна сила: Високий рейтинг атаки не має значення, якщо напад суперника ще кращий. Метрики
diffхарактеризують "хімію протистояння" двох конкретних команд набагато краще, ніж індивідуальні середні показники. - Перевага "поточного стану":
off_rating_l10_diff(0,2567) перевершує сезоннийoff_rating_diff(0,2204). Це підтверджує той факт, що хоч одна з команд може мати стабільно кращий рейтинг протягом сезону, результат матчу визначається перетинами поточних траєкторій обох команд. - Статистична "золота середина": Прогностична сила різниці рухомих середніх за 10 ігор (L10) більша, ніж за 5 ігор (L5). Це свідчить про те, що вибірка з 5 матчів є занадто "шумною" (чутливою до поодиноких виступів), тоді як 10 забезпечують ідеальний баланс між поточною формою та статистичною значущістю.
Пастка аналітика: Не дозволяйте собі захопитися командою з величезним сезонним рейтингом атаки. Якщо різниця між їхнім L10 та L10 суперника скорочується, сезонна статистика — це запізнілий показник, який призведе до хибних прогнозів.
Практичний висновок
Оцінюючи матч, надавайте пріоритет різниці. Відніміть результат L10 гостей від результату L10 господарів. Це єдине число приблизно вдвічі точніше прогнозує результат, ніж індивідуальний рейтинг гостей, і набагато надійніше за сезонні агреговані показники.
Insight #2: Реальна ієрархія "Four Factors" перевернута догори дриґом
Загальноприйнята думка: "Чотири фактори" Діна Олівера (влучність (eFG%), втрати (TOV%), підбори (ORB%/DRB%) та штрафні (FTR)) мають однакову вагу у визначенні переможця.
Що кажуть дані: Насправді вони далеко не рівноцінні. Моя модель показує, що штрафні кидки мають мінімальний вплив на результат, тоді як робота на щитах та контроль м'яча важать значно більше.
Після стрес-тестування всіх факторів у різних комбінаціях, ось як виглядає реальний рейтинг їхньої важливості в моделі:
Four Factors — Вплив на результат:
- Turnover % Away Team (L10): 4,1%
- Offensive Rebounding % Away Team (L5): 3,5%
- Defensive Rebounding % Differential (L10): 2,6%
- Free Throw Rate Home Team (L10): 1,8%
Асиметрія підборів: агресія проти фундаменталізму
Результати моделі виявили цікавий парадокс: Відсоток підборів у нападі гостей (за останні 5 ігор) з вагою 3,5% виявився важливішим за Різницю захисних підборів (L10) — 2,6%.
- Енергія важливіша за канони: Тренери десятиліттями вчать, що захисний підбір виграє чемпіонати. Проте цифри свідчать: для команди гостей саме агресивна боротьба на чужому щиті є найкращим індикатором фізичної домінації.
- Сигнал "зарядженості": Якщо гості стабільно забирають підбори в нападі — це ознака високої інтенсивності (hustle). Це «деструктивний фактор», який часто застає господарів зненацька і нівелює їхню перевагу домашнього майданчика.
Фактор втрат: Тихий вбивця виїзних матчів
З показником 4,1% відсоток втрат гостей (L10) став найважливішим серед усіх факторів Олівера.
- Податок на виїзд: Грати у ворожій атмосфері й так важко, але якщо команда не береже м’яч — вона сама себе прирікає. Втрати на виїзді миттєво конвертуються у легкі очки суперника з контратаки.
- Трендовість помилок (L10): Модель фокусується на вибірці останніх 10 ігор. Це підтверджує, що «хаотичний баскетбол» — це не випадковість, а симптом. Якщо команда «сиплеться» останні два тижні, тиск трибун лише дотисне їх.
Парадокс штрафних кидків: ілюзія переваги
Частота штрафних кидків (FTR) господарів посіла останнє місце з мізерними 1,8%. Це холодний душ для бетторів, які звикли вважати кількість походів на лінію ключем до успіху.
- Ефективність vs Кількість: Велика кількість штрафних часто є ознакою «важкої» атаки, яка не може знайти ритм у грі з поля.
- Слабкий зв'язок з перемогою: Сучасна НБА — це ліга високоефективних нападів та триочкових. Модель підтверджує: ставка на штрафні — це застаріла стратегія. Високий FTR часто вказує на повільний стиль гри, який легко розбивається об швидкий та прицільний вогонь суперника.
Підсумок: Нова реальність «Чотирьох факторів»
- Бережіть м'яч (TOV%): Головний запобіжник від поразок на виїзді.
- Гризіться на чужому щиті (ORB%): Показник енергії та «голоду» гостей.
- Контролюйте свій щит (DRB% Diff): Базовий фундамент, щоб не віддати гру.
- Здобувайте штрафні (FTR): Приємний бонус, але точно не фундамент для перемоги.
Insight #3: Фактор B2B переоцінений, але "вікно відпочинку" — вирішальне
Загальноприйнята думка: Команди, що грають два матчі за два дні (Back-to-Back), приречені на поразку. Завжди ставте проти них.
Що кажуть дані: Насправді фактор B2B посідає лише 8-ме місце за важливістю в моделі (3,8%). Натомість оптимальна кількість днів відпочинку гостей (10-те місце, 3,2%) дає набагато точніший сигнал для прогнозу.
Ось як розподіляється вплив цих показників:
Різниця Back-to-Back3,8% Оптимальний відпочинок гостей3,2%
Чому вплив B2B менший, ніж ми звикли думати
- Еволюція відновлення: Сучасний load management (контроль навантажень), просунута спортивна медицина та стратегічні пропуски матчів (DNP) нівелювали той «вбивчий» ефект B2B, який ми спостерігали 10 років тому.
- Спотворення через силу суперника: Команди в графіку B2B часто отримують сильніших опонентів у другий вечір через особливості формування розкладу НБА. Модель враховує силу суперника окремо, тому «чистий» ефект втоми виявляється меншим.
"Sweet Spot": магія оптимального відпочинку
Модель виявила ідеальне вікно для максимальної ефективності: 2-3 дні відпочинку.
- Менше (1 день): Команда перебуває у стані поспішного відновлення.
- **Більше (4+ дні): З’являється фактор «іржі» (rust) — гравці втрачають ігровий ритм і тонус.
Коли гості виходять на паркет саме в інтервалі 2–3 днів відпочинку після переїзду, вони демонструють статистично кращі результати, ніж ті, хто відпочивав занадто мало або занадто багато.
Порада від моделі: Не ставте «на автоматі» проти команд у B2B. Натомість перевірте, чи потрапляють гості в «золоте вікно» 2–3 днів. Це набагато надійніший індикатор ігрової готовності, ніж просто факт гри два дні поспіль.
Insight #4: Різниця PIE — це "база"
Загальноприйнята думка: Не існує одного магічного показника, який скаже, хто сильніший. Вам потрібен складний "коктейль" із десятків метрик.
Що кажуть дані: Насправді різниця PIE (Player Impact Estimate) — це беззаперечний титан моделі. На неї припадає майже 38% усієї прогностичної сили, якщо поєднати сезонні показники та дані за останні 10 ігор (L10).
PIE — це найбільш комплексна метрика ефективності в НБА. На відміну від стандартного Net Rating, вона зважує кожен аспект гри:
- Плюс: Очки, підбори, асисти, перехоплення, блоки.
- Мінус: Втрати, промахи, фоли.
Домінування ефективності
У моєму списку TOP-17 ознак результати однозначні: модель цінує "загальний розрив в ефективності" вище за все інше.
Топ-5 факторів впливу в моделі:
- Різниця PIE (Сезон): ~20,2%
- Різниця PIE (L10): ~17,7%
- Різниця поразок (Сезон): ~8,7%
- Net Rating господарів (з коректою на силу розкладу): ~8,0%
- Різниця Offensive Rating (L10): ~7,1%
Зверніть увагу: PIE посідає перші дві сходинки. Якщо сезонний PIE (pie_diff) дає нам розуміння стабільного рівня таланту команди, то середнє за 10 ігор (pie_l10_diff) показує реальну "температуру" та форму колективу прямо зараз.
Чому PIE перемагає Net Rating?
Хоча відкорегований Net Rating господарів (home_e_net_rating) важливий (8,0%), він усе одно вдвічі поступається за впливом різниці PIE. Чому так?
- Цілісність: PIE враховує "чорнову роботу" (hustle) та якість кожного володіння, що часто губиться у сухому залишку набраних очок.
- Фільтрація шуму: Сезонний PIE допомагає відсіяти випадкові аномалії (наприклад, коли одна команда розгромила іншу з різницею +50 очок), які можуть викривити Net Rating.
- Сила розриву: Модель підтверджує: саме різниця між тим, наскільки ефективно дві команди використовують свої шанси, є головним числом у баскетболі.
Головний висновок! Перш ніж занурюватися в деталі, просто погляньте на різницю PIE. Якщо команда має відчутну перевагу за PIE і на дистанції сезону, і за останні 10 матчів — перед вами статистично потужний фаворит.
Усе інше — від втрат гостей (4,1%) до переваги у відпочинку (3,2%) — це лише косметичні "модифікатори" фундаменту, закладеного PIE.
Insight #5: Передачі не гарантують перемогу (а от дисципліна — так)
Загальноприйнята думка: Команди з великою кількістю передач сповідують "правильний" баскетбол і мають більше шансів на успіх.
Що кажуть дані: Різниця передач взагалі не потрапила до мого ТОП-17 факторів. Натомість різниця персональних фолів (L10) посіла 15-те місце з вагою 2,0%.
Це доволі контрінтуїтивний висновок: "негативний" показник (фоли) має більшу прогностичну силу, ніж такий позитивний маркер, як результативні передачі.
Чому асисти — це метрика "для краси" (Vanity Metric)
Після тестування різних варіацій статистики передач модель стабільно їх ігнорувала. І ось чому:
- Дублювання даних: Усі плюси якісного руху м'яча вже враховані в PIE (20,2%) та Offensive Rating (7.1%). Якщо асисти призводять до легких очок, модель і так бачить це через цифри загальної ефективності.
- Стиль гри vs Суть: Команди з великою кількістю пасів (як Warriors чи Nuggets) та колективи, що грають через ізоляції зірок (як Rockets часів Джеймса Хардена), можуть бути однаково успішними. Кількість передач визначає радше стиль, а не гарантований результат.
Чому персональні фоли (L10) — це прихований сигнал
Те, що показник pf_l10_diff має вагу 2,0%, доводить: дисципліна на відрізку останніх 10 ігор є критичним фактором, що схиляє шальки терезів у той чи інший бік.
- Проблеми з ротацією (Foul Trouble): Зайві фоли змушують лідерів раніше сідати на лаву. Коли зірки змушені грати обережно або взагалі пропускати хвилини через перебір зауважень, загальна ефективність команди різко падає.
- "М'який" захист: Гравці, що "висять" на фолах, захищаються менш агресивно. Важко надійно закрити свою зону, якщо ти боїшся отримати п'ятий чи шостий фол.
- Індикатор "запізнення": Фоли — це майже завжди симптом. Команда, яка фолить частіше за суперника протягом останніх 10 матчів, зазвичай просто не встигає у ротаціях, що є величезним червоним прапорцем.
Ієрархія дисципліни
У моїй моделі справжня дисциплінованість представлена двома ключовими факторами, які значно важливіші за ефектні паси:
- Втрати (Away TO% L10): 4,1%
- Чистота гри (Різниця PF L10): 2,0%
Погляд аналітика. Не зважайте на кількість пасів, коли оцінюєте шанси на перемогу. Здатність команди уникати зайвих фолів та дбайливо володіти м'ячем протягом останніх 10 ігор — набагато кращий показник культури переможця, ніж кількість красивих передач.
Ознаки, які (майже) НЕ мають значення
Успішне прогнозування — це не лише знання того, що працює, а й розуміння того, що ігнорувати. Наступні фактори або взагалі не потрапили до мого ТОП-17, або посіли неочікувано низькі позиції:
#1: Кількість триочкових кидків Відсутня в ТОП-17. У сучасній НБА триочкові кидають усі. Сама кількість кидків (volume) більше не є маркером переваги. Важлива лише ефективність реалізації, а її вже враховують мої "титани" — PIE та Offensive Rating.
#2: Темп гри (Pace) Відсутній в ТОП-17. Швидкі команди не мають системної переваги над повільними. Високий темп просто дає більше володінь, що лише допомагає ефективнішій команді (з вищим PIE) швидше відірватися в рахунку.
#3: Статистика передач Відсутня в ТОП-17. Як ми вже розібрали, рух м'яча — це стилістичний вибір. Модель цікавить кінцевий результат володіння (очки та ККД), а не шлях, яким м'яч потрапив у кошик.
#4: Результативність лави запасних Відсутня в ТОП-17. Сильна "лава" часто лише маскує проблеми стартової п'ятірки. Для надійного прогнозу ефективність основної ротації (зафіксована в статистиці L10) є значно стабільнішим показником.
Фундамент DataProven: як працює модель
На основі аналізу понад 5 000 матчів я створив DataProven — прогностичну модель, що спирається на реальні математичні закономірності, а не на інтуїцію чи "експертні" кліше.
Архітектура XGBoost_TOP17
Моя модель використовує 17 ключових ознак, зважених за їхнім впливом на результат (Gain) в алгоритмі XGBoost. Це справжня "ДНК" кожного мого прогнозу:
| Ранг | Ознака | Вага | Категорія |
|---|---|---|---|
| 1 | Різниця PIE (Сезон) | 20,2% | Глобальна ефективність |
| 2 | Різниця PIE (L10) | 17,7% | Актуальна форма |
| 3 | Різниця поразок (Сезон) | 8,7% | Рівень класу команди |
| 4 | Home Adjusted Net Rating | 8,0% | Сила господарів |
| 5 | Різниця Offensive Rating (L10) | 7,1% | Вогнева міць атаки |
| 6 | Різниця перемог (Сезон) | 6,9% | Стабільність результату |
| 7 | Втрати гостей % (L10) | 4,1% | Дисципліна на виїзді |
| 8 | Різниця Back-to-Back | 3,8% | Фактор втоми |
| 9 | Підбори в нападі гостей % (L5) | 3,5% | Енергія та Hustle |
| 10 | Якість відпочинку гостей | 3,2% | Відновлення |
| 11 | Домінування в очних зустрічах (H2H) | 2,9% | Психологічна перевага |
| 12 | Поразки господарів (Сезон) | 2,9% | Вразливість вдома |
| 13 | Різниця захисних підборів % (L10) | 2,6% | Контроль щита |
| 14 | Захисні підбори господарів % | 2,5% | Надійність захисту |
| 15 | Різниця персональних фолів (L10) | 2,0% | Ігрова дисципліна |
| 16 | Штрафні кидки гостей (L10) | 1,8% | Агресія в атаці |
| 17 | Частота штрафних господарів (L10) | 1,8% | Домашній тиск |
Результати та верифікація
Модель навчена на базі XGBoost із використанням валідації часових рядів (без зазирання в майбутнє). Показники в реальних умовах:
- 67% загальної точності на дистанції 900+ матчів.
- 70%+ точності на прогнозах високої впевненості (ймовірність >65%).
- 8,1% ROI (повернення інвестицій) за реальними коефіцієнтами букмекерів.
- Ідеальне калібрування: якщо модель дає 70% на перемогу, команда виграє рівно у 70% таких випадків.
Чому прозорість — це важливо
Більшість сервісів обіцяють нереальні 80-90% точності, приховуючи свої алгоритми. Я обираю інший шлях:
Я роблю навпаки:
- Кожен параметр має задокументовану вагу.
- Кожен прогноз (і виграшний, і програшний) фіксується публічно.
- Логіка кожної ставки пояснюється через цифри.
Тому що в беттінгу калібрування завжди перемагає хайп. Коли цифри кажуть "70%", я хочу бачити результат у 70% випадків. Це і є професійний підхід.
Коротко про головне:
- ✅ PIE — це база: Різниця в ефективності — єдине, що дійсно має значення.
- ✅ Дистанція vs Момент: Завжди порівнюйте сезонні дані з останніми 10 матчами.
- ✅ Дисципліна гостей: Вміння захищати м'яч на виїзді — ключ до несподіванок.
- ✅ Фоли > Асисти: Дисциплінований захист важить більше за гарні передачі.
Це те, що я виніс із аналізу 5 000 ігор. А на які метрики найбільше покладаєтесь ви?