3 місяці в дії: модель стабілізувалась — ось що реально показують дані
У січні я опублікував чесний звіт за 16 днів. Тоді ми мали 63,8% точності проти 66,2% у бектесті — різницю, яку я пояснював шумом малої вибірки та очікуваними розбіжностями між історичними навчальними даними та реальними умовами. Відтоді ми внесли в модель одну суттєву поправку та накопичили 587 реальних прогнозів на оновленій версії. Картина калібрування змінилась — і не так, як того можна було очікувати.
Головний показник
Ось яких результатів досягла поточна версія моделі:
Примітка щодо цифр: усі показники відображають виключно поточну версію моделі. Попередня модель працювала на початку сезону; змішування обох лише заплутало б картину, а не прояснило. Ці 587 прогнозів — чистий зріз реальних результатів поточної моделі.
Точність прогнозів "наживо" неочікувано перевищує бектест на 0,25 вп: моделі майже завжди дещо здають позиції при переході від історичних даних до роботи в реальному часі. Це невеликий відрив, що вкладається в межі статистичного шуму, але напрямок важливий. Модель не деградує. Вона тримається.
Ми не відхилилися від очікувань. Ми перевершили їх.
Картина калібрування знову змінилася
Після застосування масштабування Платта профіль калібрування суттєво загострився — але водночас став чеснішим щодо слабкого місця моделі.
| Упевненість | Прогнози | Точні | Факт % | Модель | Розрив |
|---|---|---|---|---|---|
| Висока (74%+) | 172 | 146 | 84,9% | 78,9% | −6,0 вп |
| Помірна (66-74) | 96 | 69 | 71,9% | 70,1% | −1,8 вп |
| Низька (55-66%) | 213 | 134 | 62,9% | 60,2% | −2,7 вп |
| Дуже низька (<55%) | 106 | 47 | 44,3% | 52,4% | +8,1 вп |
Три рівні демонструють скромність моделі — реальні результати стабільно кращі за передбачені ймовірності. Один рівень (дуже низька впевненість) - надмірну впевненість: модель декларує ймовірність на рівні ~52%, але прогнози справджуються на 44%.
Що це означає на практиці
Рівень високої впевненості: сильний сигнал, але все одно консервативний
При майже 85% фактичній точності прогнози з найвищою впевненістю залишаються найсильнішим активом моделі. Розрив у −6вп свідчить про стабільну недооцінку — модель досі «стримана» у своїх найточніших прогнозах.
Рівні середньої та низької впевненості: успіх калібрування
Тут масштабування Платта зробило свою справу.
Обидва рівні тепер знаходяться в межах ~2вп від ідеального калібрування — саме те, чого ми очікуємо від імовірнісної моделі. Ці прогнози тепер надійні в буквальному сенсі: коли модель впевнена на 70%, реальність відповідає тими ж ~70%.
Рівень дуже низької впевненості: єдина реальна проблема, що залишилась
Тепер вона чітко виокремлена.
Коли модель генерує ймовірності <55%, насправді отримуємо 44%, а не очікувані 52%. Це не шум — це структурна надмірна впевненість моделі у своїй точності.
Важливо, що це вже не системна проблема. Вона зосереджена в одному рівні — а отже, її можна виправити.
Чому калібрування важливіше за сиру точність
Більшість платформ прогнозів показують вам одну цифру. Ми показуємо значно більше — і ви можете ознайомитися з кривими калібрування та ROC-AUC, розбивкою за рівнями впевненості на нашій Панелі калібрування. Розуміння де саме знаходиться той чи інший прогноз змінює все — і передусім те, як на нього слід реагувати.
Уявіть два гіпотетичних сервіси, обидва з 67% загальної точності:
Сервіс А: точність рівномірно розподілена
Кожен рівень впевненості близький до передбаченої ймовірності. Коли вони кажуть 70%, матчі виграються приблизно в 70% випадків.
Сервіс Б: 90% точності на очевидних фаворитах, 45% на всьому іншому
Вони рахують все однаково. Заголовна цифра виглядає схоже, але базовий сигнал марний для будь-якого реального рішення.
Сира точність — це марнославна метрика. Калібрування — ось що каже вам, чи можна реально діяти на основі цифр.
Таблиця вище — наша версія прозорості Сервісу А. Ви бачите, які рівні працюють, наскільки та в якому напрямку.
Що змінилося за 3 місяці
У звіті за 16 днів рівні з високою впевненістю не дотягували до передбачених ймовірностей. Модель була правильна за напрямком, але неправильно відкалібрована — особливо на крайніх значеннях.
Сьогодні ця картина змінилась на протилежну.
Не тому, що модель стала «краще розуміти» баскетбол — а тому, що ми змінили спосіб тлумачення її ймовірностей.
Від сирих оцінок до відкаліброваних імовірностей
Ключова зміна, яку ми впровадили — масштабування Платта — стандартна техніка ймовірнісного калібрування.
Замість безпосереднього використання сирих вихідних даних моделі як імовірностей, ми тепер пропускаємо їх через логістичне перетворення, навчене на спостережуваних результатах. Простими словами:
Що робить масштабування Платта
- Бере сирі оцінки впевненості моделі
- Порівнює ці оцінки з реальною частотою виграшів
- Видає ймовірності, що краще відображають реальні результати
Воно не змінює прогнози. Воно змінює нашу впевненість у них.
Це велика різниця.
Ми не змінили що модель прогнозує. Ми змінили як ці прогнози виражаються ймовірнісно.
Чому стара модель виглядала надмірно впевненою
До калібрування модель систематично перебільшувала свою впевненість — особливо в матчах з високою та низькою ймовірністю.
Коли вона прогнозувала:
- 75–80% → реальні результати були ближче до 65%
- 50–55% → реальні результати були ближче до 68%
Це класична закономірність у моделях машинного навчання:
Сирі моделі не калібруються природним чином
Деревоподібні моделі (як XGBoost чи Random Forests) оптимізовані для ранжування та точності класифікації — а не для точності ймовірностей.
Вони вчаться хто швидше за все переможе, а не наскільки ймовірно, що ця команда переможе з такою ймовірністю.
Ось чому калібрування є окремим кроком — а не вбудованою гарантією.
Що масштабування Платта реально змінило
Після застосування масштабування Платта розподіл ймовірностей не стиснувся — він перебудувався і посилив розрив між прогнозами.
Це суттєва різниця.
1. Розширення діапазону ймовірностей, а не скорочення
Замість того, щоб тягнути ймовірності до центру, функція масштабування відсунула впевнені прогнози ще далі від 50%.
Реальні приклади з моделі:
- 83% → 92%
- 74% → 89%
- 66% → 81%
- 56% → 68%
- 54% → 65% або ~51% (залежно від сили сигналу)
Що це означає
Модель не стала обережнішою — вона стала рішучішою.
Сильніші сигнали зміцнилися ще більше. Слабші сигнали або трохи зміцнилися, або відкотилися до зони "50х50".
2. Міграція рівнів угору
Ця перебудова спричинила структурний зсув у розподілі прогнозів по рівнях.
Приклади з реальних прогнозів:
- Середній → Високий (72% → 88%)
- Низький → Високий (63% → 76–79%)
- Дуже низький → або Низький, або залишається Дуже низьким залежно від сигналу
Що це означає
Рівень Високої впевненості тепер:
- Об'ємніший
- Більш вибірковий
- Складається зі справді сильних сигналів
Водночас прогнози без яскраво вираженого переможця більше не скупчуються штучно в середніх рівнях.
3. Розділення сигналу та шуму
До масштабування:
- Багато прогнозів знаходились у діапазоні 55–70%
- Сигнали різної якості були чисельно схожими
Після масштабування:
- Сильні переваги → чітко високі ймовірності (80%+)
- Слабкі переваги → залишаються близько 50–55%
Що це означає
Модель тепер краще розрізняє:
- «Ця командая має перемогти» та
- «Ця команда може перемогти»
Замість того, щоб звалювати все в середину.
4. Помилки калібрування стали видимими — а не згладженими
Це найважливіший ефект.
До:
- Помилки калібрування були непослідовними між рівнями
- Одні рівні недостатньо впевнені, інші — надмірно впевнені
Після:
- Рівні середньої впевненості → точно відкалібровані
- Рівень високої впевненості → стабільно консервативний
- Рівень дуже низької впевненості → стабільно надмірно впевнений
Це не побічний ефект масштабування.
Це те, що відбувається, коли:
- Застосувати глобальне монотонне перетворення
- І прибрати шум із середини
Таким чином оголюється справжня структура помилок моделі.
Пояснення зсуву калібрування
Ключова зміна — не просто числова, а структурна.
До калібрування ймовірності були стиснені та сповнені шуму:
| Упевненість | Реальність | Розрив |
|---|---|---|
| 70–80% | Надмірна впевненість | −11 вп |
| 60–70% | Надмірна впевненість | −6 вп |
| 55–60% | Консервативність | +5 вп |
| 50–55% | Сильна консервативність | +16 вп |
Це створювало спотворену картину:
- Сильні та слабкі сигнали змішувались
- Середньодіапазонні ймовірності були перевантажені
- Помилки калібрування взаємно компенсувались
Після масштабування Платта:
Сильні сигнали були відділені
Матчі, що вже, скоріш за все, були переможними, чітко перейшли в діапазон 80–90%+.
Тепер вони формують чистіший і надійніший рівень Високої впевненості.
Шум середнього діапазону був зменшений
Перевантажений діапазон 55–70% був перерозподілений:
- Частина матчів підвищена (справжні переваги)
- Частина знижена (хибні переваги)
Саме тому рівні Помірної на Низької впевненості тепер добре відкалібровані.
Слабкі переваги були виявлені
Матчі поблизу підкидання монети не зникли.
Вони стали чітко ідентифікованими:
- Залишаючись у діапазоні <55%
- І стабільно показуючи нижчі результати
Саме тут модель ще має проблеми — але тепер їх видно.
Що це означає для моделі
Масштабування Платта не просто «виправило калібрування».
Воно змінило спосіб вираження впевненості моделі — і зробило її структуру легшою для інтерпретації.
Що покращилось
- Сильні прогнози тепер чітко відділені від граничних
- Ймовірності середнього рівня тепер статистично надійні
- Рівень Високої впевненості містить чистіші, якісніші сигнали
- Вихідні ймовірності є більш придатними для прийняття рішень
Що залишається
- Рівень Дуже низький показує систематичну надмірну впевненість (~+8 п.п. різниця)
- Високий рівень ще трохи консервативний відносно реальних результатів
- Глобальне масштабування вносить компроміси на крайніх значеннях розподілу
Чому це важливіше за попередні коригування моделі
На початку сезону ми коригували входи моделі (наприклад, перевагу домашнього корту). Це покращило якість прогнозів.
Масштабування Платта діє на іншому рівні:
- Коригування моделі → покращують те, що модель вивчає
- Масштабування Платта → покращує те, як виражається впевненість
Але на практиці ця зміна не менш важлива.
Тому що:
Чесне підсумування трьох місяців
Що працює
- Точність "наживо" перевищує бектест — 67,5% проти 67,25% є валідацією, а не дрейфом
- Калібрування тепер правильне там, де це найважливіше — середні рівні майже ідеальні
- Рівень Високої впевненості виконує — 84,9% на 172 прогнозах
- Ймовірності тепер інтерпретуються — а не тільки вказують напрямок
- Прозорість покращена — помилки видимі, а не приховані
Що потребує роботи
- Надмірна впевненість рівня Дуже низький — розрив +8 п.п. є тепер основною проблемою
- Недостатня впевненість Високого рівня — модель ще трохи консервативна на вершині
Що ми з цим робимо
Масштабування Платта вирішило широку проблему калібрування. Тепер ми можемо зосередитись на конкретній слабкості, що залишилась.
Короткостроково:
- Аналіз складу рівня Дуже низький
- Визначення структурних причин:
- Матчі на наступний день (back-to-backs)
- Втома від переїздів
- Конкретні профілі команд
- Оцінка того, чи варто ці матчі фільтрувати, а не виправляти
Середньостроково:
- Тестування нелінійних методів калібрування (напр. ізотонна регресія)
- Вивчення рівнево-специфічного калібрування замість глобального масштабування
- Перегляд того, чи варто взагалі публікувати прогнози нижче 55%
Довгостроково:
- Досягнення повного вирівнювання надійності в усіх діапазонах ймовірностей
- Побудова фреймворків прийняття рішень з урахуванням калібрування (а не просто прогнозів)
- Розширення відкаліброваного підходу моделювання на інші види спорту
Чому такий підхід найкращий
Індустрія спортивних прогнозів переповнена шарлатанством. Нереалістичні обіцянки. Приховані треки результатів. Роздуті твердження, покликані продавати підписки, а не надавати цінність.
Через 3 місяці дані підтверджують інший шлях:
Радикальна прозорість:
Показувати все, навіть коли це незручно
Чесні очікування:
67,5% в живому режимі — це реально. 80% — ні.
Постійне покращення:
695 прогнозів у живому режимі — основа для реальної роботи з калібруванням
Освіта користувачів:
Навчити вас оцінювати прогнози, а не просто споживати їх
Довіра накопичується з часом. Її не можна купити — лише заробити послідовною, прозорою звітністю.
Підсумок
Після 3 місяців і 695 живих прогнозів:
- 67,5% живої точності — перевищує бектест, підтверджено на 695 прогнозах
- Повна розбивка калібрування — чотири рівні, всі відстежуються, всі публічні на Дашборді калібрування
- Рівень Високої впевненості виконує — 84,9% на 172 прогнозах
- Чесно про слабкості — розрив Дуже низького рівня задокументований і досліджується
- Без хибних обіцянок — ми все одно не будемо заявляти 80%, щоб продати підписки
Якщо вам потрібні роздуті заяви про точність і прогнози чорних ящиків — є чимало альтернатив.
Якщо ви хочете чесну продуктивність, прозору методологію та справжнє постійне покращення на основі реальних даних — ви в правильному місці.
Саме тому ми показуємо кожен прогноз.
Приєднуйтесь...
Рівень Preview
1-2 прогнози щодня
Безкоштовно
Рівень Core
Доступ до всіх прогнозів із рівнями впевненості
9,90 € / місяць
Рівень Insight
Повна методологія, глибока аналітика, дані калібрування
24,90 € / місяць
Кожен прогноз має часову мітку. Кожен результат відстежується. Кожна метрика публічна.
Бо у світі заяв про 80%, чесність на рівні 64% — це конкурентна перевага.