Робоча група з математичного моделювання проблем, пов’язаних з епідемією коронавірусу SARS-CoV-2 в Україні,
базова установа – Інститут проблем математичних машин і систем НАН України
Створена Розпорядженням Президії НАН України від 3 квітня 2020 р. № 198
Прогноз
розвитку епідемії COVID-19 в Україні в період
1–14 грудня 2020 р.
«Прогноз РГ-30»
30.11.2020
З початку квітня 2020 р. міжвідомча Робоча група (РГ) представників Національної академії наук України, Київського національного університету імені Тараса Шевченка, Вінницького національного технічного університету та Національної академії медичних наук України – з урахуванням світового досвіду математичного моделювання розвитку епідемії COVID-19, на основі статистичних даних про динаміку епідемії в Україні та країнах Європи – створювала і тестувала математичну модель SEIR–U. За результатами проведеного моделювання Робоча група підготувала документи
«Прогноз розвитку епідемії коронавірусу SARS-CoV-2 в Україні». Президія НАН України офіційно представила прогнози до державних органів. На ці прогнози надавав посилання Кабінет Міністрів України під час брифінгів. Прогноз готується за підтримки Дитячого фонду ООН (ЮНІСЕФ).
У новому документі «Прогноз РГ-30»:
• здійснено аналіз первинних статистичних даних розвитку епідемії в Україні;
• порівняно статистичні дані з попереднім прогнозом
«Прогноз РГ-29»; • представлено прогноз розвитку епідемії на наступний період 1–14 грудня 2020 р. за допомогою двох незалежних моделей;
• проаналізовано динаміку поширення епідемії в регіонах України.
1. Аналіз статистичних даних щодо розвитку епідемії COVID-19 в Україні.
Робоча група використовує для аналізу такі джерела даних:
1. Дані щоденних звітів Міністерства охорони здоров’я (МОЗ) України. Дані про кількість нових виявлень, одужань, летальних випадків і підозр для кожної області України оприлюднюються на щоденних брифінгах МОЗ України, а також
на сайті Ради національної безпеки і оборони (РНБО) України.
2. Первинні дані Центру громадського здоров’я Міністерства охорони здоров’я (ЦГЗ МОЗ) України. Опис структури даних та їх інтерпретацію наведено у документі
«Прогноз РГ-9» від 26.06.2020 р. Регулярний доступ до первинних даних було отримано завдяки співпраці з ЮНІСЕФ.
3. Дані щодо обсягів ПЛР- та ІФА-тестування по кожній лабораторії України.
Дані надає ЦГЗ МОЗ України, вони містять інформацію про загальну кількість проведених тестів, кількість позитивних тестів і ретестувань.
4. Дані
Національної служби здоров’я України (НСЗУ) оновлюються щодня та містять дані про госпіталізації по кожній лікарні України.
5. Дані про загальну смертність з усіх причин та дані щодо мобільності населення з ресурсу
«Економіка карантину». Динаміку щоденної смертності з усіх причин представлено на рис.1 (див. також анімацію на відео). Хоча пік у третій декаді жовтня вже довго виглядає ізольованим, на початку грудня можна чекати на надходження додаткових даних, що значно прояснять динаміку смертності після видимого піку.
Рис.1. Динаміка смертності з усіх причин з декількома тижневими приростами (дані Міністерства юстиції України, доступні на сайті «Економіка карантину»: https://q.rating.zone/) |
У прогнозі РГ-29 було продемонстровано істотний зв’язок між регіональною надлишковою смертністю та числом жертв коронавірусу. Виявляється, такий зв’язок спостерігався не лише у вересні, але й в усі інші місяці пандемії (починаючи з березня, коли були зареєстровані перші жертви).
На рис.2-8 наведено діаграми розсіювання для двох вказаних показників смертності. Надлишкова смертність розраховувалась як смертність за вказаний місяць мінус середня смертність у цьому місяці в середньому у 2015–2019 роках. Результати регресійного аналізу для кожної такої діаграми коротко наведено у підписах рисунків та у таблиці 1. Нахил регресійної прямої відповідає середній кількості жертв від надлишкової смертності на один зареєстрований летальний випадок від COVID-19. Його візуалізацію наведено на рис.9. Вільний член відповідає очікуваній смертності у 2020 році за сценарієм без пандемії, отриманій (смертності) на основі регресійного аналізу регіонів.
З регресійного аналізу вилучено Луганську та Донецьку області, що демонструють аномальну демографічну поведінку.
Рис.2. Діаграма розсіювання показників смертності у вересні. Результати регресії: коефіцієнт кореляції R=0,8902, його значущість p<10-6, нахил лінійної регресії 3,07, його стандартна помилка 0,34, вільний член 1,7% |
Рис.3. Діаграма розсіювання показників смертності у серпні. Результати регресії: коефіцієнт кореляції R=0,8878, його значущість p<10-6, нахил лінійної регресії 3,47, його стандартна помилка 0,39, вільний член -8,5% |
Рис.4. Діаграма розсіювання показників смертності у липні. Результати регресії: коефіцієнт кореляції R=0,8766, його значущість p<10-6, нахил лінійної регресії 3,38, його стандартна помилка 0,4, вільний член 0,6% |
Рис.5. Діаграма розсіювання показників смертності у червні. Результати регресії: коефіцієнт кореляції R=0,7191, його значущість p=10-4, нахил лінійної регресії 2,17, його стандартна помилка 0,46, вільний член 4,4% |
Рис.6. Діаграма розсіювання показників смертності у травні. Результати регресії: коефіцієнт кореляції R=0,8266, його значущість p=10-6, нахил лінійної регресії 2,37, його стандартна помилка 0,35, вільний член -12,9% |
Рис.7. Діаграма розсіювання показників смертності у квітні. Результати регресії: коефіцієнт кореляції R=0,5727, його значущість p=0,004, нахил лінійної регресії 1,96, його стандартна помилка 0,61, вільний член -5,3% |
Рис.8. Діаграма розсіювання показників смертності у березні. Результати регресії: коефіцієнт кореляції R=0,4625, його значущість p=0,02, нахил лінійної регресії 11,28 його стандартна помилка 4,72, вільний член -7,7% |
Таблиця 1. Результати регресії для двох типів регіональної смертності: надлишкової та підтверджених летальних випадків від COVID-19
Рис.9. Результати регресії для двох типів відносної смертності. Динаміка нахилу регресійної прямої та стандартної помилки для неї (табличні дані див. у таблиці 1) |
Нахил регресійної прямої можна інтерпретувати як оцінку числа надлишкових смертей, що припадають на одну смерть при підтверджений коронавірусній інфекції. Поточний аналіз на основі відносних показників смертності містить ключове припущення про рівноцінний внесок регіонів у результати регресії, хоча насправді вони відрізняються чисельністю населення та, як наслідок, абсолютними показниками смертності. Отриманий результат для березня найменш надійний, оскільки впродовж цього місяця можна добре пояснити вкрай слабким рівнем тестування хвороби.
На рис.10 показано динаміку зміни кількості нових інфікованих, нових одужалих і нових активних інфікованих за день згідно зі щоденними звітами МОЗ України для України в цілому.
Рис.10. Кількість нових зареєстрованих випадків за день в Україні згідно з даними МОЗ України; кількість осіб, які видужали за день; кількість нових активних інфікованих. Для відображення використовувалося зважене рухоме середнє з вікном 7 днів |
За офіційною статистикою, на 30 листопада середня кількість осіб, що одужують, становить 7727 людей на день. Кількість людей, що одужують на день, дорівнює приблизно кількості нових випадків місяць тому, що свідчить про покращення системи обліку випадків одужання. Середня за тиждень кількість нових інфікованих на 30.11.2020 р. становить 13848 нових інфікованих на день для України, що на 1000 випадків перевищує середній показник 7 днів тому. Середня за тиждень кількість нових летальних випадків на 30.11.2020 р. становить 179 нових летальних випадів на добу.
Рис.11. Кількість ПЛР-тестів на день на одного виявленого інфікованого, загальна кількість тестів і кількість непротестованих зразків (залишків), які залишаються в лабораторії |
На рис.11 показано кількість тестів на день, віднесену до кількості нових виявлень за день, згідно зі щоденними звітами МОЗ України. Показано також загальну кількість проведених ПЛР-тестів на день і кількість залишків у лабораторії. За останній тиждень (23–29 листопада) було зроблено 283889 ПЛР-тестів і виявлено 96936 нових інфікованих. Кількість ПЛР-тестів, яка витрачається на одного нового інфікованого, становить у середньому 2.9 ПЛР-тести на одне нове виявлення, що відповідає відсотку виявлення 34% для України в цілому. На графіку на рис.11 можна побачити, що протягом останнього тижня кількість тестів, витрачена на одне нове виявлення, майже не змінилася.
Дані, наведені на рис.10, відображають інформацію на момент її оприлюднення. Тоді як інформація в даних ЦГЗ МОЗ України та НСЗУ наводиться зведеною до фактичних дат реєстрації, госпіталізації, одужання чи смерті. Графіки на рис.12–14 показують різницю між оприлюднюваними та фактичними даними, що сумарно збігаються, але можуть мати зсуви у часі.
Рис.12. Порівняння даних про щоденну кількість нових виявлень, зведену до дати оприлюднення (чорна крива) та дати реєстрації випадку (синя крива). Дані відображено згладженими 7-денним рухомим середнім |
Рис.13. Порівняння даних про щоденну кількість нових летальних випадків, зведену до дати оприлюднення (чорна крива) та дати настання смерті (синя крива). Дані відображено згладженими 7-денним рухомим середнім |
Рис.14. Порівняння даних про щоденну кількість нових одужань, зведену до дати оприлюднення (чорна крива) та дати настання смерті (синя крива). Дані відображено згладженими 7-денним рухомим середнім |
Рис.15. Дані про щоденну кількість нових госпіталізацій та летальних випадків для України, зведених до дати оприлюднення. Дані відображено згладженими 7-денним рухомим середнім |
На рис.15 показано кількість госпіталізацій і летальних випадків згідно зі щоденними звітами МОЗ України. За останній тиждень кількість нових госпіталізацій становить у середньому 1658 нових госпіталізацій за день, що на 10% більше, ніж тиждень тому. Згідно із графіком летальних випадків на рис.15, динаміка смертності зазнає аномальних коливань (що, ймовірно, пов’язано з неоднорідними технічними затримками), але загалом продовжує тренд на зростання. З огляду на зростання кількості нових підтверджених інфікованих і госпіталізацій, слід очікувати подальшого зростання смертності.
Рис.16. Відсоток госпіталізованих серед усіх нових виявлень на день згідно зі щоденними звітами МОЗ України |
На рис.16 показано зміну в часі відсотка госпіталізованих випадків серед усіх нових виявлень на день. Із графіка видно, що впродовж останнього тижня відсоток госпіталізацій серед нових виявлених випадків майже не змінився, склавши в середньому 12%.
2. Порівняння з прогнозом від 23.11.2020 р.
Таблиця 2. Порівняння прогнозних значень моделі SEIR-U кількості нових інфекцій від 23.11.2020 р. для кожної області України зі спостережуваними середніми за тиждень значеннями. Дані подаються усередненими за тиждень
У таблиці 2 наведено прогнозні інтервали, обчислені в
«Прогнозі РГ-29» від 23.11.2020 р. для кожної області України, та дані спостережень на 30.11.2020. р., усереднені за тиждень. Із таблиці видно, що загалом дані відповідають середнім очікуванням. Серед найбільш уражених регіонів перевищення очікувань не відбулося. Покращився прогноз для дев’яти областей і погіршився – для трьох. По Україні загалом середня кількість нових випадків лежить дещо нижче середини прогнозованого інтервалу.
3. Прогноз розвитку епідемії в Україні з використання статистичної моделі часових рядів Facebook Prophet.
У цьому документі представлено прогноз, обчислений двома різними підходами. Крім традиційної компартментної моделі, було використано статистичну модель, яка, хоч і не має закладених фізичних механізмів розповсюдження епідемії, але дозволяє неявно враховувати багато інших факторів. В умовах стабільного поширення епідемії, а також зменшення обсягів тестування та збільшення відсотка позитивності тестів, а також при зміні погодних умов і карантинних обмежень використання такої моделі видається доцільним.
За допомогою методів статистичного аналізу було досліджено динаміку щоденної кількості нових хворих із липня 2020 року для виявлення закономірностей поширення епідемії, для дослідження впливу свят і псевдосвят (аномальних дат на кшталт державних свят, теплих днів без опадів тощо), впливу тижневої та інших видів сезонної мінливості і виявлення їхнього характеру.
Аналізувалися дані щодо нових виявлень на день і нових летальних випадків для України загалом, коли спостерігалося невпинне зростання з 7-денною періодичністю – з 6 липня 2020 року. Було використано найсучаснішу модель Facebook Prophet, яка демонструє високу ефективність для моделювання часових рядів, що містять аномальні дати, різні види сезонності та лінійну чи нелінійну динаміку впливу різних складових моделі. Розроблено й застосовано алгоритм налаштування багатьох параметрів цієї моделі, який прогнозує дані на задану кількість днів, але дані наявних спостережень за останні дні використовувалися для вибору найкращої моделі з налаштованих. Проведено дослідження для періоду прогнозування 14 днів.
Як аномальні дати (свята і псевдосвята) розглядалися дати державних свят, дати потенційного зростання кількості відпочивальників (коли було дуже тепло і не було опадів) та дати послаблення карантину за відкритими даними датасету
Google-платформи «COVID-19 Open Data».
Спрощена модель застосовувалась як для України, так і для інших майже 70-ти країн світу, щодо яких у датасеті Facebook holidays є інформація про державні свята цих країн (див.
результати). Для України окремо було застосовано
ефективнішу модель, яка за даними 6.07–15.11 дала прогноз на 16.11–29.11 із сумарною відносною похибкою за всі 14 днів – 3,2% (рис.17), прогноз даних на 2 тижні див. у таблиці 3).
Рис.17. Щоденна кількість нових підтверджених випадків хворих на COVID-19 в Україні з 6 липня 2020 р.: чорні крапки – дані спостережень до 29.11.2020 р., синя лінія – результат моделювання і прогнозування на 2 тижні до 13.12.2020 р. за моделлю на основі Facebook Prophet |
Таблиця 3. Прогноз кількості нових підтверджених випадків хворих на COVID-19 в Україні за моделлю з урахуванням впливу аномальних дат
Щодо нових підтверджених випадків здійснено порівняння прогнозу на 2 тижні, зробленого рівно тиждень тому, і нового прогнозу.
Рис.18. Останні 3 тижні спостережень і 2 тижні прогнозу |
Оскільки дані про летальні випадки демонструють аномальну поведінку і не мають стабільної залежності від днів тижня, то було
застосовано згладжування шляхом використання ковзного середнього з 7-денним вікном (рис.19, таблиця 4).
Рис.19. Усереднена за 7-днів щоденна кількість летальних випадків хворих на коронавірус в Україні з 6 липня 2020 р.: чорні крапки – дані спостережень до 29.11.2020 р., синя лінія – результат моделювання і прогнозування на 2 тижні до 6.12.2020 р. за моделлю на основі Facebook Prophet |
Таблиця 4. Прогноз кількості смертельних випадків хворих на COVID-19 в Україні за моделлю з урахуванням впливу аномальних дат
Аналіз щодо кількості нових підтверджених і летальних випадків захворювань на коронавірус показав таке:
- Наявна модель іще мінімум 4 тижні не зможе оцінити вплив карантину вихідного дня, оскільки аномальні дати беруться зі зсувом на тиждень, а потім необхідно ще мінімум 2 тижні, щоб налаштувати модель за даними, де враховується ця аномальна дата (точність розраховується за даними цих 2-х тижнів), і ще потім необхідно 2 тижні, щодо яких є дані спостережень, – для валідаційного датасету, за допомогою якого відбирається найкраща модель.
- Для України вплив свят та інших аномальних дат, як і раніше, не є досить суттєвим, порівняно, наприклад, із такими країнами, як Сінгапур, Франція, Ізраїль, Фінляндія, Сербія, Швеція, де модель з урахуванням свят і псевдосвят має похибку майже у 1,5–2 рази меншу, ніж модель без урахування таких аномальних дат. В Україні ж спрощена модель з урахуванням аномальних дат дає похибку 3,63%, а без їх урахування – 3,65%. Ефективніша ж модель дає похибку 3,20% проти 3,28%
- Модель для летальних випадків з 7-денним ковзним середнім демонструє постійне нелінійне зростання, яке, однак, дещо уповільнилось останнім часом. Відбувається явно нелінійне зростання даних із кожним тижнем, але часто трапляються щодобові аномальні значення, які не можна пояснити впливом аномальних дат.
- Вплив аномальних дат на летальні випадки може бути досить значним, оскільки модель з їх урахуванням дає точність 11,5%, а модель без їх урахування – 17,6%
Отримана похибка 11,5% для летальних випадків є досить значною, що не дає достатньої впевненості в отриманих результатах і потребує подальшого уточнення.
Той факт, що в моделях не здійснювався повний перебір усіх можливих значень параметрів, не враховувалась явно динаміка інших факторів (наприклад, наростання кількості тестувань чи кількості ліжкомісць), на жаль, не дає впевненості в тому, що ці моделі можна використовувати для довгострокового прогнозування та що отримані результати дають остаточні відповіді на поставлені питання.
Обчислення за допомогою моделі Prophet і аналіз отриманих результатів виконали завідувач кафедри системного аналізу та інформаційних технологій (САІТ) Вінницького національного технічного університету (ВНТУ) доктор технічних наук професор В.Б. Мокін і аспірант кафедри САІТ ВНТУ А.В. Лосенко.
4. Прогноз розвитку епідемії в Україні з використанням компартментної моделі.
Обчислення прогностичних змінних здійснюються для окремих регіонів, а не для України в цілому, а значення для всієї країни обчислюються як сума всіх її регіонів. У таблиці 9 наведено середні прогнозні результати прогнозів для областей України на період до 7 грудня та до 14 грудня. Прогнози не враховують впливу зміни кількості тестувань, кількості підозр і рішень щодо змін карантинних обмежень. При обчисленнях вважалося, що репродуктивне число та коефіцієнт летальності залишаються сталими впродовж прогностичного періоду. Репродуктивне число й коефіцієнт летальності обчислювалися з алгоритму калібрування математичної моделі, а для прогнозного сценарію використовувалися середні значення за останній тиждень.
Для врахування можливої зміни кількості контактів у часі було додатково розглянуто два сценарії для кожної області: з поступовим збільшенням рівня контактності на 25% та зменшенням на 25%. Зміна відбувалася поступово протягом тижня. У таблиці 5 наведено прогнозні середні рівні виявлення нових інфікованих на день і діапазон їхніх значень на 30 листопада 2020 року. Наведено також оцінку середнього за тиждень значення репродуктивного числа для кожного регіону, що використовувалося для обчислення прогнозу.
Таблиця 5. Прогнозні значення нових інфікованих за день для регіонів України на 07.12.2020 р. і на 14.12.2020 р. та поточна оцінка репродуктивного числа
Згідно із розглянутими сценаріями, регіонами з найбільшою очікуваною кількістю інфікованих є Дніпропетровська, Запорізька, Київська, Одеська, Сумська області та місто Київ.
Якщо додати результати моделювання по всіх регіонах, то для України в цілому отримаємо такі прогнозні числові показники:
Репродуктивне число – 1.08 (середнє за останній тиждень, має тенденцію до зниження)
Середня кількість нових інфекцій за день на 07.12: [13257-18446] при середньому значенні 15284.
Середня кількість нових летальних випадків за день на 07.12: [157-215] при середньому значенні 186.
Середня кількість нових інфекцій за день на 14.12: [10924-26163] при середньому значенні 17209.
Середня кількість нових летальних випадків за день на 14.12: [166-236] при середньому значенні 201.
Рис.20. Зміна в часі репродуктивного числа згідно з калібруванням математичної моделі SEIR-U |
На рис.20 показано зміну в часі репродуктивного числа для України в цілому, отриману в результаті калібрування математичної моделі на статистичних даних. Тонкими лініями показано оцінки репродуктивного числа для різних областей. На цей момент середньотижневе значення склало 1.08. При прогнозуванні тенденція до зміни репродуктивного числа не враховувалася. Прогнозні сценарії обчислювалися зі сталим середньотижневим значенням репродуктивного числа.
Рис.21. Прогнозні значення кількості нових випадків для України з урахуванням тижневої мінливості. Крапками позначено дані спостережень станом на 30.11.2020, лінією – модельні обчислення для періоду калібрування (25.03–30.11) та для прогнозного періоду |
Таблиця 6. Прогнозні значення кількості нових випадків за результатами обчислень статистичною моделлю Prophet і компартментною моделлю SEIR-U
Таблиця 6 демонструє порівняння прогнозних значень кількості нових випадків на період до 14 грудня, обчислених за допомогою двох незалежних моделей – статичної моделі Facebook Prophet і компартментної моделі SEIR-U. Загалом моделі виявилися добре узгодженими, порівняння їх прогнозів представлено на рис.21. Слід зазначити, що похибка передбачень значно зростає зі збільшенням інтервалу прогнозування, тому до отриманих результатів необхідно ставитись обережно.
ВИСНОВКИ
1. Темпи поширення епідемії в Україні знижуються другий тиждень поспіль, що призвело до дещо менших значень як нових виявлень, так і нових летальних випадків порівняно з очікуваними. Репродуктивне число зменшилося на 2.5%, середньотижневе значення за останній тиждень склало 1.08. Для прогнозування кількості нових випадків було використано дві незалежні математичні моделі: статистичну та компартментну. Згідно з обчисленнями, середня кількість нових випадків дорівнюватиме 15884 (Prophet) і 15284 (SEIR-U) протягом тижня 1–7 грудня та 17897 (Prophet) і 17209 (SEIR-U) протягом тижня 8–15 грудня. Докладніше прогноз представлено у таблицях 3–6 і на рисунках 16–20.
2. Однорідна регресія регіональних показників смертності від коронавірусу та надлишкової смертності попередньо вказує на втричі більшу смертність від вірусу, ніж про це говорить статистика ЦГЗ МОЗ України, демонструючи при цьому консервативну динаміку. Припущення про її збереження означає, що на цей момент надлишкова смертність, спричинена COVID-19, наближається до 40 тис. випадків і продовжує зростати з темпом, близьким до 600 надлишкових випадків на день.
3. Частка інфікованих, які потребують госпіталізації, на цей момент становить близько 12% для України загалом і майже не змінюється.
4. Відсоток виявлення нових інфікованих за допомогою ПЛР-тестів за останній тиждень змінився несуттєво. Середнє значення за останній тиждень збільшилося до 34% порівняно з 33% минулого тижня. Кількість проведених ПЛР-тестів останнього тижня почала зростати, а кількість непротестованих залишків у лабораторіях зменшуватися (рис.11).