Data Science (i Machine Learning) pokazuje, iż COVID-19 powoli wygaśnie…

konradswirski.blog.tt.com.pl 4 lat temu

Prognozowanie jest trudne zwłaszcza jeżeli dotyczy przyszłości”

– ten znany cytat (występuje w różnych wersjach) jest przypisywany duńskiemu nobliście i fizykowi Nielsowi Bohrowi (ale o dziwo dopiero od ostatnich 40 lat – już po jego śmierci), a niekiedy też Victorowi Borge’owi (to z kolei duńsko-amerykański pianista i dyrygent, ale przede wszystkim komik). Jakby więc nie było – Duńczycy górą. Cytat zna każdy, kto zajmuje się modelowaniem zjawisk i każdy też przyjmuje go z pokorą, bo nasze wyniki w prognozowaniu czasami są bardzo dobre… a czasami trochę dobre inaczej.

Ale jednak przewidywanie zjawisk i przewidywanie ich zmian w przyszłości – nie ustaje, bo jest to podstawą wszystkich optymalnych decyzji w regulacji i sterowaniu, a przede wszystkim daje nam wizję i czasami nadzieję na to co zdarzy się już za chwilę.

Teraz mówimy tylko o koronawirusie – więc i na nim się skupiamy. Na dziś mamy dla Was nowy wynik jednego z naszych zespołów w Transition Technologies (brawa dla Jacek Gralak) zajmujących się Data Science (czyli magicznym żonglowaniem danymi i budowaniem modeli opartych o dane historyczne) i predykacją zmian zachorowań w Polsce (nowe przypadki)…

Patrząc na zieloną linę (to właśnie wróżenie z fusów – przepraszam wróżenie z danych historycznych i próba znalezienia ukrytych zależności) – można być w miarę optymistą – za kilkanaście dni powinniśmy wejść w trwały trend zniżkowy. Porównanie wyników modelu (niebieska linia) i rzeczywistych danych z przeszłości (żółta) jest zachęcające – wydaje się, iż pewne zachowania COVID-19 zostały dobrze odwzorowane. Bądźmy więc optymistami – pandemia przeminie (choć zachowajmy ostrożność co do konkretnych wyników i dat).

Z punktu widzenia techniki modelowania – stosowano sieć neuronową w typowym podejściu MPL (perceptron wielowarstwowy), ale też testowane są konwolucyjne CNN lub rekurencyjne LSTM i zasilono danymi jakie są na dziś dostępne w sieci. Wysyp nowych technik modelowania w Data Science jest zresztą ogromny w ostatnich latach i co chwila pojawia się nowy pomysł lub nowa koncepcja. Widać jak wielkie jest zapotrzebowanie na dobre prognozy i jak ograniczony czasami jest nasz typowy sposób modelowania z pomocą równań fizykalnych (opis świata z pomocą równań zachowania masy, pędu, energii). Data Science bowiem to w pewien sposób „zaprzeczenie” klasycznej fizyce – nie szukamy równań opisujących świat ani generalnych wzorców, ale w brutalny (komputerowo) sposób analizujemy dane historyczne i tam szukamy ukrytych zależności i trendów na przyszłość. Trzeba mieć jednak dystans i realistyczną ocenę wyników – cała koncepcja oparta jest na analizie danych historycznych i metody są tym lepsze im więcej jest takich wiarygodnych danych – mówiąc najprościej sieci neuronowe (jak i cała Data Science) bardzo dobrze prognozują proces, w którym mamy pełen zestaw danych historycznych.

Bądźmy na pewno optymistami – pandemia przeminie, a my częściowo wrócimy do dawnych przyzwyczajeń. Ja wciąż wpatruje się w wykres jak powyżej, bo od połowy marca wierzyłem (tu bez Data Science a dzięki tzw. trzeciego oka), iż miesiąc maj będzie przełomowy i po nim koronawirus zniknie z pasków wiadomości. Wierzmy też, iż Data Science pozwoli nam lepiej poznawać świat i prognozować procesy – choć oczywiście podchodźmy realistycznie do wyników – jakby co nasze modele na pewno będą dobre za rok (będziemy mieli pełen komplet danych do modelowania) – kiedy hipotetycznie (oczywiście tego nie chcemy) COVID chciałby jeszcze raz powrócić.

Idź do oryginalnego materiału