Autorka: Anna Ochab-Marcinek
Dane pochodzą z Twittera Ministerstwa Zdrowia.
Skrypty do ściągania: GitHub COVID-19-MZ_GOV_PL
Surowe dane CSV: GitHub COVID-19-MZ_GOV_PL, katalog data
2020.04.20 Stan na wieczór.
2020.04.20
Stan na rano - ostatnie dane z Twittera: 2020-04-20 09:08:27.
Strona uwzględnia poprawki: We wcześniejszych statystykach nie zanotowałam uzupełnionego komunikatu @MZ_GOV_PL z 7 kwietnia.
W efekcie na moich wykresach część przyrostu liczby wykrytych z 7 kwietnia przeniosła się błędnie na 8 kwietnia.
Poczynając od tej strony, jest to poprawione.
2020.04.07, także inne dane: Inne dane - struktura płci i wieku chorych
Ministerstwo Zdrowia nie publikuje danych w ludzkim formacie. Musiałam użyć oprogramowania do rozpoznawania obrazów, żeby automatycznie ściągać liczby z obrazków z Twittera.
Na stronie Ministerstwa Zdrowia tabela zachorowań pokazuje tylko stan na bieżący dzień i tylko w dwóch kategoriach: Liczba wykrytych przypadków i liczba zgonów.
Na Twitterze Ministerstwa Zdrowia pokazują dane w 7 kategoriach na 3 sposoby:
Zautomatyzowałam ściąganie danych z Twittera. Za pomocą skryptów w Pythonie ściągam wszystkie wyżej wymienione dane.
Do odczytywania liczb z obrazków bitmapowych użyłam pakietów w Pythonie do rozpoznawania obrazów(!), czyli dokładniej mówiąc, robię OCR.
Obrazki wrzucane przez Ministerstwo Zdrowia nie ułatwiają automatycznego odczytywania z nich liczb. Liczby występują na tle kółek i podkreśleń. Musiałam najpierw zastosować filtry na tych obrazkach, żeby to usunąć.
Nawiasem mówiąc, ministerstwo już raz zmieniło format obrazków na jeszcze piękniejszy i musiałam poprawiać program.