Statystyki koronawirusa w Polsce

Autorka: Anna Ochab-Marcinek

Dane pochodzą z Twittera Ministerstwa Zdrowia.

Skrypty do ściągania: GitHub COVID-19-MZ_GOV_PL

Surowe dane CSV: GitHub COVID-19-MZ_GOV_PL, katalog data

O projekcie

Dodatkowo: Statystyki zgonów w Polsce w grupach wiekowych

Wizualizacje z komentarzami

O projekcie

Dlaczego ściąganie z Twittera?

Ministerstwo Zdrowia nie publikuje danych w ludzkim formacie. Musiałam użyć oprogramowania do rozpoznawania obrazów, żeby automatycznie ściągać liczby z obrazków z Twittera.

Na stronie Ministerstwa Zdrowia tabela zachorowań pokazuje tylko stan na bieżący dzień i tylko w dwóch kategoriach: Liczba wykrytych przypadków i liczba zgonów.

Na Twitterze Ministerstwa Zdrowia pokazują dane w 7 kategoriach na 3 sposoby:

  1. Liczba wykrytych przypadków i liczba zgonów - w formie tekstowej w tweetach.
  2. Liczba wykonanych testów - jako obrazek bitmapowy (!)
  3. Hospitalizowani, kwarantanna, nadzór, wyzdrowiali - jako inny obrazek bitmapowy (!)

Zautomatyzowałam ściąganie danych z Twittera. Za pomocą skryptów w Pythonie ściągam wszystkie wyżej wymienione dane.

Do odczytywania liczb z obrazków bitmapowych użyłam pakietów w Pythonie do rozpoznawania obrazów(!), czyli dokładniej mówiąc, robię OCR.

Obrazki wrzucane przez Ministerstwo Zdrowia nie ułatwiają automatycznego odczytywania z nich liczb. Liczby występują na tle kółek i podkreśleń. Musiałam najpierw zastosować filtry na tych obrazkach, żeby to usunąć.

Nawiasem mówiąc, ministerstwo już raz zmieniło format obrazków na jeszcze piękniejszy i musiałam poprawiać program.