Cílem projektu byla automatizace průběžné analýzy datových souborů za Česko (soubor osob s potvrzenou nákazou COVID-19 a zemřelé osoby v souvislosti s COVID-19), které jsou na denní bázi publikovány ÚZIS. Výstupy poskytují především základní deskriptivní analýzu a grafickou prezentaci. Základem je prezentace pohlavně-věkové struktury analyzovaných souborů, a to za kumulovaná data za dobu pandemie, tak za období posledních 14 dnů. Součástí je výpočet dalších ukazatelů a možnost volby zobrazovaného období a území pro grafický výstup. Projekt se zakládá na výstupech ve formátu převážně animovaných grafů snadno nastavitelných metodou více maker.
Data
V projektu byla využita data z ÚZIS za osoby s potvrzenou nákazou Covid-19 a zemřelé osoby v souvislosti s touto pandemií dle věku, pohlaví a územních jednotek za jednotlivé dny, dále byla užita data z veřejné databáze ČSÚ za naději dožití a počet osob (i dle krajů a okresů) dle věku a pohlaví (v době zpracování byla tato data dostupná k počátku roku 2020).
Datové soubory ÚZIS jsou denně aktualizovány a doplňovány (COVID‑19: Datové sady pro prediktivní modelování, https://onemocneni-aktualne.mzcr.cz/api/v2/covid-19). Datové sady umožňují pracovat jak s daty kumulovanými za období pandemie, tak za data mapující poslední dva týdny. Kromě časového období je klíčová možnost volby územní jednotky, neboť zpracování je možné na národní úrovni (Česko), krajské úrovni i úrovni okresů.
Řešení a výstupy
Kód je zpracován tak, že hned v úvodu probíhá import všech vstupních souborů a především uživatelské nastavení makro-proměnných užívaných dále v kódu (výběr územní jednotky, časového období vynášeného do grafu apod. Prvním krokem pak je vytřídění a relevantní agregace vstupních dat.
Stěžejní částí je využití maker a makro-proměnných pro konstrukci animovaných grafů (populačních pyramid), které odpovídají zvoleným parametrům. Vstupy jsou konstruovány pro více proměnných (např. absolutní či relativní počty osob s potvrzenou nákazou či zemřelých dle věku a pohlaví apod.
Další část obsahuje výpočet některých demografických a epidemiologických ukazatelů, jako je například incidence, fatalita, výpočet ztracených let života apod. tak, aby zde bylo možno nastavit opět výběr regionu.
Projekt se dále zabýval i grafickými výstupy statickými jako je například liniový graf vývoje vybraných ukazatelů (fatality) pro konkrétní věk a pohlaví či mapa incidence za vybranou věkovou skupinu a pohlaví.
Věková a pohlavní struktura osob s potvrzenou nákazou za 14denní intervaly do uvedeného data.
Z hlediska postupů práce je SAS kód postaven především na využití data stepů, procedury SQL a maker. Grafy jsou generovány především pomocí procedury SGRENDER.
Věková a pohlavní struktura kumulovaného počtu osob zemřelých covid-pozitivních do uvedeného data.
Věkově- a pohlavně-specifická incidence, tj. počet nově potvrzených případů onemocněním covid-19 na 100 osob daného věku a pohlaví, vyjadřuje tedy v podstatě v procentech podíl osob ze všech v daném věku a daného pohlaví, u kterých byla v předchozích
14 dnech potvrzena nákaza.
Věkově- a pohlavně-specifická fatalita počítaná jako podíl počtu zemřelých daného věku a pohlaví a počtu osob s potvrzenou nákazou ve stejném věku a stejného pohlaví. U počtu osob s potvrzenou nákazou je uvažováno časově zpoždění 14 dnů. Fatalitu je za využití vytvořeného kódu možné sledovat v animovaných grafech i statických, v grafech za vybrané věky i za celé věkové spektrum, lze sledovat vývoj fatality v čase (14denní klouzavé průměry) nebo z dat kumulovaných za celé období.
Závěr
Představený projekt v programu SAS poskytuje lehce nastavitelné a graficky velmi dobře pochopitelné zpracování dat pomocí deskriptivní statistiky a analýzy prostorových charakteristik. Zcela jistě lze kód využít i na jiná data než právě ohledně COVID-19 a také jej obohatit o další funkce a řešení.