Koronavirus

O falšování epidemických dat

Master: Aneb poučný příběh o tom, kterak ÚZIS falšuje data o hospitalizacích a proč to ničemu nevadí.

Když jsem nedávno dával jeden graf na svůj facebook, trochu jsem si naběhl na vidle. Snažil jsem se stanovit reprodukční číslo výpočtem z nových hospitalizací. Požádal jsem statistický úřad o neveřejná data, udělal jsem příšlušné výpočty, každodenně jsem stahoval aktuální data a tu jsem zjistil, že se hodnoty denních hospitalizací  mění i několik měsíců zpětně. Nejen že by se doplňovaly stavy třeba v posledních čtrnácti dnech, menší nemocnice dodávají svá čísla se zpožděním, ale s každou novou várkou dat byly počty hospitalizovaných pokaždé úplně jiné. Nedalo mi to pokoj a musel jsem pátrat po tom, co se tam vlastně děje. Můj výpočet vycházel z tabulky všech hospitalizovaných, kterou zveřejňuje přímo ministerstvo zdravotnictví, respektive jeho ústav zdravotnických informací a statistiky, tedy ÚZIS. (Data nejsou úplně veřejná, ale lze se k nim dostat oficiální cestou, když požádáte ministerstvo) U tohoto druhu výpočtu přitom považuji za v zásadě vyloučené, aby se čísla měnila i několik měsíců zpětně.  Není k tomu důvod. Žádná nemocnice nedodává v únoru čísla hospitalizovaných za září loňského roku. Tak jsem musel pátrat dál.

Reprodukční číslo se počítá z denního počtu nových hospitalizací. Udělal jsem si graf z každého dne, kd jsem stahoval data a tady mě čekal šok. Data ze dvou verzí téhož souboru vypadají úplně jinak! Když v únoru stáhnu z dat dvě verze datového souboru jeden den po sobě, dostanu natolik rozdílná data, že ani jeden den v září (ano v září!) prostě nesedí. Trend vypadá sice stejně, ale každý den má úplně jiné počty hospitalizovaných. Já ale přitom nevycházím z nějakých abstraktních čísel. Vycházím z konkrétní tabulky anonymizovaných pacientů.

Ha, někdo ta data falšuje! Soroš s Gatesem a Illumináty to zvládli. Věší nám bulíky na nos. Je to jasné. O vlivu nahodilosti nemůže být pochyb. Někdo zcela jistě tvoří každý den úplně jiná data pacientů a evidentně si to tahá náhodně z klobouku…

A takhle jsem mohl celý příběh také zveřejnit. ÚZIS falšuje data o pacientech. Obrovská ztráta důvěry, bla bla bla. Pak mi to ale nedalo a mé racionální uvažování mi nedovolilo to takhle nechat. On ten Gates nebude zas tak blbej, aby do těch dat zanesl vysloveně školáckou chybu. Kdybych to falšoval já, rozhodně bych věděl, jak to nafalšovat milionkrát lépe a přitom v zásadě za stejný peníz. Za tím musí být něco jiného.

No, v první řadě je vždy dobré vyloučit, jestli jsem si tam takovou chybu nezanesl sám nějakým nevhodným zpracováním dat. Pro jistotu programuji zpracování úplně znovu. Nový výpočet přesně odpovídá tomu starému. Ale ta nahodilost tam pořád zůstává. Pořád si někdo háže korunou, kolik pacientů bude který den. Už jsem si zcela jist, že problém je v datech z ÚZIS. A je zcela jasné, že do toho někdo lije až moc entropie (přidává tam nahodilost, která by v opravdických datech být ani omylem nemohla). Takže to ÚZIS opravdu falšuje?

To by bylo velmi vážné obvinění. Jistě nemusí jít hned o spiknutí Illuminátů. Sám z vlastní zkušenosti vím, že občas se stane, že po vás někdo chce nějaká  nesmyslná data. A vy vidíte tu náročnost vybudovat systém, který je dokáže sbírat. A také vidíte tu jednoduchost, když si data prostě vycucáte z prstu.  Nikdo to nemusí poznat, když to uděláte chytře. V takovém případě může být to pokušení vysloveně neodolatelné. Je tohle případ ÚZIS?

No a co takhle se jich na to zeptat? Bude sranda. Když tak se budou kroutit jak hadi. A nebo z nich dostanu aspoň nějakou zajímavou perličku, jak se tvoří data o pandemii. A nebo jsem odhalil něco nepříjemného, přijedou pro mě uniformovaní muži a já prostě zmizím. Ale co by člověk neudělal pro pravdu, že?

Tak jsem tam napsal. Nejprve řediteli IT odboru panu Blahovi. Ptám se ho, co by mohlo být příčinou takových náhodných výkyvů v tabulce, které vysloveně svádí k tomu myslet si, že to tam někdo falšuje. Pan inženýr Blaha obratem a ochotně odpovídá. Sám nemá o věci tak hluboký přehled, ale doporučuje mi tři další odborníky, kteří by mi mohli mou otázku zodpovědět. Další den se mi ozývá pan doktor Komenda. Trochu sarkasticky se mi omlouvá, že dal přednost třem hodinám spánku před odpovědí na můj mail. Tak v tu chvíli nevím, zda jej mám litovat, nebo už začíná to mlžení nad situací, kdy byli páni doktoři přistiženi při činu. Jsem připraven i na variantu, že ÚZIS data tiše opraví, aniž by mi o tom řekl. Jeho data už mám pod drobnohledem a neunikne mi tam ani myš. Když to opraví, hnedka to poznám.

Nakonec se mi ozývá pan doktor Jarkovský. A jeho krátké vysvětlení jde rovnou k věci: Je to jednoduché – kvůli ochraně osobních údajů pacientů posouváme záznam každého pacienta náhodně o několik dní. Maximálně plus minus týden. O každém pacientovi zveřejňujeme tolik údajů, že by při trošce analytické práce byl konkrétně dohledatelný i když je jeho jméno anonymizované.  Zlatý důl pro zloděje, kteří by si mohli velmi snadno zjistit, který byt je volný, protože majitel právě leží v nemocnici na kyslíku. Proto je v systému úmyslně zanesená náhodnost, kdy se libovolně + – týden mění datum přijetí do nemocnice. Z hlediska dlouhodobé statistiky ten týden nehraje roli.

Ano, tohle vysvětlení dává smysl. Krátké, jasné, výstižné, zcela konzistentní s mými pozorováními, ale hlavně také smysluplné. Smysluplné! Jde to i bez Gatese a Illuminátů. Někdy prostě stačí obyčejné GDPR.

Tímto pak chci všem třem pánům z ÚZIS ještě jednou poděkovat za ochotu, kterou mi při zkoumání problému věnovali.

No a jaké z toho plyne ponaučení?

  1. Komplexní systémy jsou mrchy nevypočitatelný a vždycky vás znovu překvapí. A to, že vás vždycky znovu překvapí, je na nich to jediné, co by vás překvapovat nemělo. Nikdy nevíte, které zpětné vazby tam zafungují. A tak vám klidně bude GDPR ovlivňovat data o počtu hospitalizací, ale vůbec se nemůžete divit ani tomu, že vám GDPR ovlivní i data o slunečních skvrnách nebo rychlost šíření epidemie. Proto sám nevěřím na žádné Illuminátské spiknutí, protože ty systémy jsou tak složité, že je prostě nemůže zvládnout predikovat ani globální prediktor.
  2. Nehledejte vždycky za vším hnedka zlý úmysl. Většinu problémů vysvětlíte kombinací šlendriánu a vám neznámých faktorů. V našem případě  by se za šlendrián dalo považovat to, že informace o příslušné randomizaci dat pacientů nebyla uvedena v dokumentaci datové sady. Přitom taková věc by si určitě své čestné místo v dokumentaci zasloužila.
  3. Než začnete něco veřejně tvrdit, dobře si to rozmyslete. Čím závažnější věci tvrdíte, tím více je nejprve potřeba je ověřit a konfrontovat je s těmi, kterých se to týká. Jinak riskujete, že budete za blbce.

Pan Jarkovský se se mnou rozloučil slovy: „děkuji, racionální komunikace je v dnešních dnech spíše vzácností.“ Děkuji mu tímto za ocenění, jenom mě mrzí, že můj racionální přístup k problému musí dnes i lidé na ÚZIS považovat za vzácnost. Zřejmě i proto jsme dneska tam, kde jsme.

Zdroj