fbpx

Víte, jak se hodnotí validita diagnostických testů (nejen) na COVID 19?

V souvislosti s různými typy testů na koronavirus v poslední době často řešíme otázku, který z testů je spolehlivější a jak porovnat jejich kvalitu. Nejčastěji se uvádějí dvě charakteristiky: senzitivitaspecifičnost. Víte ale, co přesně znamenají a jak je interpretovat? V tomto článku si přiblížíme, jakým způsobem se hodnotí validita diagnostických testů, vysvětlíme si základní pojmy a zmíníme i historii vzniku tohoto konceptu.

Možnosti využití

Postupy, které si zde popíšeme, nacházejí uplatnění ve všech situacích, kdy se ověřuje spolehlivost určitého nástroje, jehož výsledkem je hodnocení (odhad), do které ze dvou skupin případ patří. U diagnostických testů se obvykle jedná o to, zda pacient trpí nebo netrpí určitým onemocněním. Přitom není podstatné, zda byl pro diagnostiku užit laboratorní test nebo libovolná jiná metoda.

Tento přístup má však i obecnější využití pro posouzení spolehlivosti odhadů jakéhokoliv modelu, který klasifikuje do dvou tříd. Ve statistickém modelování se využívá například v souvislosti s binární logistickou regresí nebo diskriminační analýzou (v případě dichotomické cílové proměnné). Nachází široké uplatnění nejen v oblasti medicíny, ale i v mnoha jiných oborech, například v bankovnictví, pojišťovnictví nebo marketingu.

Historie

Pojmy senzitivita a specifičnost představil v roce 1947 Jacob Yerushalmy, americký biostatistik původem z Izraele.

Ve 40. letech 20. století představovala velkou hrozbu tuberkulóza, která se šířila kontaktem s nakaženým (především vzduchem) a napadala nejčastěji plíce. Ve Spojených státech na ni v této době umíralo každý rok kolem 100 000 lidí, jednalo se o sedmou nejčastější příčinu úmrtí a patřila k nejvíce obávaným onemocněním.

Správná diagnóza tuberkulózy proto byla velmi důležitá. Zatímco v lékařské komunitě převládal názor, že lékař může tuberkulózu jednoznačně diagnostikovat na základě rentgenu, Jacob Yerushalmy byl v této věci více skeptický. Z vlastní zkušenosti znal případy, kdy různí lékaři hodnotili jeden rentgenový snímek různě, a dokonce se vyskytovaly i situace, kdy jeden lékař označil pacienta na základě rentgenu nejprve jako negativního a později na základě stejného rentgenu jako pozitivního.

V roce 1979 publikoval Yerushalmy článek, kde porovnával čtyři různé rentgenové techniky diagnostiky tuberkulózy. Ačkoliv nebyl schopen jednoznačně určit, která z nich je nejlepší, navrhl koncepci pro charakteristiku chyb v diagnostických testech, která se užívá dodnes. Zároveň upozornil, že ani nejlepší metody obvykle nemohou povýšit úroveň diagnostiky určitého onemocnění ve všech případech na absolutní jistotu.

Jacob Yerushalmy navrhl hodnotit diagnostické testy na základě dvou pravděpodobností:

  • míra senzitivity – vyjadřuje pravděpodobnost správné diagnostiky pozitivních případů a
  • míra specificity – vyjadřuje pravděpodobnost správné diagnostiky negativních případů.

Validace testu

Předtím, než se diagnostický test začne užívat v běžné praxi, je třeba ho nejprve validovat, tj. ověřit do jaké míry skutečně měří to, co měřit má. To se obvykle provádí na souboru, kde jsou k dispozici ověřené informace o skutečném stavu testovaných osob. Přitom je důležité, aby byl tento soubor dostatečně velký, reprezentativní, a aby i výskyt testovaného onemocnění přibližně odpovídal jeho zastoupení na celé populaci. Pokud nelze získat verifikované informace o skutečném stavu, provádí se alespoň srovnání s jiným nástrojem, který měří totéž a je v dané oblasti považován za nejlepší standard.

Během validace se porovnává skutečný stav s výsledkem diagnostického testu. Následující tabulka zobrazuje čtyři možné situace a typy závěrů:

Pokud se výsledek testu shoduje se skutečností, jedná se o správné pozitivní nebo negativní rozhodnutí. Jestliže výsledek testu realitě neodpovídá, hovoříme o falešně negativním nebo falešně pozitivním závěru.

Falešně negativní výsledek znamená, že pacient ve skutečnosti onemocněním trpí, ale test tuto skutečnost neodhalil. V případě onemocnění COVID-19 tedy taková osoba není odeslána do izolace, ačkoliv by v ní být měla a může nakazit někoho dalšího.

Falešně pozitivní výsledek naopak odpovídá situaci, kdy je daná osoba zdravá, ale test vyšel pozitivní. V tomto případě bude v izolaci zbytečně.

Následující kontingenční tabulka vyjadřuje značení četností:

Cílem validace je co nejpřesněji odhadnout na základě zkoumaného výběrového souboru neznámé pravděpodobnosti, s jakými při použití testu dochází ke správné/chybné klasifikaci pozitivních i negativních případů.

Senzitivita – pravděpodobnost správné diagnostiky pozitivních případů. Odhaduje se jako procento správných pozitivních výsledků ze všech skutečně pozitivních hodnot: A/(A+C).

Specificita (specifičnost) – pravděpodobnost správné diagnostiky negativních případů. Odhaduje se jako procento správných negativních výsledků ze všech skutečně negativních hodnot: D/(B+D).

Test s vysokou senzitivitou odhalí vysoký podíl skutečně nemocných pacientů. Pokud tedy například plánujete navštívit babičku a obáváte se, že byste ji mohli nakazit onemocněním COVID‑19, je třeba, abyste předtím absolvovali test s vysokou senzitivitou. Při nízké specifičnosti testu, je však riziko, že dostanete falešně pozitivní výsledek.

Test s vysokou specifičností naopak dává pouze výjimečně falešně pozitivní výsledek. Při nízké senzitivitě testu je zde ale riziko falešné negativity.

V ideálním případě bychom chtěli, aby obě tyto charakteristiky byly co nejvyšší. V praxi je však vždy nutné vycházet z reálných možností i stavu poznání – v řadě situací může být velkým přínosem i diagnostický nástroj s těmito ukazateli kolem 60 %, v jiných případech se hodnoty blíží 100 %. Svoji roli hraje také cena vyšetření. U řady onemocnění se například užívá nejprve levnější test, který má vysokou senzitivitu, ale nízkou specifičnost (s velkou pravděpodobností tedy odhalí ty, kteří onemocněním trpí, ale je zde rovněž vysoký počet falešně pozitivních případů). Ti, kterým vyšel test pozitivně potom absolvují speciální drahá vyšetření, která výsledek buď potvrdí, nebo vyvrátí.

U prediktivních modelů se pro hledání optimální kombinace senzitivity a specifičnosti často užívá ROC křivka.

Senzitivita a specifičnost jsou velmi důležitými charakteristikami validity testu. Z pohledu testované osoby, která má k dispozici pouze výsledek testu a svůj skutečný stav nezná, je však důležitější vědět, jak spolehlivý je tento výsledek. Odpověď na tuto otázku poskytují následující charakteristiky:

Prediktivní hodnota pozitivního testu – pravděpodobnost, že osoba, které vyšel test pozitivní, je skutečně pozitivní. Odhaduje se jako procento správných pozitivních výsledků ze všech pozitivních výsledků: A/(A+B).

Prediktivní hodnota negativního testu – pravděpodobnost, že osoba, které vyšel test negativní, je skutečně negativní. Odhaduje se jako procento správných negativních výsledků ze všech negativních výsledků: D/(C+D).

Přesnost testu – pravděpodobnost, že výsledek testu (bez ohledu na to jako dopadne) bude správný. Odhaduje se jako počet správných výsledků ve všech výsledků: (A+D)/(A+B+C+D).

Na rozdíl od senzitivity a specifičnosti však prediktivní hodnota pozitivního a negativního testu i přesnost testu závisejí na prevalenci, tj. na procentu nemocných v populaci. S rostoucím podílem nemocných a při stejných ostatních parametrech roste prediktivní hodnota pozitivního testu, a naopak klesá prediktivní hodnota negativního testu (tento vztah však není lineární). To je také důvod, proč se tyto charakteristiky obvykle neuvádějí.

Na základě reprezentativního výběrového souboru lze odhadnout rovněž prevalenci. Odhad skutečné prevalence vyjadřuje podíl (A+C)/(A+B+C+D). Odhad naměřené (zdánlivé) prevalence, který je založen na počtu pozitivních výsledků testu, získáme jako podíl: (A+B)/(A+B+C+D). Tyto dvě hodnoty se v některých případech mohou i poměrně výrazně lišit.

Příklad

Postup validace testu si přiblížíme na příkladě. Na základě reprezentativního výběrového souboru 500 osob máme k dispozici následující informace:

Z těchto údajů získáme odhady (lze je zapisovat jako desetinné číslo nebo je vyjádřit v procentech):

  • senzitivita: 63/85 = 74,1 %,
  • specificita (specifičnost): 357/415 = 86,0 %,
  • prediktivní hodnota pozitivního testu: 63/121 = 52,0 %,
  • prediktivní hodnota negativního testu: 357/379 = 94,2 %,
  • přesnost testu: (63+357)/500 = 84 %,
  • skutečné prevalence: (63+22)/500 = 17,0 %,
  • naměřená (zdánlivá) prevalence: (63+58)/500 = 24,2 %.

Odhadujeme tedy, že tento diagnostický nástroj bude schopen odhalit 74,1 % skutečně pozitivních pacientů, avšak 25,9 % (100 % – 74,1 %) z nich dostane falešně negativní výsledek. Ze skutečně negativních pacientů bude mít 86 % negativní výsledek, ale zbývajících 14 % (100 % – 86 %) falešně pozitivní výsledek.

Pokud testovaná osoba dostane pozitivní výsledek testu (a nezmění se procento nemocných v populaci), je skutečně pozitivní s pravděpodobností 52 %. Jestliže dostane negativní výsledek, je pravděpodobnost správného výsledku 94,2 %. Pravděpodobnost, že ten, kdo podstoupí test a zatím nezná výsledek, dostane správný výsledek, je 84 %.

Odhad skutečné prevalence onemocnění je 17 %. Na základě podílu pozitivních výsledků bychom ale naměřili zdánlivou prevalenci 24,2 %.

Testy na COVID‑19

Na závěr se podíváme, jak vypadá reálná situace u testů na COVID‑19. Všeobecně je známo, že PCR testy jsou ve srovnání s antigenními testy spolehlivější. Podle informací z odborných medicínských článků se jejich analytická senzitivita i specifičnost blíží 100 %. V klinické praxi jsou však tyto hodnoty o něco nižší (odhad senzitivity je kolem 80 % a specifičnosti 98-99 %). To je dané tím, že se bere v úvahu celý proces včetně předanalytické fáze, která zahrnuje vše, co se děje před přímou realizací testu (odběr vzorku, transport, uskladnění apod.).

U antigenních testů je situace složitější a více nepřehledná. Na trhu již existuje poměrně velké množství různých typů testů, u řady z nich je však obtížné tyto informace dohledat. Otázkou také je, z jak velkého výzkumného souboru byly získány a jaká je jejich spolehlivost. Podle nařízení vlády by měly pojišťovny nakupovat pouze antigenní testy s analytickou senzitivitou alespoň 90 % a specifičností 97 %. Teoreticky by tedy testem mělo projít s negativním výsledkem nejvýše 10 % nakažených. Výzkumy však ukazují, že toto číslo je ve skutečnosti podstatně vyšší. Například studie FN Motol odhaduje, že senzitivita antigenního testu se u bezpříznakových jedinců pohybuje kolem 44 %, ale u podskupiny PCR „silně pozitivních“ kolem 75 %. Evropské středisko pro prevenci a kontrolu nemocí (ECDC) provedlo několik analýz klinického hodnocení výkonu komerčních antigenních testů, ve kterých se senzitivita testů pohybovala mezi 29–93,9 % a specifita testů mezi 80,2–100 %. Tyto rozdíly lze částečně vysvětlit různou fází onemocnění osob v době testování, především však odlišnou kvalitou testů různých výrobců. Zdá se tedy, že spolehlivost antigenních testů od různých výrobců se velmi liší a je třeba mezi nimi pečlivě vybírat. Výzkumy také upozorňují, že schopnost detekovat nákazu se u všech typů testů výrazně liší v různých fázích infekce.

společnost ACREA
ACREA CR je českou analytickou společností s tradicí od roku 1998. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů