Směrnice pro podávání zpráv pro počáteční fázi klinického hodnocení systémů podpory rozhodování řízených umělou inteligencí: DECIDE-AI

Vyhlídky na lepší klinické výsledky a efektivnější zdravotnické systémy podnítily v posledním desetiletí rychlý vzestup ve vývoji a hodnocení systémů umělé inteligence. Protože většina systémů umělé inteligence v rámci zdravotní péče jsou komplexní intervence navržené jako systémy podpory klinického rozhodování, spíše než autonomní agenti, interakce mezi systémy umělé inteligence, jejich uživateli a implementačním prostředím definují složky celkové potenciální účinnosti intervencí umělé inteligence. Převedení systémů umělé inteligence z matematického výkonu na klinickou užitečnost proto vyžaduje přizpůsobený postup postupné implementace a hodnocení, který řeší složitost této spolupráce mezi dvěma nezávislými formami inteligence, která přesahuje samotné měření účinnosti¹. Navzdory náznakům, že některé algoritmy založené na umělé inteligenci nyní odpovídají přesnosti lidských expertů v preklinických studiích in silico², existuje jen málo vysoce kvalitních důkazů pro lepší výkon lékaře nebo výsledky pacientů v klinických studiích^{3 ,4}. Důvody navrhované pro tuto takzvanou AI propast⁵ jsou nedostatek potřebných odborných znalostí potřebných pro převedení nástroje do praxe, nedostatek finančních prostředků na překlad, obecné nedocenění klinického výzkumu jako mechanismu překladu⁶ a konkrétněji ignorování potenciální hodnoty raných fází klinického hodnocení a analýzy lidských faktorů⁷.

Výzvy klinického hodnocení umělé inteligence v rané fázi (rámeček 1) jsou podobné jako u komplexních intervencí, jak uvádí doporučení Rady pro lékařský výzkum¹, a chirurgické inovace, jak je popsáno v IDEAL Framework^8,9. Například ve všech třech případech musí hodnocení vzít v úvahu potenciál pro opakovanou modifikaci zásahů a charakteristiky operátorů (nebo uživatelů), kteří je provádějí. V tomto ohledu nabízí rámec IDEAL snadno implementovatelná a etapově specifická doporučení pro hodnocení vyvíjených chirurgických inovací. Fáze IDEAL 2a a 2b jsou například popsány jako vývojové a průzkumné fáze, během nichž se intervence zpřesňuje, analyzují se křivky učení operátorů a prospektivně se zkoumá vliv variability pacienta a operátora na účinnost, před testováním účinnosti ve velkém měřítku. .

Počasé klinické hodnocení systémů umělé inteligence by také mělo klást velký důraz na validaci výkonu a bezpečnosti, podobným způsobem jako ve fázi 1 a fázi 2 farmaceutických studií, před hodnocením účinnosti na měřítku ve fázi 3. Například malé změny v distribuci základních dat mezi populací pro trénování algoritmů a klinické hodnocení (takzvaný posun datové sady) mohou vést k podstatným změnám v klinické výkonnosti a vystavit pacienty potenciální neočekávané újmě^10,11.

příručka pro registraci alt hodnocení systémů pro podporu rozhodování řízených umělou inteligencí: DECIDE-AI

Hodnocení lidských faktorů (nebo ergonomie) se běžně provádějí v oblastech kritických z hlediska bezpečnosti, jako je letectví, vojenství a energetika^12,13,14. Jejich hodnocení hodnotí účinek zařízení nebo postupu na fyzický a kognitivní výkon jejich uživatelů a naopak. Lidské faktory, jako je hodnocení použitelnosti, jsou nedílnou součástí regulačního procesu pro nové zdravotnické prostředky^15,16 a jejich aplikace na výzvy specifické pro umělou inteligenci přitahuje v lékařské literatuře stále větší pozornost^17,18,19,20. Jen málo klinických studií umělé inteligence však popsalo hodnocení lidských faktorů³ a hodnocení použitelnosti souvisejících digitálních zdravotnických technologií se často provádí s nestálou metodikou a přehledy²¹.

Nedávno byly zdůrazněny i další oblasti neoptimálního vykazování klinických studií umělé inteligence^3,22, jako je implementační prostředí, uživatelské charakteristiky a proces výběru, poskytované školení, identifikace základních algoritmů a zveřejnění zdrojů financování . Transparentní zprávy jsou nezbytné pro informované hodnocení studie a pro usnadnění reprodukovatelnosti výsledků studie. V relativně novém a dynamickém oboru, jako je klinická umělá inteligence, je komplexní reporting také klíčem k vybudování společné a srovnatelné znalostní základny, na které lze stavět.

Pokyny pro vykazování preklinických in silico studií systémů umělé inteligence, jejich offline validace a jejich vyhodnocování ve velkých srovnávacích studiích již existují nebo jsou ve vývoji^23,24,25,26; mezi nimi však existuje důležitá fáze výzkumu, konkrétně studie zaměřující se na počáteční klinické použití systémů umělé inteligence, pro které v současnosti žádné takové pokyny neexistují (obr. 1 a tabulka 1). Toto rané klinické hodnocení poskytuje zásadní hodnocení rozsahu klinické užitečnosti, bezpečnosti a lidských faktorů v živých klinických podmínkách. Zkoumáním potenciálních překážek klinického hodnocení ve velkém měřítku a informativním návrhem protokolu jsou tyto studie také důležitými odrazovými můstky k definitivním srovnávacím studiím.

Abychom tuto mezeru vyřešili, svolali jsme mezinárodní, mnohostrannou skupinu odborníků v rámci cvičení v Delphi, abychom vytvořili směrnici pro podávání zpráv DECIDE-AI. DECIDE-AI se zaměřuje na systémy umělé inteligence, které podporují, spíše než nahrazují lidskou inteligenci, a snaží se zlepšit podávání zpráv o studiích popisujících hodnocení systémů pro podporu rozhodování založených na umělé inteligenci během jejich rané implementace v malém měřítku v živých klinických podmínkách (tj. podporovaná rozhodnutí mají skutečný vliv na péči o pacienty). Zatímco TRIPOD-AI, STARD-AI, SPIRIT-AI a CONSORT-AI jsou specifické pro konkrétní návrhy studií, DECIDE-AI se zaměřuje na fázi hodnocení a nepředepisuje pevný design studie.

Rámeček 1 Metodologické problémy hodnocení systému podpory rozhodování založeného na AI

Klinické hodnocení systémů podpory rozhodování založených na AI představuje několik metodologických problémů, se kterými se pravděpodobně setkáme v rané fázi. Jedná se o potřeby: