Ligne directrice de rapport pour l'évaluation clinique précoce des systèmes d'aide à la décision pilotés par l'intelligence artificielle : DECIDE-AI

La perspective de meilleurs résultats cliniques et de systèmes de santé plus efficaces a alimenté une augmentation rapide du développement et de l'évaluation des systèmes d'IA au cours de la dernière décennie. Étant donné que la plupart des systèmes d'IA dans les soins de santé sont des interventions complexes conçues comme des systèmes d'aide à la décision clinique, plutôt que comme des agents autonomes, les interactions entre les systèmes d'IA, leurs utilisateurs et les environnements de mise en œuvre définissent les composants de l'efficacité potentielle globale des interventions d'IA. Par conséquent, faire passer les systèmes d'IA de la performance mathématique à l'utilité clinique nécessite une mise en œuvre et une voie d'évaluation adaptées et progressives, tenant compte de la complexité de cette collaboration entre deux formes indépendantes d'intelligence, au-delà des seules mesures d'efficacité¹. Malgré les indications selon lesquelles certains algorithmes basés sur l'IA correspondent désormais à la précision des experts humains dans le cadre d'études précliniques in silico², il existe peu de preuves de haute qualité pour améliorer les performances des cliniciens ou les résultats des patients dans les études cliniques^{3 ,4}. Les raisons proposées pour ce soi-disant gouffre de l'IA⁵ sont le manque d'expertise nécessaire pour traduire un outil en pratique, le manque de financement disponible pour la traduction, une sous-appréciation générale de la recherche clinique en tant que mécanisme de traduction⁶ et, plus précisément, une méconnaissance de la valeur potentielle des premières étapes de l'évaluation clinique et de l'analyse des facteurs humains⁷.

Les défis de l'évaluation clinique de l'IA à un stade précoce (Encadré 1) sont similaires à ceux des interventions complexes, comme indiqué dans les orientations dédiées du Conseil de la recherche médicale¹, et de l'innovation chirurgicale, comme décrit par le Cadre IDÉAL^8,9. Par exemple, dans les trois cas, l'évaluation doit tenir compte du potentiel de modification itérative des interventions et des caractéristiques des opérateurs (ou utilisateurs) qui les réalisent. À cet égard, le cadre IDEAL propose des recommandations facilement applicables et spécifiques à l'étape pour l'évaluation des innovations chirurgicales en cours de développement. Les stades IDEAL 2a et 2b, par exemple, sont décrits comme des stades de développement et d'exploration, au cours desquels l'intervention est affinée, les courbes d'apprentissage des opérateurs sont analysées et l'influence de la variabilité du patient et de l'opérateur sur l'efficacité est explorée de manière prospective, avant des tests d'efficacité à grande échelle .

L'évaluation clinique précoce des systèmes d'IA doit également mettre fortement l'accent sur la validation des performances et de la sécurité, de la même manière que pour les essais pharmaceutiques de phase 1 et de phase 2, avant l'évaluation de l'efficacité à grande échelle en phase 3. Par exemple, les petites les changements dans la distribution des données sous-jacentes entre les populations d'entraînement à l'algorithme et d'évaluation clinique (ce que l'on appelle le changement d'ensemble de données) peuvent entraîner une variation substantielle des performances cliniques et exposer les patients à des dommages potentiels inattendus^10,11.

Reporting guidelines for the early-stage clinic évaluation des systèmes d'aide à la décision pilotés par l'intelligence artificielle : DECIDE-AI

Les évaluations des facteurs humains (ou ergonomie) sont couramment menées dans des domaines critiques pour la sécurité tels que les secteurs de l'aviation, de l'armée et de l'énergie^12,13,14. Leurs évaluations évaluent l'effet d'un dispositif ou d'une procédure sur les performances physiques et cognitives de leurs utilisateurs et vice-versa. Les facteurs humains, tels que l'évaluation de l'utilisabilité, font partie intégrante du processus de réglementation des nouveaux dispositifs médicaux^15,16, et leur application aux défis spécifiques à l'IA attire de plus en plus l'attention dans la littérature médicale^17,18,19,20. Cependant, peu d'études cliniques sur l'IA ont rendu compte de l'évaluation des facteurs humains³, et l'évaluation de la convivialité de la technologie de santé numérique associée est souvent réalisée avec une méthodologie et des rapports inconstants²¹.

D'autres domaines de notification sous-optimale des études cliniques sur l'IA ont également été récemment mis en évidence^3,22, tels que l'environnement de mise en œuvre, les caractéristiques des utilisateurs et le processus de sélection, la formation dispensée, l'identification des algorithmes sous-jacents et la divulgation des sources de financement . Des rapports transparents sont nécessaires pour une évaluation éclairée de l'étude et pour faciliter la reproductibilité des résultats de l'étude. Dans un domaine relativement nouveau et dynamique tel que l'IA clinique, des rapports complets sont également essentiels pour construire une base de connaissances commune et comparable sur laquelle s'appuyer.

Des lignes directrices existent déjà, ou sont en cours d'élaboration, pour le compte rendu d'études précliniques in silico de systèmes d'IA, leur validation hors ligne et leur évaluation dans de grandes études comparatives^23,24,25,26 ; mais il existe une étape de recherche importante entre celles-ci, à savoir des études portant sur l'utilisation clinique initiale des systèmes d'IA, pour lesquelles aucune orientation de ce type n'existe actuellement (Fig. 1 et Tableau 1). Cette évaluation clinique précoce fournit une évaluation cruciale de la portée de l'utilité clinique, de la sécurité et des défis liés aux facteurs humains dans les environnements cliniques en direct. En étudiant les obstacles potentiels à l'évaluation clinique à grande échelle et en informant la conception du protocole, ces études sont également des tremplins importants vers des essais comparatifs définitifs.

Pour combler cette lacune, nous avons réuni un groupe international d'experts multipartites dans le cadre d'un exercice Delphi afin d'élaborer les directives de création de rapports DECIDE-AI. En se concentrant sur les systèmes d'IA soutenant, plutôt que de remplacer, l'intelligence humaine, DECIDE-AI vise à améliorer le rapport des études décrivant l'évaluation des systèmes d'aide à la décision basés sur l'IA lors de leur mise en œuvre précoce à petite échelle dans des environnements cliniques réels (c'est-à-dire les décisions prises en charge ont un effet réel sur les soins aux patients). Alors que TRIPOD-AI, STARD-AI, SPIRIT-AI et CONSORT-AI sont spécifiques à des plans d'étude particuliers, DECIDE-AI se concentre sur l'étape d'évaluation et ne prescrit pas de plan d'étude fixe.

Encadré 1 Défis méthodologiques de l'évaluation des systèmes d'aide à la décision basés sur l'IA

L'évaluation clinique des systèmes d'aide à la décision basés sur l'IA présente plusieurs défis méthodologiques, qui seront probablement tous rencontrés à un stade précoce. Ce sont les besoins pour :