Guía de informes para la evaluación clínica en etapa temprana de los sistemas de apoyo a la toma de decisiones impulsados por inteligencia artificial: DECIDE-AI

La perspectiva de mejores resultados clínicos y sistemas de salud más eficientes ha impulsado un rápido aumento en el desarrollo y la evaluación de los sistemas de IA durante la última década. Debido a que la mayoría de los sistemas de IA dentro del cuidado de la salud son intervenciones complejas diseñadas como sistemas de soporte de decisiones clínicas, en lugar de agentes autónomos, las interacciones entre los sistemas de IA, sus usuarios y los entornos de implementación definen los componentes de la efectividad potencial general de las intervenciones de IA. Por lo tanto, hacer que los sistemas de IA pasen del rendimiento matemático a la utilidad clínica necesita una vía de implementación y evaluación adaptada y gradual, que aborde la complejidad de esta colaboración entre dos formas independientes de inteligencia, más allá de las medidas de efectividad por sí solas¹. A pesar de las indicaciones de que algunos algoritmos basados en IA ahora igualan la precisión de los expertos humanos en estudios preclínicos in silico², hay poca evidencia de alta calidad para mejorar el desempeño de los médicos o los resultados de los pacientes en los estudios clínicos^{3 ,4}. Las razones propuestas para este llamado abismo de IA⁵ son la falta de la experiencia necesaria para traducir una herramienta a la práctica, la falta de fondos disponibles para la traducción, una subestimación general de la investigación clínica como mecanismo de traducción⁶ y, más específicamente, un desprecio por el valor potencial de las primeras etapas de evaluación clínica y el análisis de factores humanos⁷.

Los desafíos de la evaluación clínica de IA en etapa temprana (Cuadro 1) son similares a los de las intervenciones complejas, según lo informado por la guía dedicada del Consejo de Investigación Médica¹, y la innovación quirúrgica, según lo descrito por el Marco IDEAL^8,9. Por ejemplo, en los tres casos, la evaluación debe considerar el potencial de modificación iterativa de las intervenciones y las características de los operadores (o usuarios) que las realizan. En este sentido, el marco IDEAL ofrece recomendaciones fácilmente implementables y específicas de la etapa para la evaluación de las innovaciones quirúrgicas en desarrollo. Las etapas IDEAL 2a y 2b, por ejemplo, se describen como etapas de desarrollo y exploración, durante las cuales se refina la intervención, se analizan las curvas de aprendizaje de los operadores y se explora prospectivamente la influencia de la variabilidad del paciente y del operador en la efectividad, antes de realizar pruebas de eficacia a gran escala. .

La evaluación clínica en etapa inicial de los sistemas de IA también debe poner un fuerte énfasis en la validación del rendimiento y la seguridad, de manera similar a los ensayos farmacéuticos de fase 1 y fase 2, antes de la evaluación de eficacia a escala en la fase 3. Por ejemplo, pequeños los cambios en la distribución de los datos subyacentes entre las poblaciones de entrenamiento del algoritmo y de evaluación clínica (el llamado cambio de conjunto de datos) pueden provocar una variación sustancial en el rendimiento clínico y exponer a los pacientes a posibles daños inesperados^10,11.

Guía de informes para la etapa clínica inicial evaluación de sistemas de apoyo a la toma de decisiones impulsados por inteligencia artificial: DECIDE-AI

Las evaluaciones de factores humanos (o ergonomía) se llevan a cabo comúnmente en campos críticos para la seguridad, como la aviación, el ejército y los sectores energéticos^12,13,14. Sus evaluaciones evalúan el efecto de un dispositivo o procedimiento en el rendimiento físico y cognitivo de sus usuarios y viceversa. Los factores humanos, como la evaluación de la usabilidad, son una parte integral del proceso regulatorio para los nuevos dispositivos médicos^15,16, y su aplicación a los desafíos específicos de la IA atrae cada vez más atención en la literatura médica^17,18,19,20. Sin embargo, pocos estudios clínicos de IA han informado sobre la evaluación de los factores humanos³, y la evaluación de la usabilidad de la tecnología de salud digital relacionada a menudo se realiza con una metodología y un informe inconstantes²¹.

Recientemente también se han destacado otras áreas de informes subóptimos de estudios clínicos de IA^3,22, como el entorno de implementación, las características del usuario y el proceso de selección, la capacitación proporcionada, la identificación del algoritmo subyacente y la divulgación de las fuentes de financiación. . Los informes transparentes son necesarios para la evaluación informada del estudio y para facilitar la reproducibilidad de los resultados del estudio. En un campo relativamente nuevo y dinámico como la IA clínica, la elaboración de informes completos también es clave para construir una base de conocimientos común y comparable sobre la que construir.

Ya existen directrices, o están en desarrollo, para la notificación de estudios preclínicos in silico de sistemas de IA, su validación fuera de línea y su evaluación en grandes estudios comparativos^23,24,25,26; pero hay una etapa importante de investigación entre estos, a saber, los estudios que se centran en el uso clínico inicial de los sistemas de IA, para los cuales actualmente no existe tal guía (Fig. 1 y Tabla 1). Esta evaluación clínica temprana proporciona una evaluación de alcance crucial de los desafíos de la utilidad clínica, la seguridad y los factores humanos en entornos clínicos reales. Al investigar los obstáculos potenciales para la evaluación clínica a escala y el diseño del protocolo de información, estos estudios también son importantes peldaños hacia los ensayos comparativos definitivos.

Para abordar esta brecha, convocamos a un grupo internacional de expertos de múltiples partes interesadas en un ejercicio Delphi para producir la guía de informes DECIDE-AI. Centrándose en los sistemas de IA que respaldan, en lugar de reemplazar, la inteligencia humana, DECIDE-AI tiene como objetivo mejorar la presentación de informes de estudios que describen la evaluación de los sistemas de apoyo a la toma de decisiones basados en IA durante su implementación temprana a pequeña escala en entornos clínicos reales (es decir, el las decisiones respaldadas tienen un efecto real en la atención del paciente). Mientras que TRIPOD-AI, STARD-AI, SPIRIT-AI y CONSORT-AI son específicos para diseños de estudio particulares, DECIDE-AI se centra en la etapa de evaluación y no prescribe un diseño de estudio fijo.

Cuadro 1 Desafíos metodológicos de la evaluación del sistema de soporte de decisiones basado en IA

La evaluación clínica de los sistemas de soporte de decisiones basados en IA presenta varios desafíos metodológicos, todos los cuales probablemente se encontrarán en una etapa temprana. Estas son las necesidades de:

Guía de informes para la evaluación clínica en etapa temprana de los sistemas de apoyo a la toma de decisiones impulsados por inteligencia artificial: DECIDE-AI

Cuadro 1 Desafíos metodológicos de la evaluación del sistema de soporte de decisiones basado en IA

Duración de la batería del HONOR 400 Pro: Perspectivas del uso en el mundo real

¿Por qué es un cambio de juego la duración de la batería de HONOR?

¿Es Buena Idea Tener Una Cámara de Seguridad en El Interior de Tu Casa?

Guía de informes para la evaluación clínica en etapa temprana de los sistemas de apoyo a la toma de decisiones impulsados ​​por inteligencia artificial: DECIDE-AI

Cuadro 1 Desafíos metodológicos de la evaluación del sistema de soporte de decisiones basado en IA

Duración de la batería del HONOR 400 Pro: Perspectivas del uso en el mundo real

¿Por qué es un cambio de juego la duración de la batería de HONOR?

¿Es Buena Idea Tener Una Cámara de Seguridad en El Interior de Tu Casa?

Guía de informes para la evaluación clínica en etapa temprana de los sistemas de apoyo a la toma de decisiones impulsados por inteligencia artificial: DECIDE-AI