Estimation de l'information des données - Plateforme de services à guichet unique

Toutes les données ne sont pas créées égales.Mais quelle quantité d'informations sont-elles susceptibles de contenir?Cette question est au cœur des tests médicaux, de la conception d'expériences scientifiques et même de l'apprentissage et de la pensée humaines quotidiennes.Les chercheurs du MIT ont développé une nouvelle façon de résoudre ce problème, ouvrant de nouvelles applications en médecine, en découverte scientifique, en sciences cognitives et en intelligence artificielle.

In theory, the 1948 paper, “A Mathematical Theory of Communication," by the late MIT Professor Emeritus Claude Shannon answered this question definitively.L'un des résultats de la percée de Shannon est l'idée de l'entropie, qui nous permet de quantifier la quantité d'informations inhérentes dans tout objet aléatoire, y compris des variables aléatoires que le modèle a observé des données.Les résultats de Shannon ont créé les fondements de la théorie de l'information et des télécommunications modernes.Le concept d'entropie s'est également révélé au cœur de l'informatique et de l'apprentissage automatique.

Le défi de l'estimation de l'entropie

Malheureusement, l'utilisation de la formule de Shannon peut rapidement devenir intraitable de calcul.Il faut calculer avec précision la probabilité des données, ce qui nécessite à son tour de calculer toutes les façons possibles dont les données auraient pu apparaître sous un modèle probabiliste.Si le processus de génération de données est très simple - par exemple, un seul lancer de pièce ou un rouleau d'un dé.Mais considérez le problème des tests médicaux, où un résultat de test positif est le résultat de centaines de variables en interaction, toutes inconnues.Avec seulement 10 inconnues, il y a déjà 1 000 explications possibles sur les données.Avec quelques centaines, il y a plus d'explications possibles que les atomes de l'univers connu, ce qui fait du calcul de l'entropie exactement un problème ingérable.

Les chercheurs du MIT ont développé une nouvelle méthode pour estimer les bonnes approximations de nombreuses quantités d'information telles que l'entropie de Shannon en utilisant une inférence probabiliste. The work appears in a paper presented at AISTATS 2022 by authors Feras Saad ’16, MEng ’16, a PhD candidate in electrical engineering and computer science; Marco-Cusumano Towner PhD ’21; and Vikash Mansinghka ’05, MEng ’09, PhD ’09, a principal research scientist in the Department of Brain and Cognitive Sciences.L'informatique clé est, plutôt que d'énumérer toutes les explications, pour utiliser plutôt des algorithmes d'inférence probabiliste pour inférer les explications probables, puis utiliser ces explications probables pour construire des estimations d'entropie de haute qualité.Le document montre que cette approche basée sur les inférences peut être beaucoup plus rapide et plus précise que les approches précédentes.

Estimating the informativeness of data

L'estimation de l'entropie et des informations dans un modèle probabiliste est fondamentalement difficile car elle nécessite souvent de résoudre un problème d'intégration à haute dimension.De nombreux travaux antérieurs ont développé des estimateurs de ces quantités pour certains cas spéciaux, mais les nouveaux estimateurs de l'entropie via l'inférence (EEVI) offrent la première approche qui peut fournir des limites supérieures et inférieures sur un large ensemble de quantités théoriques de l'information.Une limite supérieure et inférieure signifie que bien que nous ne connaissions pas la véritable entropie, nous pouvons obtenir un nombre plus petit que lui et un nombre plus élevé que lui.

«Les limites supérieures et inférieures de l'entropie délivrées par notre méthode sont particulièrement utiles pour trois raisons», explique Saad.«Premièrement, la différence entre les limites supérieure et inférieure donne une idée quantitative de notre confiance en matière de confiance sur les estimations.Deuxièmement, en utilisant plus d'efforts de calcul, nous pouvons faire la différence entre les deux limites à zéro, qui «serre» la vraie valeur avec un degré élevé de précision.Troisièmement, nous pouvons composer ces limites pour former des estimations de nombreuses autres quantités qui nous indiquent à quel point différentes variables informatives dans un modèle sont les uns des autres."

Résoudre des problèmes fondamentaux avec les systèmes d'experts basés sur les données

Saad dit qu'il est le plus enthousiasmé par la possibilité que cette méthode donne pour interroger des modèles probabilistes dans des domaines comme les diagnostics médicaux assistés par machine.Il dit qu'un objectif de la méthode EEVI est de pouvoir résoudre de nouvelles requêtes en utilisant de riches modèles génératifs pour des choses comme les maladies du foie et le diabète qui ont déjà été développées par des experts dans le domaine médical.Par exemple, supposons que nous ayons un patient avec un ensemble d'attributs observés (taille, poids, âge, etc..) et symptômes observés (nausées, tension artérielle, etc..).Compte tenu de ces attributs et symptômes, EEVI peut être utilisé pour aider à déterminer quels tests médicaux de symptômes que le médecin devrait effectuer pour maximiser les informations sur l'absence ou la présence d'une maladie hépatique donnée (comme la cirrhose ou la cholangite biliaire primaire).

Pour le diagnostic de l'insuline, les auteurs ont montré comment utiliser la méthode pour calculer des temps optimaux pour prendre des mesures de glycémie qui maximisent les informations sur la sensibilité à l'insuline d'un patient, étant donné un modèle probabiliste d'exsuline de l'insulin.Comme le suivi médical de routine comme la surveillance du glucose s'éloigne des cabinets du médecin et vers des appareils portables, il existe encore plus d'occasions d'améliorer l'acquisition de données, si la valeur des données peut être estimée avec précision à l'avance.

Vikash Mansinghka, auteur principal sur l'article, ajoute: «Nous avons montré que les algorithmes d'inférence probabiliste peuvent être utilisés pour estimer des limites rigoureuses sur les mesures d'information que les ingénieurs de l'IA considèrent souvent comme intraitables pour calculer.Cela ouvre de nombreuses nouvelles applications.Cela montre également que l'inférence peut être plus fondamentale sur le calcul que nous ne le pensions.Cela aide également à expliquer comment les esprits humains pourraient être en mesure d'estimer la valeur de l'information avec si omniprésente, en tant que bloc de construction central de la cognition quotidienne, et nous aider à ingérer les systèmes d'experts de l'IA qui ont ces capacités."

The paper, “Estimators of Entropy and Information via Inference in Probabilistic Models," was presented at AISTATS 2022.