Skip to main content

14 Nov, 2022

L’apprentissage automatique des systèmes binaires « oui/non » pourrait améliorer les diagnostics médicaux, l’analyse des risques financiers, etc.

L’apprentissage automatique des systèmes binaires « oui/non » pourrait améliorer les diagnostics médicaux, l’analyse des risques financiers, etc.

À l’instar d’une souris qui court dans un labyrinthe en prenant la décision de dire « oui » ou « non » à chaque intersection, les chercheurs ont mis au point un moyen pour les machines d’apprendre rapidement tous les méandres d’un système de données complexe.

« Notre méthode pourrait contribuer à améliorer le diagnostic des maladies urinaires, l’imagerie des affections cardiaques et l’analyse des risques financiers », a déclaré Abd-AlRahman Rasheed AlMomani, du campus de Prescott (Arizona) de l’Embry-Riddle Aeronautical University.

La recherche a été acceptée pour l’édition du 11 novembre de la revue Patterns avec Jie Sun et Erik Bollt du Center for Complex Systems Science de l’université Clarkson. L’objectif de ces travaux est d’analyser plus efficacement les données binaires (« booléennes »).

« Nous pouvons voir tout ce qui nous entoure comme un réseau d’objets et de variables qui interagissent les uns avec les autres », a déclaré Abd-AlRahman AlMomani, professeur adjoint de science des données et de mathématiques à Embry-Riddle. « Comprendre ces interactions peut améliorer nos prédictions et la gestion de toute une série de réseaux – de la biologie et des réseaux de régulation des gènes, jusqu’au vol aérien. »

Les données booléennes, ou « oui/non », sont fréquemment utilisées dans le domaine de la génétique, où les états des gènes peuvent être décrits comme « activés » (avec une expression génétique élevée) ou « désactivés » (avec une expression génétique faible ou nulle), a expliqué M. AlMomani. L’apprentissage de fonctions et de réseaux booléens à partir de données d’observation bruyantes est essentiel pour déchiffrer de nombreux problèmes scientifiques et techniques différents, qu’il s’agisse de la dynamique des plantes et des pollinisateurs, du ciblage des médicaments ou de l’évaluation du risque de tuberculose chez une personne.

Le défi, explique Abd-Rahman AlMomani, est que la méthode standard d’apprentissage des réseaux booléens, appelée REVEAL (pour reverse engineering algorithm for interference of genetic network architectures), mélange de nombreuses sources d’information différentes. L’approche REVEAL augmente donc la complexité et les coûts de calcul, et les chercheurs doivent atténuer le bruit pour analyser toutes les données. En outre, la méthode REVEAL n’est pas optimale pour résoudre les problèmes de biologie quantitative, qui nécessitent la découverte de facteurs causaux.

Pour éliminer plus rapidement les réponses incorrectes, Abd-AlRahman AlMomani et ses collègues ont exploité une méthode appelée entropie booléenne optimale de causalité, qui réduit progressivement le nombre de solutions correctes à un problème. La méthode transforme essentiellement un processus de diagnostic complexe en un arbre de décision, où les questions oui/non telles que « Le patient a-t-il de la fièvre ? Des nausées ? Une douleur lombaire ? » peuvent guider le clinicien vers le bon diagnostic.

M. AlMomani a expliqué que de nombreuses questions scientifiques s’articulent autour « d’une variable booléenne qui est fondamentalement zéro ou un. Un événement s’est produit ou ne s’est pas produit. Un patient subit un test et obtient un résultat positif ou négatif. Nous pouvons alors classer les résultats des tests, les antécédents médicaux et les résultats de ce patient en tant que variables booléennes ».

Pour tester leurs idées, les chercheurs ont mis la main sur un ensemble complet de 958 configurations possibles du plateau à la fin d’une partie de Tic-Tac-Toe. Le plateau et les différents mouvements du jeu ont ensuite été exprimés sous forme de problèmes mathématiques afin de prédire quel joueur allait gagner.

Les chercheurs ont également testé leur méthode en utilisant un ensemble de données provenant d’images de spectroscopie cardiaque. Leur système a posé le bon diagnostic dans 80 % des cas.

L’article de Patterns est intitulé « Data-Driving Learning of Boolean Networks and Functions by Optimal Causation Entropy Principle (BoCSE) ».

https://dx.doi.org/10.1016/j.patter.2022.100631

https://www.cell.com/patterns/fulltext/S2666-3899(22)00263-X