Équipe IMAGeS : Images, Modélisation, Apprentissage, Géométrie et Statistique

Séminaire du 26 février 2024

De Équipe IMAGeS : Images, Modélisation, Apprentissage, Géométrie et Statistique
Aller à la navigation Aller à la recherche

Exploitation de l’apprentissage profond multi-modal/tâche pour l’analyse et l’interprétation d’images

Fethi Ghazouani, ICube, équipe SDC

Résumé : Les transformers pour la segmentation des images médicales ont soulevé un grand intérêt. Contrairement aux réseaux convolutionnels (CNN), les transformers utilisent des auto-attentions qui n'ont pas un fort biais inductif. Cela donne aux transformers la capacité d'apprendre des dépendances à longue portée et des capacités de modélisation plus puissantes. Dans ce séminaire, j’exposerai mes travaux de recherches antérieures qui portent sur la fusion d'images IRM multimodales basée sur l’apprentissage profond multi-modal/tâche pour la segmentation et la prédiction de la tumeur cérébrale. Je présenterai en première partie l’architecture du modèle Swin Transformer et son principe de calcul de l’auto-attention, introduit pour réduire la complexité de l’opération d’auto-attention utilisée dans le modèle Vision Transformer (ViT) classique. Je détaillerai ensuite l’approche proposée pour la segmentation d’images multimodales de tumeurs cérébrales, qui s’appuie sur le modèle Swin Transformer et l’auto-attention locale améliorée (ELSA). Dans une seconde partie, je montrerai, comment il est possible de réaliser une fusion par corrélation multimodale dans l’espace des caractéristiques latentes pour la segmentation de la tumeur et prédiction de la localisation de la récidive de la tumeur cérébrale. Dans cette approche, le mécanisme d’apprentissage par transfert a été appliqué afin d’améliorer la performance et la précision du modèle dans le cas où les données sont limitées.