Équipe IMAGeS : Images, Modélisation, Apprentissage, Géométrie et Statistique

Différences entre les versions de « Séminaire du 26 février 2024 »

De Équipe IMAGeS : Images, Modélisation, Apprentissage, Géométrie et Statistique
Aller à la navigation Aller à la recherche
(Page créée avec « <big>'''Exploitation de l’apprentissage profond multi-modal/tâche pour l’analyse et l’interprétation d’images'''</big> ''Fethi Ghazouani'', ICube, équipe S... »)
 
 
Ligne 3 : Ligne 3 :
 
''Fethi Ghazouani'', ICube, équipe SDC
 
''Fethi Ghazouani'', ICube, équipe SDC
  
'''Résumé : Les transformers pour la segmentation des images médicales ont soulevé un grand intérêt. Contrairement aux réseaux convolutionnels (CNN), les transformers utilisent des auto-attentions qui n'ont pas un fort biais inductif. Cela donne aux transformers la capacité d'apprendre des dépendances à longue portée et des capacités de modélisation plus puissantes. Dans ce séminaire, j’exposerai mes travaux de recherches antérieures qui portent sur la fusion d'images IRM multimodales basée sur l’apprentissage profond multi-modal/tâche pour la segmentation et la prédiction de la tumeur cérébrale. Je présenterai en première partie l’architecture du modèle Swin Transformer et son principe de calcul de l’auto-attention, introduit pour réduire la complexité de l’opération d’auto-attention utilisée dans le modèle Vision Transformer (ViT) classique. Je détaillerai ensuite l’approche proposée pour la segmentation d’images multimodales de tumeurs cérébrales, qui s’appuie sur le modèle Swin Transformer et l’auto-attention locale améliorée (ELSA). Dans une seconde partie, je montrerai, comment il est possible de réaliser une fusion par corrélation multimodale dans l’espace des caractéristiques latentes pour la segmentation de la tumeur et prédiction de la localisation de la récidive de la tumeur cérébrale. Dans cette approche, le mécanisme d’apprentissage par transfert a été appliqué afin d’améliorer la performance et la précision du modèle dans le cas où les données sont limitées.
+
'''Résumé :''' Les transformers pour la segmentation des images médicales ont soulevé un grand intérêt. Contrairement aux réseaux convolutionnels (CNN), les transformers utilisent des auto-attentions qui n'ont pas un fort biais inductif. Cela donne aux transformers la capacité d'apprendre des dépendances à longue portée et des capacités de modélisation plus puissantes. Dans ce séminaire, j’exposerai mes travaux de recherches antérieures qui portent sur la fusion d'images IRM multimodales basée sur l’apprentissage profond multi-modal/tâche pour la segmentation et la prédiction de la tumeur cérébrale. Je présenterai en première partie l’architecture du modèle Swin Transformer et son principe de calcul de l’auto-attention, introduit pour réduire la complexité de l’opération d’auto-attention utilisée dans le modèle Vision Transformer (ViT) classique. Je détaillerai ensuite l’approche proposée pour la segmentation d’images multimodales de tumeurs cérébrales, qui s’appuie sur le modèle Swin Transformer et l’auto-attention locale améliorée (ELSA). Dans une seconde partie, je montrerai, comment il est possible de réaliser une fusion par corrélation multimodale dans l’espace des caractéristiques latentes pour la segmentation de la tumeur et prédiction de la localisation de la récidive de la tumeur cérébrale. Dans cette approche, le mécanisme d’apprentissage par transfert a été appliqué afin d’améliorer la performance et la précision du modèle dans le cas où les données sont limitées.

Version actuelle datée du 23 février 2024 à 17:21

Exploitation de l’apprentissage profond multi-modal/tâche pour l’analyse et l’interprétation d’images

Fethi Ghazouani, ICube, équipe SDC

Résumé : Les transformers pour la segmentation des images médicales ont soulevé un grand intérêt. Contrairement aux réseaux convolutionnels (CNN), les transformers utilisent des auto-attentions qui n'ont pas un fort biais inductif. Cela donne aux transformers la capacité d'apprendre des dépendances à longue portée et des capacités de modélisation plus puissantes. Dans ce séminaire, j’exposerai mes travaux de recherches antérieures qui portent sur la fusion d'images IRM multimodales basée sur l’apprentissage profond multi-modal/tâche pour la segmentation et la prédiction de la tumeur cérébrale. Je présenterai en première partie l’architecture du modèle Swin Transformer et son principe de calcul de l’auto-attention, introduit pour réduire la complexité de l’opération d’auto-attention utilisée dans le modèle Vision Transformer (ViT) classique. Je détaillerai ensuite l’approche proposée pour la segmentation d’images multimodales de tumeurs cérébrales, qui s’appuie sur le modèle Swin Transformer et l’auto-attention locale améliorée (ELSA). Dans une seconde partie, je montrerai, comment il est possible de réaliser une fusion par corrélation multimodale dans l’espace des caractéristiques latentes pour la segmentation de la tumeur et prédiction de la localisation de la récidive de la tumeur cérébrale. Dans cette approche, le mécanisme d’apprentissage par transfert a été appliqué afin d’améliorer la performance et la précision du modèle dans le cas où les données sont limitées.