De manière générale, mes travaux de recherche visent à l’établissement de modèles mathématiques pour l’analyse de données médicales. Pour cela, mes efforts se découpent en plusieurs axes comme décrits ci-dessous.
Mots-clés :
L’algorithme d’espérance-maximisation ou algorithme EM permet de maximiser la vraisemblance de modèles à données manquantes dans des cadres très généraux. Lorsque l'étape d'espérance ne peut être réalisée, on peut recourir à une approximation stochastique de l'algorithme EM (SAEM). La convergence du SAEM vers les points critiques de la vraisemblance observée a été prouvée et son efficacité numérique a été démontrée. Cependant, l’algorithme SAEM est très sensible à ses conditions initiales et, malgré la stochasticité de la procédure induite par l’approximation stochastique, peut rester piégé dans des maxima locaux. De plus, il suppose que l’on est à même de simuler la loi conditionnelle des variables latentes sachant les observations (avec la terminologie des modèles à variables latentes), éventuellement par une méthode de type MCMC, ce qui n’est pas toujours le cas.
Avec Stéphanie Allassonnière, nous avons proposé une nouvelle classe d’algorithmes SAEM : les algorithmes SAEM approchés, ou approximated-SAEM en anglais, dont nous avons démontré la convergence vers des maxima locaux sous des hypothèses standards. Cette classe repose sur la simulation par une loi approchée, en un sens à définir, de la vraie loi conditionnelle dans l’étape de simulation. En particulier, on englobe des algorithmes pré-existants tel que l’ABC-SAEM, dont l’efficacité numérique avait été établie mais dont la convergence théorique n’avait pas été démontrée, et le MCMC-SAEM.
En se basant sur des techniques de recuit simulé, nous avons également proposé une version tempérée de l’algorithme SAEM, le tempering-SAEM, afin de favoriser sa convergence vers des maxima globaux. Dans cette version, on approche la loi conditionnelle en la tempérant suivant un schéma de températures sinusoïdal amorti.
Pour plus de détails, voir CSDA 2021.
Les données massives et hétérogènes sont légions dans les applications médicales : compte-rendus textuels, données ohmiques, données d'imageries, etc. Un suivis médical efficace repose donc sur la capacité à traiter conjointement toutes ces données. Ceci suppose d'être, d'une part, à même d'encoder efficacement de telles données et, d'autre part, de pouvoir proposer des algorithmies adaptées à leur taille.
Sur la base de l'encodage cible ou target encoding, j'ai travaillé à développer une nouvelle technique d'encodage particulièrement adaptée aux données massives et hétérogènes. En partant d'un modèle hierarchique, l'idée est de proposer un encodage à même de capturer toute la complexité des données que l'on veut étudier.
Avec Pierre-Alexandre Mattei, Frédéric Precioso et Michel Riveill, j'ai travillé à l'élaboration de modèles génératifs profonds pour l'analyse de données massives, longitudinales et hétérogènes. Plus précisément, nous voulions déterminer une représentation adaptée des données recueillies dans le cadre du programme de médicalisation des systèmes d’information en soins de suite ou de réadaptation (PMSI-SSR). Une idée naturelle est de recourir à des auto-encodeurs variationnels.
Ces travaux n'on cependant pas donné lieu à publication.
SAEM : Évolution typique des paramètres au cours de l'estimation.
tempering-SAEM : Évolution typique des paramètres au cours de l'estimation.
Une part substantielle de mes recherches a consisté à développer de nouvelles méthodes pour l'analyse statistique de données longitudinales, et plus particulièrement pour l'analyse de données médicales.
En effet, par delà les études transversales, étudier l’évolution temporelle de phénomènes connait un intérêt croissant. Ceci s'explique simplement : pour comprendre un phénomène, il semble effectivement plus adapté de comparer l’évolution des marqueurs de celui-ci au cours du temps plutôt que ceux-ci à un stade donné. Le suivi de maladies neuro-dégénératives s’effectue par exemple par le suivi de scores cognitifs au cours du temps. C’est également le cas pour le suivi de chimiothérapie qui repose de plus en plus sur la compréhension de la progression globale de la maladie que sur que l’état de santé ponctuel des patients.
Avec Stéphanie Allassonnière, nous avons travaillé à l'élaboration d'un modèle non-linéaire à effets mixtes cohérent (consistant) pour l'analyse statistique de données longitudinales à valeurs sur des variétés riemanniennes. Ce modèle repose sur la discrimination de déformations dites temporelles et liées à l’acquisition des données et au rythme de progression du phénomène observé, de déformations dites spatiales, liées à la géométrie intrinsèque des formes observées. Cela nous a conduit à considérer des déformations spatio-temporelles.
Ce modèle a été conçu en collaboration avec Laure Fournier, radiologue à l'Hôpital européen Georges Pompidou, avec pour visée le suivis du cancer du rein métastatique.
Pour plus de détails, voir NeurIPS 2017 & SIIMS 2021.
Trajectoire représentative dans le modèle de forme géodésique par morceaux.
La géométrie riemannienne se révèle un outil particulièrement adapté à la modélisation mathématique des formes. En effet, plutôt que d’analyser les formes en elle-mêmes de manière individuelle, il semble plus efficient de considérer des ensembles ou populations de formes et d’essayer de les appréhender comme des espaces au sens mathématique du terme. De par leur construction, ces espaces vont hériter naturellement d’une structure de variété riemannienne. Ainsi, pour étudier rigoureusement les formes anatomiques, il convient de développer des modèles valides dans des espaces riemanniens.
Avec Joan Alexis Glaunès, nous avons travaillé à l'élaboration d'un modèle dit de pseudo-métamorphoses pour le recalage difféomorphique de courbes et de surfaces, via des mesures discrètes pondérées.
Avec Stéphanie Allassonnière, nous avons proposé un modèle pour le suivis de formes anatomiques exploitant fortement le caractère riemannien des espaces de forme. Les images ci-dessous sont un exemple du type de trajectoires que l'on peut obtenir dans de tels espaces.
Évolution de la forme représentative ⬥ Patients présentant une déficience cognitive légère et finalement diagnostiqués Alzheimer (MCIc).
Évolution de la forme représentative ⬥ Patients du groupe contrôle (CN).
Liste de mes publications disponibles sur HAL. Lien vers mon profil Google Scholar.
Minimax density estimation in the adversarial framework under local differential privacy.
Avec Mélisande Albert, Béatrice Laurent-Bonneau et Ousmane Sacko.
A coherent framework for learning spatiotemporal piecewise-geodesic trajectories from longitudinal manifold-valued data.
Avec Stéphanie Allassonnière et Vianney Debavelaere. SIAM Journal on Imaging Sciences 14(1), 2021.
A new class of stochastic EM algorithms. Escaping local maxima and handling intractable sampling.
Avec Stéphanie Allassonnière. Computational Statistics & Data Analysis 159, 2021
Pandemic Intensity Estimation from Stochastic Approximation-based Algorithms
CAMSAP: IEEE International Workshop on Computational Advances in Multi-Sensor Adaptive Processing, Los Sueños, Costa Rica, Décembre 2023.
Codes développés par Gersende Fort. Avec Patrice Abry, Gersende Fort et Barbara Pascal.
Analyse statistique de données anatomiques longitudinales de patients traités. Application au suivi de chimiothérapie.
JDS: 52èmes Journées de Statistiques de la Société Française de Statistique, Université Côte d'Azur, Nice, Mai 2020.
Avec Stéphanie Allassonnière.
Learning spatiotemporal piecewise-geodesic trajectories from longitudinal manifold-valued data.
NeurIPS: Advances in Neural Information Processing Systems 30, Long Beach, CA, USA, Décembre 2017.
Avec Stéphanie Allassonnière et Stéphane Oudard.
Thèse effectuée au Centre de Mathématiques Appliquées (CMAP, École polytechnique, Palaiseau) sous la direction de Stéphanie Allassonnière.
Modèles statistiques et algorithmes stochastiques pour l’analyse de données longitudinales à dynamiques multiples et à valeurs sur des variétés riemanniennes.
J'ai soutenu ma thèse le 26 septembre 2019 devant le jury composé de :
Mon manuscrit est disponible ici et les slides de ma présentation là.
Travaux d'initiations à la recherche réalisés lors de ma scolarité à Orsay, tous compilés dans mon mémoire de magistère.
Je suis membre des groupes de recherche suivant :
Financé par l'Agence Nationale de la Recherche française, AAPG 2023. Débuté en octobre 2023, pour une durée de 42 mois.
Groupe de travail autour de la chaire ANITI « Trust and Responsibility in Artificial Intelligence »
Financé par le programme NEEDS · Nucléaire : Energie, Environnement, Déchets, Société · porté par le CNRS.
Financé par l'Agence Nationale de la Recherche française, AAPG 2024.
Les documents ci-dessous sont relatifs à mon enseignement courant à l'INSA de Toulouse. Les documents fournis en archives ne sont plus maintenus.
Mentor au sein du réseau Mentor’IA porté par la commission mixité d’ANITI (Artificial and Natural Intelligence Toulouse Institute). Programme à déstination d'étudiantes de la licence au master leur proposant un accompagnement personnalisé afin de faciliter leur insertion dans les parcours et métiers de l’IA, .
Participation à l'édition régionale, Université Paris-Saclay, du concours MT-180.
Participation au lancement de l'opération « Votre région fait des maths » portée par la Fondation Mathématiques Jacques Hadamard et visant à promouvoir les initiatives de diffusions des mathématiques en région île de France sud auprès du grand public et des scolaires.
Trésorière de l'association PiDay et co-organisatrice de La tournée de π 2017, un spéctacle musical mathématique. La tournée 2017 est passée par les villes de Paris, Lyon et Marseille.
L’association a reçu en 2016 le Prix d’Alembert de la Société de Mathématiques de France, récompensant les initiatives de diffusion mathématique auprès du grand public.
« Speed-meetings » mathématiques entre des doctorant·e·s et le grand public organisés par la Fondation Sciences Mathématiques de Paris à l'Institut Henri Poincaré, dans le cadre de la Fête de la science 2017.
Mon CV détaillé en pdf : version française et anglaise.
Équipe Statistique et Optimisation, Institut de Mathématiques de Toulouse.
Département Génie Mathématiques et Modélisation, INSA Toulouse.
Département Génie Mathématiques et Modélisation · Bâtiment GMM, Bureau 122
Institut de Mathématiques de Toulouse · Bâtiment 1R1, Bureau 103
INSA Toulouse · 135 avenue de Rangueil · 31077 Toulouse Cedex 04
Avec Pierre-Alexandre Mattei, Frédéric Precioso et Michel Riveill.
Équipe Maasai « Models and Algorithms for Artificial Intelligence », Inria Sophia Antipolis.
Laboratoire J.A. Dieudonné, Université Côte d'Azur, Nice.
Sous la direction de Stéphanie Allassonnière, École polytechnique, Palaiseau.
Centre de Mathématiques Appliquées, École polytechnique, Palaiseau.
Section 26 · Mathématiques appliquées
Sous la direction de Stéphanie Allassonnière, École polytechnique, Palaiseau.
Sujet : Modèles statistiques et algorithmes stochastiques pour l’analyse de données longitudinales à dynamiques multiples et à valeurs sur des variétés riemanniennes.
Mots-clés : Géométrie riemannienne, Données longitudinales, Optimisation stochastique, Modèles non-linéaires à effets-mixtes, Algorithmes de type EM, Analyse spatio-temporelle, Estimation bayésienne.
J'ai soutenu ma thèse le 26 septembre 2019 devant le jury composé de :
Mon manuscrit de thèse est disponible ici et les slides de ma présentation là.
Licence Mathématiques Fondamentales et Appliquées, Université Paris-Sud, Orsay ;
Master Mathématiques pour les Sciences du Vivant, Mention Très bien, Université Paris-Saclay, Orsay.
Mon mémoire de magistère est disponible ici.
Option Calcul Scientifique ; Master Formation des Professeurs Agrégés de Mathématiques.
iGEM :
Compétition internationale ingénierie génétique organisée par le MIT ;
Obtention de la médaille d’or pour l’équipe Paris-Saclay.
Lycée Pierre Corneille, Rouen. Filière MP, Option informatique.
Spéciatlité Mathématiques Appliquées du cycle ingénieur, 4ème année, INSA Toulouse.
Spéciatlité Mathématiques Appliquées du cycle ingénieur, 4ème année, INSA Toulouse.
Spéciatlité Mathématiques Appliquées du cycle ingénieur, 5ème année, INSA Toulouse.
Formation par apprentissage ModIA « Modélisation et Intelligence Artificielle », 5ème année, ENSEEIHT & INSA Toulouse.
Master Science des données et Intelligence artificielle, Université Côte d'Azur.
Master Mathématiques Vision Apprentissage, École Normale Supérieure Paris-Saclay.
MSc Data Science for Business, HEC Paris et École polytechnique.
Ingénieurs polytechniciens, 1ère année, Tronc commun, École polytechnique.
Lycée Turgot, Paris 3ème.
Lycée Lakanal, Bourg-la-Reine.
La place des femmes dans les sciences mathématiques est un sujet qui m’intéresse (et m'impacte) tout particulièrement. Je suis moi-même investie dans la promotion des STEM (science, technologie, ingénierie et mathématiques) auprès des jeunes-filles. Ci-dessous, quelques ressources en lien :
Katherine Johnson, Dorothy Vaughan et Mary Jackson, calculatrices afro-américaines ayant contribué aux programmes aéronautiques et spatiaux de la NASA.
INSA Toulouse
Bureau GMM-122
135, Avenue de Rangueil
31077 Toulouse Cedex 4
juliette.chevallier (@) insa-toulouse.fr