Stage IA RAG et Embbeding spécialisé pour l’astrophysique
Offre de stage – Évaluation du fine-tuning des modèles d’embedding pour le RAG
Niveau : Master Informatique / Étudiant ingénieur
Durée : 4 à 6 mois
Lieu : Observatoire de Meudon, 5 place Jules Janssen
Contexte
l’UNIDIA est une unité de l’observatoire de Paris, travaillant sur le dévellopement instrumentale pour
l’astrophysique. À ce titre l’UNIDIA participe a de nombreux projet de grande ampleur avec l’ESA et
l’ESO.
Ces projets s’accompagnent d’une production documentaire considérable, à la fois volumineuse et
hautement spécialisée.
Dans le cadre de ses travaux autour de l’intelligence artificielle générative, l’UNIDIA développe des
outils d’assistance à la gestion documentaire et des assistants conversationnels basés sur des
architectures RAG (Retrieval-Augmented Generation). Ces systèmes s’appuient sur des modèles
d’embedding pour représenter et rechercher efficacement l’information dans la documentation
technique.
Cependant, la nature très spécifique de nos documents rend parfois difficile la phase de retrieval,
c’est-à-dire la capacité du modèle à identifier les passages pertinents. Afin d’améliorer la performance
de ces systèmes, nous souhaitons étudier la faisabilité, la pertinence et l’efficacité du fine-tuning de
modèles d’embedding adaptés à nos besoins.
Objectifs du stage
Le stage visera à :
1. Analyser l’état de l’art sur les techniques de fine-tuning des modèles d’embedding pour le RAG
(approches supervisées, contrastives, instruction-tuning, etc.).
2. Mettre en place un protocole expérimental pour comparer différents modèles et stratégies de
fine-tuning sur un corpus documentaire interne.
3. Évaluer l’impact du fine-tuning sur la qualité du retrieval et sur les performances globales d’un
pipeline RAG.
4. Proposer des recommandations méthodologiques et techniques pour une intégration durable de
ces modèles dans les outils de l’unité.
Profil recherché
Étudiant en Master 2 Informatique ou école d’ingénieur (spécialisation IA, NLP, data science ou
équivalent).
Solides compétences en Python et en traitement du langage naturel (PyTorch, Hugging Face,
LangChain, etc.).
Bonne compréhension des modèles de représentation de texte (embeddings, transformers).
Intérêt pour les applications de l’IA générative.
Autonomie, rigueur scientifique et goût pour l’expérimentation.
Environnement de travail
Le stagiaire intégrera le Pôle d’Ingénierie Scientifique et Informatique (PISI) de l’UNIDIA.
Il y travaillera en collaboration avec les différents ingénieurs d’étude et de recherche en informatique,
et côtoiera également des experts métier issus de toutes les spécialités nécessaires au
développement et à l’intégration des instruments astronomiques de pointe.
Le stage offrira une opportunité unique de travailler sur des données réelles issues de projets
scientifiques de long terme, avec un fort potentiel d’application.
Encadrement et perspectives
Le stage sera encadré par un ingénieur de recherche et assisté de tous les expert métier du pôle.
Les résultats du stage pourront donner lieu à une publication et à un prototype intégré dans nos outils
RAG existants.
Candidature :
Envoyer CV + lettre de motivation à
clement.hottier@obspm.fr