Data Engineer : Data Preparation, Curation & Autolabelling – H/F- Ref :
Comment postuler ?
Pour postuler à une offre de contrat, vous devez être admissible à une des formations associées.
Comment faire ? vous allez voir c’est simple :
Comment faire ? vous allez voir c’est simple :
Je m’inscris à une ou
des formations associées.
des formations associées.
Je suis admissible
à la formation.
à la formation.
Les offres de contrats me sont
automatiquement proposées.
automatiquement proposées.
Vous avez déjà un compte afi24 ? connectez-vous maintenant.
Secteur :
region : Île-de-France | Département : 78
ville : Guyancourt
region : Île-de-France | Département : 78
ville : Guyancourt
Date de début du contrat :
2025-09-01
2025-09-01
Durée du contrat :
24 mois
24 mois
Descriptif de la mission :
Avec nos véhicules iconiques, nos concepts futuristes, nos succès en Formule 1 et nos véhicules électriques pionniers, notre Groupe est un constructeur automobile et un fournisseur de mobilité de renommée mondiale. Nous sommes une entreprise internationale avec de fortes racines françaises et une riche histoire d’innovation. Avec nos quatre marques passionnantes et avec la force de notre alliance unique avec d'autres groupes nous proposons des solutions de mobilités durables et innovantes à nos clients.
Derrière notre succès, nos 111 000 employés basés dans 38 pays sont unis par leur passion et leur créativité. Nous créons les conditions pour que chacun puisse libérer son énergie, se produire pleinement et grandir avec la liberté d’être soi-même.
Contexte et environnement de travail
Dans le contexte du programme « Safety Coach », nous avons pour ambition d’améliorer les capacités du véhicule dans la compréhension de scènes de conduite, afin de mieux assister le conducteur pour une conduite sûre. Cette offre d’alternance s’inscrit dans ce cadre de projet, offrant une opportunité unique à un(e) étudiant(e) passionné(e) de l’IA de participer activement à des projets d’innovation ambitieux.
Vos missions :
Au sein du pôle IA et Technologies Emergentes, vos missions consisteront à :
Concevoir, déployer et maintenir des pipelines de collecte (data harvesting) permettant d’extraire des données issues de multiples sources.
Mettre en place des processus de curation et d’autolabeling (en utilisant des modèles d’IA générative) afin de transformer des données brutes en ensembles de données de haute qualité, labellisées, répondant aux besoins métiers.
Assurer la mise à disposition et la maintenance régulière de datasets pour utilisation pour fine tuning et évaluation quantitative.
Collaborer étroitement avec les équipes techniques et de recherche pour définir les indicateurs de performance et optimiser les workflows de préparation des données.
Développer et documenter des outils et scripts d’automatisation facilitant le monitoring et la robustesse des pipelines de données.
***ATTENTION, POUR CETTE OFFRE, VOUS DEVEZ IMPERATIVEMENT POSTULER SUR LE LIEN QUE VOUS TROUVEREZ EN DESSOUS DE L'OFFRE***
Avec nos véhicules iconiques, nos concepts futuristes, nos succès en Formule 1 et nos véhicules électriques pionniers, notre Groupe est un constructeur automobile et un fournisseur de mobilité de renommée mondiale. Nous sommes une entreprise internationale avec de fortes racines françaises et une riche histoire d’innovation. Avec nos quatre marques passionnantes et avec la force de notre alliance unique avec d'autres groupes nous proposons des solutions de mobilités durables et innovantes à nos clients.
Derrière notre succès, nos 111 000 employés basés dans 38 pays sont unis par leur passion et leur créativité. Nous créons les conditions pour que chacun puisse libérer son énergie, se produire pleinement et grandir avec la liberté d’être soi-même.
Contexte et environnement de travail
Dans le contexte du programme « Safety Coach », nous avons pour ambition d’améliorer les capacités du véhicule dans la compréhension de scènes de conduite, afin de mieux assister le conducteur pour une conduite sûre. Cette offre d’alternance s’inscrit dans ce cadre de projet, offrant une opportunité unique à un(e) étudiant(e) passionné(e) de l’IA de participer activement à des projets d’innovation ambitieux.
Vos missions :
Au sein du pôle IA et Technologies Emergentes, vos missions consisteront à :
Concevoir, déployer et maintenir des pipelines de collecte (data harvesting) permettant d’extraire des données issues de multiples sources.
Mettre en place des processus de curation et d’autolabeling (en utilisant des modèles d’IA générative) afin de transformer des données brutes en ensembles de données de haute qualité, labellisées, répondant aux besoins métiers.
Assurer la mise à disposition et la maintenance régulière de datasets pour utilisation pour fine tuning et évaluation quantitative.
Collaborer étroitement avec les équipes techniques et de recherche pour définir les indicateurs de performance et optimiser les workflows de préparation des données.
Développer et documenter des outils et scripts d’automatisation facilitant le monitoring et la robustesse des pipelines de données.
***ATTENTION, POUR CETTE OFFRE, VOUS DEVEZ IMPERATIVEMENT POSTULER SUR LE LIEN QUE VOUS TROUVEREZ EN DESSOUS DE L'OFFRE***
Profil recherché :
Qui êtes-vous ?
Vous préparez un diplôme d’Ingénieur de recherche ou un Master en informatique, data science, big data ou dans un domaine similaire.
Vous êtes passionné(e) par l’ingénierie des données et motivé(e) par la perspective de soutenir des projets technologiques innovants.
Vous possédez un fort esprit analytique, une grande rigueur et une capacité à synthétiser et structurer de volumineuses informations.
Vous faites preuve d’autonomie, de rigueur et d’une excellente capacité à travailler en équipe, tout en étant force de proposition.
Maîtrise du langage C, du langage Python et de ses bibliothèques dédiées à la manipulation et préparation de données (Pandas, NumPy, Scikit-Learn, etc.).
Vous maitrisez les modèles de réseaux de neurones génératifs à base d’architecture Transformers
Vous maîtrisez les APIs python pour le machine learning (pytorch, tensorflow, huggingface, etc)
Vous maitrisez le langage SQL pour requêter des bases de données.
Bonne maîtrise des outils de versioning (Git) et des environnements collaboratifs de développement.
Bonne maîtrise de l’anglais technique, nécessaire à la lecture de publications et à la veille technologique.
Qui êtes-vous ?
Vous préparez un diplôme d’Ingénieur de recherche ou un Master en informatique, data science, big data ou dans un domaine similaire.
Vous êtes passionné(e) par l’ingénierie des données et motivé(e) par la perspective de soutenir des projets technologiques innovants.
Vous possédez un fort esprit analytique, une grande rigueur et une capacité à synthétiser et structurer de volumineuses informations.
Vous faites preuve d’autonomie, de rigueur et d’une excellente capacité à travailler en équipe, tout en étant force de proposition.
Maîtrise du langage C, du langage Python et de ses bibliothèques dédiées à la manipulation et préparation de données (Pandas, NumPy, Scikit-Learn, etc.).
Vous maitrisez les modèles de réseaux de neurones génératifs à base d’architecture Transformers
Vous maîtrisez les APIs python pour le machine learning (pytorch, tensorflow, huggingface, etc)
Vous maitrisez le langage SQL pour requêter des bases de données.
Bonne maîtrise des outils de versioning (Git) et des environnements collaboratifs de développement.
Bonne maîtrise de l’anglais technique, nécessaire à la lecture de publications et à la veille technologique.
Comment postuler ?
Pour postuler à une offre de contrat, vous devez être admissible à une des formations associées.
Comment faire ? vous allez voir c’est simple :
Comment faire ? vous allez voir c’est simple :
Je m’inscris à une ou
des formations associées.
des formations associées.
Je suis admissible
à la formation.
à la formation.
Les offres de contrats me sont
automatiquement proposées.
automatiquement proposées.
Vous avez déjà un compte afi24 ? connectez-vous maintenant.