MediaTech

MediaTech est une librairie de jeux de données publiques pré-traités et vectorisés, conçus pour être immédiatement exploitable dans des projets d’intelligence artificielle.

huggingface.co

Produit en construction

Contexte

L’administration française dispose d’une richesse considérable de données publiques, issues de multiples sources (Légifrance, CNIL, data.gouv.fr, etc.). Cependant, exploiter ces données pour développer des solutions d’intelligence artificielle reste un défi majeur : les données sont souvent dispersées, hétérogènes, non nettoyées et nécessitent un pré-traitement long et coûteux avant d’être utilisables par les équipes IA.

Dans un contexte où l’État cherche à accélérer l’adoption de l’IA dans ses administrations, il devient essentiel de fournir un accès simplifié à des jeux de données publics de qualité.

Problème

Avant MediaTech, les équipes souhaitant développer une application basée sur des données publiques (moteur de recherche, chatbot, outil d’analyse, etc.) devaient :

rechercher les jeux de données sur différentes plateformes,
les télécharger et les nettoyer manuellement,
les transformer en formats exploitables pour les modèles IA,
et construire elles-mêmes la chaîne de vectorisation ou d’indexation.

Ce processus mobilise des semaines de travail technique, crée des redondances entre administrations, et freine le passage à l’échelle des projets IA publics.

En parallèle, les jeux de données disponibles ne sont pas toujours compatibles avec les besoins des modèles modernes (LLM, RAG, embeddings, etc.), ce qui limite leur réutilisation et leur valeur.

Solution

MediaTech apporte une réponse directe à ces obstacles.

Il s’agit d’une librairie de jeux de données publics pré-traités et vectorisés, prêts à être utilisés pour les projets d’intelligence artificielle de l’administration.

Les données y sont :

nettoyées, structurées et homogénéisées,
vectorisées pour un usage immédiat dans des moteurs de recherche sémantiques ou des modèles de langage,
hébergées sur des plateformes accessibles et souveraines, comme data.gouv.fr et Hugging Face.

L’ensemble du projet est open source, disponible sur le GitHub d’Étalab, et ouvert à la contribution communautaire (ajouts de jeux de données, signalement d’erreurs, suggestions).

Où trouver ces données ?

Aujourd’hui, 9 jeux de données sont à disposition sur :

Hugging Face, la première plateforme communautaire de l’intelligence artificielle dans le monde.
data.gouv.fr, la plateforme de diffusion de données publiques de l’État français.

Objectif à 6 mois

Prochainement, l’objectif est que les jeux de données soient disponibles sur Albert API , l’outil développé par l’État français pour centraliser, sécuriser et simplifier l’usage de modèles d’IA générative de manière souveraine au sein de l’administration.