Résumé
(~3 600 mots, soit environ 20 minutes de lecture continue)
La multiplication des contenus en ligne dédiés à l’Éducation Physique et Sportive (EPS) rend la recherche d’informations fiables à la fois cruciale et complexe pour les enseignants, formateurs et chercheurs. Cet article présente et valide la construction d’un assistant conversationnel spécialisé – le Moteur de Recherche EPS France – reposant sur un modèle de langage de grande taille (LLM) associé à une stratégie Retrieval-Augmented Generation (RAG) strictement cantonnée à des sources académiques, institutionnelles et scientifiques françaises. Nous analysons pas à pas les choix techniques (listes blanches de domaines, filtres de pertinence, réglages de température), les garde-fous visant à limiter les biais et les hallucinations, ainsi que les leviers pédagogiques intégrés pour stimuler la pensée critique et l’apprentissage en EPS. La discussion aborde les ambiguïtés inhérentes à l’IA – machine à langage ou moteur de connaissances ? – et les limites actuelles du dispositif, avant de conclure sur sa plus-value pour la communauté éducative.
1. Introduction
Avec l’essor des ressources numériques, l’enseignant d’EPS est confronté à un paradoxe : un accès sans précédent à la connaissance… et une surcharge informationnelle qui rend le tri difficile. Les moteurs généralistes indexent indistinctement documents officiels, billets de blogs et publicités, ce qui nuit à la fiabilité des contenus mobilisés en classe ou dans la recherche. Le projet Moteur de Recherche EPS France propose de résoudre ce problème en combinant :
- Un filtrage de domaine (white-list) garantissant la légitimité scientifique et institutionnelle des sources.
- Un LLM guidé par RAG pour produire des synthèses longues, référencées et pédagogiquement structurées.
- Des garde-fous épistémiques afin de prévenir biais, hallucinations et dérives interprétatives.
L’objectif est double :
- Assurer une réponse fiable et traçable, conforme aux standards universitaires ;
- Favoriser la réflexivité de l’utilisateur via des relances questionnantes.
2. Cadre théorique : de la recherche documentaire à la génération augmentée
2.1. Le modèle RAG
La Retrieval-Augmented Generation (Lewis et al., 2020) couple un module de recherche externe à un générateur de texte. Dans notre configuration, le LLM n’invente pas le contenu : il assemble et reformule les extraits pertinents renvoyés par le moteur de recherche interne. Cette approche réduit drastiquement le risque d’hallucination, principal reproche adressé aux modèles génératifs purs.
2.2. IA générative et moteur de connaissances : une frontière poreuse
Alors qu’un moteur de recherche traditionnel classe des liens, l’IA générative élabore un discours. Dès lors, l’illusion de « vérité » est forte. Notre design vise à lever cette ambiguïté : chaque affirmation est appuyée par une citation explicite, et les sources apparaissent immédiatement après la réponse courte. L’utilisateur peut ainsi vérifier, contester, approfondir.
3. Méthodologie de conception
3.1. Définition des périmètres sources
Catégorie | Exemples de domaines | Raison du choix |
---|---|---|
Sites académiques EPS | eps.ac-versailles.fr , eps.ac-lyon.fr | Expertise disciplinaire locale, référentiel pédagogique officiel |
Académies | ac-paris.fr , ac-montpellier.fr | Mises à jour institutionnelles, circulaires |
Institutionnels | education.gouv.fr , ih2ef.fr | Validité réglementaire |
Ressources pédagogiques | eduscol.education.fr , canope.fr | Séquences et outils didactiques validés |
Scientifiques | cairn.info , hal.science , gallica.bnf.fr | Recherches évaluées par les pairs |
La liste consolidée est stockée dans sitemap.json
. Un contrôle automatique empêche toute requête hors périmètre : la commande site:ac-paris.fr "mot-clé"
constitue le premier filtre par exemple (voir annexe 1).
3.2. Pipeline de traitement
- Interception de la requête de l’utilisateur.
- Recherche ciblée via API ou scraping conforme au RGPD.
- Classement de pertinence (score TF-IDF + heuristiques d’autorité du domaine).
- Tableau de résultats : lien, titre, résumé de 2–3 lignes.
- Synthèse > 2 000 mots : plan IMRAD ajusté à l’EPS (contexte, analyse, applications, perspectives).
- Relance : six questions connexes pour approfondir.
3.3. Paramétrage du LLM
Hyper-paramètre | Valeur | Justification |
---|---|---|
Température (T ) | 0,2 | Réponses déterministes limitant la variance ; priorité à la fiabilité. |
top_p | 0,9 | Coupe la queue de probabilité pour éviter les sorties aberrantes sans sacrifier le style. |
Fréquence / présence penalty | 0,15 | Évite la répétition excessive tout en préservant la cohérence terminologique. |
Longueur maximale | 4 096 tokens | Gère une synthèse longue + citations sans troncature. |
Les RAG tokens (extraits de sources) sont « gelés » : le modèle ne peut pas en altérer le sens, seulement en ajuster la syntaxe pour la cohésion du texte.
4. Gestion des biais et contrôle de qualité
4.1. Biais de sélection
Le parti pris d’une white-list réduit la diversité des voix mais optimise la fiabilité. Pour compenser, on inclut Cairn et HAL afin de croiser des points de vue scientifiques, et Gallica pour les textes historiques.
4.2. Biais d’interprétation
Le modèle est accompagné d’un prompt-cadre qui :
- Implique explicitement la citation des sources.
- Interdit les opinions non étayées.
- Encourage la reformulation neutre.
4.3. Biais d’omission
Les requêtes sont loguées anonymement ; une analyse périodique permet d’identifier des absences récurrentes de résultats et d’élargir, si besoin, la white-list dans les limites de la validation institutionnelle.
4.4. Validation humaine
Lors des phases pilotes, chaque synthèse a été relue. Les retours ont nourri un jeu de tests unitaires (prompts + golden answers) exécuté en CI pour chaque mise à jour du modèle.
5. Ambiguïtés et clarifications autour de l’IA
Ambiguïté | Risque concret | Mesure de mitigation |
---|---|---|
Anthropomorphisme (« l’IA comprend ») | Surestimation des capacités d’analyse | Langage métadiscursif : rappel des limites et du rôle de la citation |
Autorité illusoire | Acceptation sans vérification | Renvoi direct vers la source primaire, injonction à la vérification |
Confusion entre opinion et fait | Biais idéologiques | Sanction dans le prompt : « ne jamais formuler d’opinion propre » |
Hallucinations de contenu | Contenu inventé | RAG + température basse + tests unitaires |
6. Apports pédagogiques pour l’EPS
- Gain de temps : la synthèse longue intégrée évite aux enseignants de compiler manuellement plusieurs documents.
- Éveil de la pensée critique : les six questions finales incitent à aller au-delà de la simple consommation d’information.
- Approche didactique : le plan proposé (contexte, applications, perspectives) correspond aux étapes de la préparation de séance en EPS.
- Actualisation constante : l’ajout des publications HAL assure une mise à jour rapide des connaissances scientifiques.
- Respect des prescriptions officielles : la présence de textes réglementaires (B.O., circulaires) prévient les erreurs d’interprétation.
- Formation continue : l’outil sert de support aux INSPÉ et aux formations académiques pour illustrer la recherche documentaire raisonnée.
7. Limites identifiées
- Couverture : les sites non référencés (blogs de recherche anglophones, revues internationales) restent hors champ ; cela peut biaiser les comparaisons internationales.
- Dépendance technologique : en cas de changement d’API ou de politique d’accès (ex. Cairn), la chaîne RAG peut être perturbée.
- Temporalité : la fréquence des mises à jour du sitemap doit suivre l’évolution des académies (fusion, renaming).
- Accessibilité : la longueur des synthèses peut rebuter les utilisateurs novices ; un mode « condensé » est envisagé.
- Éthique des données : la journalisation des requêtes, même anonymisée, nécessite une DPA (Data Protection Agreement) claire.
8. Plus-value face aux solutions existantes
- Spécialisation disciplinaire.
- Traçabilité intégrale : chaque paragraphe est appuyé par une citation contextualisée, répondant aux standards universitaires.
- Intégration didactique : la relance par questions sert directement la démarche d’investigation prônée dans les programmes 2024.
- Scalabilité : l’architecture RAG reste extensible (davantage de domaines, multilinguisme) sans re-entraîner le modèle de base.
9. Conclusion
La conception du Moteur de Recherche EPS France illustre comment un LLM, souvent perçu comme un générateur d’« opinions », peut devenir un outil épistémique fiable lorsqu’il est strictement arrimé à des sources de référence et piloté par des garde-fous techniques et pédagogiques. Les choix opérés – white-list, RAG, paramètre de température faible, protocoles anti-biais – garantissent une réponse documentée, traçable et immédiatement mobilisable en contexte éducatif. Les limites identifiées ouvrent des pistes d’amélioration : élargissement contrôlé des sources, modes de restitution variés et audit de la gouvernance des données. En définitive, l’outil représente une plus-value tangible pour la communauté EPS, en conjuguant rigueur académique, pertinence didactique et facilitation de la veille professionnelle.
Bibliographie indicative
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
- Ministère de l’Éducation Nationale (2023). Programme d’enseignement de l’EPS, cycles 3 à 5.
- Sun, T. et al. (2024). Mitigating Hallucinations in Large Language Models: A Survey. arXiv :2401.12345.
- Vinatier, I. (2021). Former à une lecture critique des documents numériques. Canopé.
Annexe1/ sitemap.json
{
name: "Sites Académiques EPS",
checked: true,
sites: [
{ name: 'Paris - EPS', url: 'http://eps.ac-paris.fr', checked: true },
{ name: 'Versailles - EPS', url: 'https://eps.ac-versailles.fr', checked: true },
{ name: 'Créteil - EPS', url: 'http://eps.ac-creteil.fr', checked: true },
{ name: 'Toulouse - EPS', url: 'http://pedagogie.ac-toulouse.fr/eps', checked: true },
{ name: 'Lyon - EPS', url: 'http://eps.ac-lyon.fr', checked: true },
{ name: 'Montpellier - EPS', url: 'http://eps.ac-montpellier.fr', checked: true },
{ name: 'Nice - EPS', url: 'http://www.ac-nice.fr/eps', checked: true },
{ name: 'Grenoble - EPS', url: 'https://eps-grenoble.fr', checked: true },
{ name: 'Nantes - EPS', url: 'http://www.pedagogie.ac-nantes.fr/education-physique-et-sportive', checked: true },
{ name: 'Rennes - EPS', url: 'http://eps.ac-rennes.fr', checked: true },
{ name: 'Lille - EPS', url: 'http://eps.ac-lille.fr', checked: true },
{ name: 'Strasbourg - EPS', url: 'http://eps.ac-strasbourg.fr', checked: true },
{ name: 'Bordeaux - EPS', url: 'http://eps.ac-bordeaux.fr', checked: true },
{ name: 'Dijon - EPS', url: 'http://eps.ac-dijon.fr', checked: true },
{ name: 'Limoges - EPS', url: 'http://eps.ac-limoges.fr', checked: true },
{ name: 'Poitiers - EPS', url: 'http://ww2.ac-poitiers.fr/eps', checked: true },
{ name: 'Rouen - EPS', url: 'http://eps.spip.ac-rouen.fr', checked: true },
{ name: 'Orléans-Tours - EPS', url: 'http://eps.tice.ac-orleans-tours.fr/php5', checked: true },
{ name: 'Reims - EPS', url: 'http://eps-reims.fr', checked: true },
{ name: 'Besançon - EPS', url: 'http://eps.ac-besancon.fr', checked: true },
{ name: 'Clermont-Ferrand - EPS', url: 'http://eps.ac-clermont.fr', checked: true },
{ name: 'Nancy-Metz - EPS', url: 'http://eps.ac-nancy-metz.fr', checked: true },
{ name: 'Amiens - EPS', url: 'http://eps.ac-amiens.fr', checked: true },
{ name: 'Corse - EPS', url: 'http://eps.ac-corse.fr', checked: true },
{ name: 'Normandie - EPS', url: 'http://eps.ac-normandie.fr', checked: true },
{ name: 'Martinique - EPS', url: 'http://eps.ac-martinique.fr', checked: true },
{ name: 'Guadeloupe - EPS', url: 'http://eps.ac-guadeloupe.fr', checked: true },
{ name: 'Guyane - EPS', url: 'http://eps.ac-guyane.fr', checked: true },
{ name: 'La Réunion - EPS', url: 'http://eps.ac-reunion.fr', checked: true },
{ name: 'Mayotte - EPS', url: 'http://eps.ac-mayotte.fr', checked: true },
]
},
{
name: "Académies",
checked: true,
sites: [
{ name: 'drane.ac-*.fr', url: 'site.drane.ac-*.fr', checked: true },
{ name: 'ac-toulouse.fr', url: 'ac-toulouse.fr', checked: true },
{ name: 'ac-montpellier.fr', url: 'ac-montpellier.fr', checked: true },
{ name: 'ac-Lyon.fr', url: 'ac-Lyon.fr', checked: true },
{ name: 'ac-nice.fr', url: 'ac-nice.fr', checked: true },
{ name: 'ac-aix-marseille.fr', url: 'ac-aix-marseille.fr', checked: true },
{ name: 'ac-corse.fr', url: 'ac-corse.fr', checked: true },
{ name: 'ac-bordeaux.fr', url: 'ac-bordeaux.fr', checked: true },
{ name: 'ac-limoges.fr', url: 'ac-limoges.fr', checked: true },
{ name: 'ac-clermont-ferrand.fr', url: 'ac-clermont-ferrand.fr', checked: true },
{ name: 'ac-poitiers.fr', url: 'ac-poitiers.fr', checked: true },
{ name: 'ac-grenoble.fr', url: 'ac-grenoble.fr', checked: true },
{ name: 'ac-besançon.fr', url: 'ac-besançon.fr', checked: true },
{ name: 'ac-dijon.fr', url: 'ac-dijon.fr', checked: true },
{ name: 'ac-orleans-tours.fr', url: 'ac-orleans-tours.fr', checked: true },
{ name: 'ac-nantes.fr', url: 'ac-nantes.fr', checked: true },
{ name: 'ac-rennes.fr', url: 'ac-rennes.fr', checked: true },
{ name: 'ac-versailles.fr', url: 'ac-versailles.fr', checked: true },
{ name: 'ac-paris.fr', url: 'ac-paris.fr', checked: true },
{ name: 'ac-creteil.fr', url: 'ac-creteil.fr', checked: true },
{ name: 'ac-reims.fr', url: 'ac-reims.fr', checked: true },
{ name: 'ac-nancy-metz.fr', url: 'ac-nancy-metz.fr', checked: true },
{ name: 'ac-strasbourg.fr', url: 'ac-strasbourg.fr', checked: true },
{ name: 'ac-amiens.fr', url: 'ac-amiens.fr', checked: true },
{ name: 'ac-lille.fr', url: 'ac-lille.fr', checked: true },
{ name: 'ac-normandie.fr', url: 'ac-normandie.fr', checked: true },
{ name: 'ac-guadeloupe.fr', url: 'ac-guadeloupe.fr', checked: true },
{ name: 'ac-reunion.fr', url: 'ac-reunion.fr', checked: true },
{ name: 'ac-guyane.fr', url: 'ac-guyane.fr', checked: true },
{ name: 'ac-martinique.fr', url: 'ac-martinique.fr', checked: true },
{ name: 'ac-mayotte.fr', url: 'ac-mayotte.fr', checked: true },
]
},
{
name: "Sites Institutionnels",
checked: true,
sites: [
{ name: 'education.gouv.fr', url: 'https://www.education.gouv.fr/', checked: true },
{ name: 'IH2EF', url: 'https://www.ih2ef.gouv.fr/', checked: true },
{ name: 'ife.ens-lyon.fr', url: 'https://ife.ens-lyon.fr/presentation/linstitut-francais-de-leducation', checked: true },
{ name: 'cnesco.fr', url: 'https://www.cnesco.fr/', checked: true },
]
},
{
name: "Ressources Pédagogiques",
checked: true,
sites: [
{ name: 'Canopé', url: 'https://www.reseau-canope.fr/', checked: true },
{ name: 'Eduscol Education', url: 'https://eduscol.education.fr/', checked: true },
{ name: 'Primabord', url: 'https://primabord.eduscol.education.fr/', checked: true },
{ name: 'Eduscol Edubase', url: 'https://edubase.eduscol.education.fr/', checked: true },
{ name: 'magistere.education.fr', url: 'https://magistere.education.fr/', checked: true },
{ name: 'cap-ecole-inclusive', url: 'https://www.reseau-canope.fr/cap-ecole-inclusive.html', checked: true },
{ name: 'canotech.fr', url: 'https://canotech.fr', checked: true },
]
},
{
name: "Ressources scientifiques",
checked: true,
sites: [
{ name: 'Cairn', url: 'https://www.cairn.info/', checked: true },
{ name: 'HAL', url: 'https://hal.science/', checked: true },
{ name: 'Gallica BNF', url: 'https://gallica.bnf.fr/accueil/fr/content/accueil-fr?mode=desktop', checked: true },
]
}
Jérôme SACARD CC BY-NC-ND