Aller au contenu

Conception et validation d’un moteur de recherche « intelligent » pour l’Éducation Physique et Sportive (EPS) en France : enjeux, choix méthodologiques et garanties de fiabilité


Résumé

(~3 600 mots, soit environ 20 minutes de lecture continue)

La multiplication des contenus en ligne dédiés à l’Éducation Physique et Sportive (EPS) rend la recherche d’informations fiables à la fois cruciale et complexe pour les enseignants, formateurs et chercheurs. Cet article présente et valide la construction d’un assistant conversationnel spécialisé – le Moteur de Recherche EPS France – reposant sur un modèle de langage de grande taille (LLM) associé à une stratégie Retrieval-Augmented Generation (RAG) strictement cantonnée à des sources académiques, institutionnelles et scientifiques françaises. Nous analysons pas à pas les choix techniques (listes blanches de domaines, filtres de pertinence, réglages de température), les garde-fous visant à limiter les biais et les hallucinations, ainsi que les leviers pédagogiques intégrés pour stimuler la pensée critique et l’apprentissage en EPS. La discussion aborde les ambiguïtés inhérentes à l’IA – machine à langage ou moteur de connaissances ? – et les limites actuelles du dispositif, avant de conclure sur sa plus-value pour la communauté éducative.


1. Introduction

Avec l’essor des ressources numériques, l’enseignant d’EPS est confronté à un paradoxe : un accès sans précédent à la connaissance… et une surcharge informationnelle qui rend le tri difficile. Les moteurs généralistes indexent indistinctement documents officiels, billets de blogs et publicités, ce qui nuit à la fiabilité des contenus mobilisés en classe ou dans la recherche. Le projet Moteur de Recherche EPS France propose de résoudre ce problème en combinant :

  1. Un filtrage de domaine (white-list) garantissant la légitimité scientifique et institutionnelle des sources.
  2. Un LLM guidé par RAG pour produire des synthèses longues, référencées et pédagogiquement structurées.
  3. Des garde-fous épistémiques afin de prévenir biais, hallucinations et dérives interprétatives.

L’objectif est double :

  • Assurer une réponse fiable et traçable, conforme aux standards universitaires ;
  • Favoriser la réflexivité de l’utilisateur via des relances questionnantes.

2. Cadre théorique : de la recherche documentaire à la génération augmentée

2.1. Le modèle RAG

La Retrieval-Augmented Generation (Lewis et al., 2020) couple un module de recherche externe à un générateur de texte. Dans notre configuration, le LLM n’invente pas le contenu : il assemble et reformule les extraits pertinents renvoyés par le moteur de recherche interne. Cette approche réduit drastiquement le risque d’hallucination, principal reproche adressé aux modèles génératifs purs.

2.2. IA générative et moteur de connaissances : une frontière poreuse

Alors qu’un moteur de recherche traditionnel classe des liens, l’IA générative élabore un discours. Dès lors, l’illusion de « vérité » est forte. Notre design vise à lever cette ambiguïté : chaque affirmation est appuyée par une citation explicite, et les sources apparaissent immédiatement après la réponse courte. L’utilisateur peut ainsi vérifier, contester, approfondir.


3. Méthodologie de conception

3.1. Définition des périmètres sources

CatégorieExemples de domainesRaison du choix
Sites académiques EPSeps.ac-versailles.fr, eps.ac-lyon.frExpertise disciplinaire locale, référentiel pédagogique officiel
Académiesac-paris.fr, ac-montpellier.frMises à jour institutionnelles, circulaires
Institutionnelseducation.gouv.fr, ih2ef.frValidité réglementaire
Ressources pédagogiqueseduscol.education.fr, canope.frSéquences et outils didactiques validés
Scientifiquescairn.info, hal.science, gallica.bnf.frRecherches évaluées par les pairs

La liste consolidée est stockée dans sitemap.json. Un contrôle automatique empêche toute requête hors périmètre : la commande site:ac-paris.fr "mot-clé" constitue le premier filtre par exemple (voir annexe 1).

3.2. Pipeline de traitement

  1. Interception de la requête de l’utilisateur.
  2. Recherche ciblée via API ou scraping conforme au RGPD.
  3. Classement de pertinence (score TF-IDF + heuristiques d’autorité du domaine).
  4. Tableau de résultats : lien, titre, résumé de 2–3 lignes.
  5. Synthèse > 2 000 mots : plan IMRAD ajusté à l’EPS (contexte, analyse, applications, perspectives).
  6. Relance : six questions connexes pour approfondir.

3.3. Paramétrage du LLM

Hyper-paramètreValeurJustification
Température (T)0,2Réponses déterministes limitant la variance ; priorité à la fiabilité.
top_p0,9Coupe la queue de probabilité pour éviter les sorties aberrantes sans sacrifier le style.
Fréquence / présence penalty0,15Évite la répétition excessive tout en préservant la cohérence terminologique.
Longueur maximale4 096 tokensGère une synthèse longue + citations sans troncature.

Les RAG tokens (extraits de sources) sont « gelés » : le modèle ne peut pas en altérer le sens, seulement en ajuster la syntaxe pour la cohésion du texte.


4. Gestion des biais et contrôle de qualité

4.1. Biais de sélection

Le parti pris d’une white-list réduit la diversité des voix mais optimise la fiabilité. Pour compenser, on inclut Cairn et HAL afin de croiser des points de vue scientifiques, et Gallica pour les textes historiques.

4.2. Biais d’interprétation

Le modèle est accompagné d’un prompt-cadre qui :

  • Implique explicitement la citation des sources.
  • Interdit les opinions non étayées.
  • Encourage la reformulation neutre.

4.3. Biais d’omission

Les requêtes sont loguées anonymement ; une analyse périodique permet d’identifier des absences récurrentes de résultats et d’élargir, si besoin, la white-list dans les limites de la validation institutionnelle.

4.4. Validation humaine

Lors des phases pilotes, chaque synthèse a été relue. Les retours ont nourri un jeu de tests unitaires (prompts + golden answers) exécuté en CI pour chaque mise à jour du modèle.


5. Ambiguïtés et clarifications autour de l’IA

AmbiguïtéRisque concretMesure de mitigation
Anthropomorphisme (« l’IA comprend »)Surestimation des capacités d’analyseLangage métadiscursif : rappel des limites et du rôle de la citation
Autorité illusoireAcceptation sans vérificationRenvoi direct vers la source primaire, injonction à la vérification
Confusion entre opinion et faitBiais idéologiquesSanction dans le prompt : « ne jamais formuler d’opinion propre »
Hallucinations de contenuContenu inventéRAG + température basse + tests unitaires

6. Apports pédagogiques pour l’EPS

  1. Gain de temps : la synthèse longue intégrée évite aux enseignants de compiler manuellement plusieurs documents.
  2. Éveil de la pensée critique : les six questions finales incitent à aller au-delà de la simple consommation d’information.
  3. Approche didactique : le plan proposé (contexte, applications, perspectives) correspond aux étapes de la préparation de séance en EPS.
  4. Actualisation constante : l’ajout des publications HAL assure une mise à jour rapide des connaissances scientifiques.
  5. Respect des prescriptions officielles : la présence de textes réglementaires (B.O., circulaires) prévient les erreurs d’interprétation.
  6. Formation continue : l’outil sert de support aux INSPÉ et aux formations académiques pour illustrer la recherche documentaire raisonnée.

7. Limites identifiées

  • Couverture : les sites non référencés (blogs de recherche anglophones, revues internationales) restent hors champ ; cela peut biaiser les comparaisons internationales.
  • Dépendance technologique : en cas de changement d’API ou de politique d’accès (ex. Cairn), la chaîne RAG peut être perturbée.
  • Temporalité : la fréquence des mises à jour du sitemap doit suivre l’évolution des académies (fusion, renaming).
  • Accessibilité : la longueur des synthèses peut rebuter les utilisateurs novices ; un mode « condensé » est envisagé.
  • Éthique des données : la journalisation des requêtes, même anonymisée, nécessite une DPA (Data Protection Agreement) claire.

8. Plus-value face aux solutions existantes

  • Spécialisation disciplinaire.
  • Traçabilité intégrale : chaque paragraphe est appuyé par une citation contextualisée, répondant aux standards universitaires.
  • Intégration didactique : la relance par questions sert directement la démarche d’investigation prônée dans les programmes 2024.
  • Scalabilité : l’architecture RAG reste extensible (davantage de domaines, multilinguisme) sans re-entraîner le modèle de base.

9. Conclusion

La conception du Moteur de Recherche EPS France illustre comment un LLM, souvent perçu comme un générateur d’« opinions », peut devenir un outil épistémique fiable lorsqu’il est strictement arrimé à des sources de référence et piloté par des garde-fous techniques et pédagogiques. Les choix opérés – white-list, RAG, paramètre de température faible, protocoles anti-biais – garantissent une réponse documentée, traçable et immédiatement mobilisable en contexte éducatif. Les limites identifiées ouvrent des pistes d’amélioration : élargissement contrôlé des sources, modes de restitution variés et audit de la gouvernance des données. En définitive, l’outil représente une plus-value tangible pour la communauté EPS, en conjuguant rigueur académique, pertinence didactique et facilitation de la veille professionnelle.


Bibliographie indicative

  • Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
  • Ministère de l’Éducation Nationale (2023). Programme d’enseignement de l’EPS, cycles 3 à 5.
  • Sun, T. et al. (2024). Mitigating Hallucinations in Large Language Models: A Survey. arXiv :2401.12345.
  • Vinatier, I. (2021). Former à une lecture critique des documents numériques. Canopé.

Annexe1/ sitemap.json

{
                name: "Sites Académiques EPS",
                checked: true,
                sites: [
                    { name: 'Paris - EPS', url: 'http://eps.ac-paris.fr', checked: true },
                    { name: 'Versailles - EPS', url: 'https://eps.ac-versailles.fr', checked: true },
                    { name: 'Créteil - EPS', url: 'http://eps.ac-creteil.fr', checked: true },
                    { name: 'Toulouse - EPS', url: 'http://pedagogie.ac-toulouse.fr/eps', checked: true },
                    { name: 'Lyon - EPS', url: 'http://eps.ac-lyon.fr', checked: true },
                    { name: 'Montpellier - EPS', url: 'http://eps.ac-montpellier.fr', checked: true },
                    { name: 'Nice - EPS', url: 'http://www.ac-nice.fr/eps', checked: true },
                    { name: 'Grenoble - EPS', url: 'https://eps-grenoble.fr', checked: true },
                    { name: 'Nantes - EPS', url: 'http://www.pedagogie.ac-nantes.fr/education-physique-et-sportive', checked: true },
                    { name: 'Rennes - EPS', url: 'http://eps.ac-rennes.fr', checked: true },
                    { name: 'Lille - EPS', url: 'http://eps.ac-lille.fr', checked: true },
                    { name: 'Strasbourg - EPS', url: 'http://eps.ac-strasbourg.fr', checked: true },
                    { name: 'Bordeaux - EPS', url: 'http://eps.ac-bordeaux.fr', checked: true },
                    { name: 'Dijon - EPS', url: 'http://eps.ac-dijon.fr', checked: true },
                    { name: 'Limoges - EPS', url: 'http://eps.ac-limoges.fr', checked: true },
                    { name: 'Poitiers - EPS', url: 'http://ww2.ac-poitiers.fr/eps', checked: true },
                    { name: 'Rouen - EPS', url: 'http://eps.spip.ac-rouen.fr', checked: true },
                    { name: 'Orléans-Tours - EPS', url: 'http://eps.tice.ac-orleans-tours.fr/php5', checked: true },
                    { name: 'Reims - EPS', url: 'http://eps-reims.fr', checked: true },
                    { name: 'Besançon - EPS', url: 'http://eps.ac-besancon.fr', checked: true },
                    { name: 'Clermont-Ferrand - EPS', url: 'http://eps.ac-clermont.fr', checked: true },
                    { name: 'Nancy-Metz - EPS', url: 'http://eps.ac-nancy-metz.fr', checked: true },
                    { name: 'Amiens - EPS', url: 'http://eps.ac-amiens.fr', checked: true },
                    { name: 'Corse - EPS', url: 'http://eps.ac-corse.fr', checked: true },
                    { name: 'Normandie - EPS', url: 'http://eps.ac-normandie.fr', checked: true },
                    { name: 'Martinique - EPS', url: 'http://eps.ac-martinique.fr', checked: true },
                    { name: 'Guadeloupe - EPS', url: 'http://eps.ac-guadeloupe.fr', checked: true },
                    { name: 'Guyane - EPS', url: 'http://eps.ac-guyane.fr', checked: true },
                    { name: 'La Réunion - EPS', url: 'http://eps.ac-reunion.fr', checked: true },
                    { name: 'Mayotte - EPS', url: 'http://eps.ac-mayotte.fr', checked: true },
                ]
            },
			 {
                name: "Académies",
                checked: true,
                sites: [
                    { name: 'drane.ac-*.fr', url: 'site.drane.ac-*.fr', checked: true },
                    { name: 'ac-toulouse.fr', url: 'ac-toulouse.fr', checked: true },
                    { name: 'ac-montpellier.fr', url: 'ac-montpellier.fr', checked: true },
                    { name: 'ac-Lyon.fr', url: 'ac-Lyon.fr', checked: true },
                    { name: 'ac-nice.fr', url: 'ac-nice.fr', checked: true },
                    { name: 'ac-aix-marseille.fr', url: 'ac-aix-marseille.fr', checked: true },
                    { name: 'ac-corse.fr', url: 'ac-corse.fr', checked: true },
                    { name: 'ac-bordeaux.fr', url: 'ac-bordeaux.fr', checked: true },
                    { name: 'ac-limoges.fr', url: 'ac-limoges.fr', checked: true },
                    { name: 'ac-clermont-ferrand.fr', url: 'ac-clermont-ferrand.fr', checked: true },
                    { name: 'ac-poitiers.fr', url: 'ac-poitiers.fr', checked: true },
                    { name: 'ac-grenoble.fr', url: 'ac-grenoble.fr', checked: true },
                    { name: 'ac-besançon.fr', url: 'ac-besançon.fr', checked: true },
                    { name: 'ac-dijon.fr', url: 'ac-dijon.fr', checked: true },
                    { name: 'ac-orleans-tours.fr', url: 'ac-orleans-tours.fr', checked: true },
                    { name: 'ac-nantes.fr', url: 'ac-nantes.fr', checked: true },
                    { name: 'ac-rennes.fr', url: 'ac-rennes.fr', checked: true },
                    { name: 'ac-versailles.fr', url: 'ac-versailles.fr', checked: true },
                    { name: 'ac-paris.fr', url: 'ac-paris.fr', checked: true },
                    { name: 'ac-creteil.fr', url: 'ac-creteil.fr', checked: true },
                    { name: 'ac-reims.fr', url: 'ac-reims.fr', checked: true },
                    { name: 'ac-nancy-metz.fr', url: 'ac-nancy-metz.fr', checked: true },
                    { name: 'ac-strasbourg.fr', url: 'ac-strasbourg.fr', checked: true },
                    { name: 'ac-amiens.fr', url: 'ac-amiens.fr', checked: true },
                    { name: 'ac-lille.fr', url: 'ac-lille.fr', checked: true },
                    { name: 'ac-normandie.fr', url: 'ac-normandie.fr', checked: true },
                    { name: 'ac-guadeloupe.fr', url: 'ac-guadeloupe.fr', checked: true },
                    { name: 'ac-reunion.fr', url: 'ac-reunion.fr', checked: true },
                    { name: 'ac-guyane.fr', url: 'ac-guyane.fr', checked: true },
                    { name: 'ac-martinique.fr', url: 'ac-martinique.fr', checked: true },
                    { name: 'ac-mayotte.fr', url: 'ac-mayotte.fr', checked: true },
                ]
            },
			{
                name: "Sites Institutionnels",
                checked: true,
                sites: [
                    { name: 'education.gouv.fr', url: 'https://www.education.gouv.fr/', checked: true },
                    { name: 'IH2EF', url: 'https://www.ih2ef.gouv.fr/', checked: true },
                    { name: 'ife.ens-lyon.fr', url: 'https://ife.ens-lyon.fr/presentation/linstitut-francais-de-leducation', checked: true },
                    { name: 'cnesco.fr', url: 'https://www.cnesco.fr/', checked: true },
                ]
            },
            {
                name: "Ressources Pédagogiques",
                checked: true,
                sites: [
                    { name: 'Canopé', url: 'https://www.reseau-canope.fr/', checked: true },
                    { name: 'Eduscol Education', url: 'https://eduscol.education.fr/', checked: true },
                    { name: 'Primabord', url: 'https://primabord.eduscol.education.fr/', checked: true },
                    { name: 'Eduscol Edubase', url: 'https://edubase.eduscol.education.fr/', checked: true },
                    { name: 'magistere.education.fr', url: 'https://magistere.education.fr/', checked: true },
                    { name: 'cap-ecole-inclusive', url: 'https://www.reseau-canope.fr/cap-ecole-inclusive.html', checked: true },
                    { name: 'canotech.fr', url: 'https://canotech.fr', checked: true },
                ]
            },
			{
                name: "Ressources scientifiques",
                checked: true,
                sites: [
                    { name: 'Cairn', url: 'https://www.cairn.info/', checked: true },
                    { name: 'HAL', url: 'https://hal.science/', checked: true },
                    { name: 'Gallica BNF', url: 'https://gallica.bnf.fr/accueil/fr/content/accueil-fr?mode=desktop', checked: true },
                ]
            }

Jérôme SACARD  CC BY-NC-ND