Cairn SophIA, l’IA au service de la lecture

Une approche opposée à celle des IA généralistes

Un R.A.G. (pour Retrieval Augmented Generation) consiste à alimenter un grand modèle de langage (LLM) à partir d’une extraction de contenus issue d’une base de données prédéfinie, de façon à restreindre les réponses au corpus concerné, et gagner ainsi en sécurité et en pertinence.

  • Le RAG (Retrieval-Augmented Generation) associe deux fonctions : la recherche d’informations dans un corpus fiable et la génération de texte. L’IA commence par interroger une base de données ou une bibliothèque de contenus, puis formule une réponse claire et contextualisée. Cette approche garantit des réponses sourcées, précises et plus fiables que celles produites par un modèle « pur ».

Dans le cas de SophIA, l’utilisation de cette technologie repose sur un parti pris original à plusieurs titres :

  • le choix de ne pas proposer une réponse générée par IA, mais d’exposer directement les passages des publications répondant aux questions posées ;
  • la mise en avant de la diversité des points de vue des auteurs sur le thème concerné, plutôt que leur dilution
    dans une synthèse réductrice, afin d’inciter le lecteur à faire lui‑même sa propre synthèse ;
  • la combinaison d’une recherche en langage naturel et l’usage de filtres plus traditionnels, afin de laisser la main à l’utilisateur.

SophIA facilite la lecture des œuvres originales plutôt que d’en détourner l’internaute : le taux observé de consultations des articles à partir d’une question posée à SophIA dépasse 60 % ce qui est trois fois supérieur à celui d’une recherche classique.

Une ouverture progressive à tous les abonnés

Fin 2026, SophIA a été ouvert aux abonnés à l’offre Cairn Pro. Depuis, le service a été étendu à l’ensemble des disciplines de connaissances couvertes par Cairn.info et ouvert à tous les internautes membres d’institutions clientes.

Sans surcoût tarifaire, les plus de 2 000 universités et organismes abonnés à l’offre de Cairn.info disposent donc désormais de ce nouveau service.

Souveraineté et sobriété, agilité

Afin de ne jamais devoir transmettre les contenus des ayants droit aux « big tech », Isako (pôle technologie/R&D de Cairn.info) a constitué une architecture souveraine, opérée et hébergée avec l’aide de deux partenaires de confiance : Kairntech et Octopuce.

Au sein de cette architecture, les LLM ne jouent qu’un rôle réduit : de petits modèles de langage spécialisés et des solutions algorithmiques « classiques » sont mises à contribution afin d’économiser au maximum les ressources en processeurs et en électricité. Cette sobriété by design permet à Cairn.info d’offrir ce service à l’ensemble de ses abonnés

Soutien et partenaires

Logo CNL
Logo Kairntech
Logo Octopuce
Logo Isako

Une infrastructure souveraine

Dans un contexte d’évolution constante des technologies et des usages en matière d’IA, Cairn.info a choisi de se doter d’une architecture matérielle et logicielle autonome et modulaire, entièrement hébergée localement. Le but : pouvoir travailler sur les LLMs les plus récents, tout en préservant les publications qui lui sont confiées de tout risque de prédation externe.

Cette architecture consiste d’une part en un réseau dédié de serveurs et cartes GPU, et d’autre part en une suite d’outils logiciels permettant de tester et déployer une grande variété de modèles de langage open source, petits et grands.

L’IA au service de l’accessibilité

Au même titre que ses partenaires éditeurs, Cairn.info est concerné par la Loi sur l’accessibilité numérique issue du EAA (European Accessibility Act).

Le portail Cairn.info a été audité en ce sens, et des ont été appliqués à la rentrée universitaire 2025 pour garantir une conformité du site aux recommandations du RGAA (Référentiel Général d’Amélioration de l’Accessibilité). Pour ce qui concerne l’accessibilité des publications, des textes alternatifs aux images sont d’ores et déjà générés pour toute nouvelle publication mise en ligne. Un pipeline distingue automatiquement les types d’images et choisit pour chacune d’entre elles le modèle de langage ou l’outil algorithmique optimal pour générer une version textuelle alternative.

RGAA
  • Référentiel général d’amélioration de l’accessibilité (RGAA)
    Cadre réglementaire français définissant les critères techniques pour rendre un site web accessible aux personnes en situation de handicap. Il repose sur les WCAG tout en les adaptant au contexte français. Obligation légale pour les sites publics en France.
    https://accessibilite.numerique.gouv.fr

Règles déontologiques

Ces projets sont menés en respectant les règles que Cairn.info s’est données pour son utilisation de l’intelligence artificielle :

  • Ne pas transmettre les contenus de ses partenaires aux LLM exploités par les grands acteurs de l’IA
  • Protéger ces contenus technologiquement (Datadome) et juridiquement (TDMRep).
  • Utiliser l’IA générative pour faciliter l’accès au corpus scientifique plutôt que comme alternative à la lecture des textes originaux.
  • Associer ses partenaires (auteurs, éditeurs, bibliothécaires) à la mise en œuvre des projets d’IA, dans une approche transparente et collaborative.
  • Privilégier la sobriété numérique en choisissant pour chaque problème le plus petit modèle de langage en mesure de le résoudre.

Pages associées