Une IA lit des milliers de papers scientifiques et prédit les prochains sujets de recherche

Le problème de départ est simple et massif : le volume de publications scientifiques croît plus vite que la capacité humaine à les lire, même dans un domaine de spécialité étroit. Un chercheur en science des matériaux ne peut plus prétendre suivre l’ensemble de sa littérature. Des pans entiers de la production académique passent inaperçus, et avec eux, des connexions potentiellement fécondes entre des sous-domaines qui ne se parlent pas encore.

C’est à ce problème que s’attaque une équipe du Karlsruhe Institute of Technology (KIT), dont les travaux viennent d’être publiés dans Nature Machine Intelligence.

Comment ça fonctionne

L’approche combine deux types de modèles. Un LLM analyse d’abord des milliers de résumés d’articles en science des matériaux pour en extraire les concepts clés et construire ce que les chercheurs appellent un concept graph : un réseau où chaque terme technique forme un noeud, et où des liens se tracent entre deux termes quand ils apparaissent fréquemment dans les mêmes publications.

Un second modèle de machine learning prend ensuite ce graph en entrée et analyse l’évolution de ces liens sur plusieurs années pour identifier des tendances : quelles combinaisons de concepts sont en train de se rapprocher, et lesquelles pourraient devenir significatives dans les deux à trois prochaines années.

L’exemple donné par Thomas Marwitz, auteur principal de l’étude, est concret : si le LLM observe que les termes “pérovskite” et “cellule solaire” sont cités de plus en plus souvent ensemble, un nouveau lien est tracé dans le graph. Le modèle ML détecte alors cette trajectoire et la projette. À l’inverse, une diminution progressive des co-occurrences entre deux termes peut signaler qu’un sujet perd de sa pertinence dans la communauté.

Les suggestions générées ont ensuite été soumises à des experts du domaine. Une partie d’entre elles ont été jugées innovantes et prometteuses, ce qui constitue, dans le cadre d’une étude de ce type, une validation non triviale.

Ce que ça implique

Le positionnement des chercheurs est délibérément modeste. Pascal Friederich, professeur à l’Institut de Nanotechnologie du KIT et responsable de l’étude, est explicite : ce n’est pas une machine à inventions, c’est un outil d’analyse pour soutenir la créativité scientifique. Il aide à identifier des pistes que des chercheurs humains auraient pu manquer faute de temps ou de recul interdisciplinaire.

Mais la portée réelle dépasse largement la science des matériaux. La méthode est en principe transposable à n’importe quel champ disposant d’un corpus de littérature suffisamment dense. En biologie, en chimie, en physique, en sciences cognitives, partout où des disciplines voisines accumulent des publications sans nécessairement se croiser, le même type d’outil pourrait cartographier les zones de tension intellectuelle avant qu’elles ne deviennent visibles aux acteurs du terrain.

Pour la R&D industrielle, l’implication est directe : un tel système peut fonctionner comme un signal d’alerte avancé sur les directions que prend la recherche académique, avec une fenêtre de deux à trois ans pour anticiper. Pour les organismes de financement de la recherche, il ouvre la possibilité d’identifier des niches sous-investies mais en émergence.

La limite non résolue

La vraie limite concerne la validation rétroactive : dans quelle mesure les prédictions faites aujourd’hui se seront-elles avérées justes dans trois ans ? L’étude montre que des experts trouvent les suggestions plausibles, ce n’est pas encore une démonstration de précision prédictive mesurable dans le temps. C’est la prochaine étape.

Source : Marwitz, T. et al., “Predicting new research directions in materials science using large language models and concept graphs”, Nature Machine Intelligence, 2026. DOI : 10.1038/s42256-026-01206-y

Comment ça fonctionne

Ce que ça implique

La limite non résolue

Une question ? Un projet ?