Grands modèles de langage

Les modèles de langage sont des modèles statistiques de séquences de mots, de lettres, de phonèmes (etc.) dans une langue naturelle (parlée par les humains). Ces modèles utilisent les lois de probabilités pour prédire un mot ou une suite selon l'entrée donnée. Pour les plus modernes, utilisant des systèmes d'IA, leurs applications étaient le plus souvent spécialisées avec un entraînement supervisé. Cependant, ils ont été très vite supplantés par les grands modèles de langage (Large Language Models, LLM) apparus à la fin des années 2010.

Ces LLM sont des modèles d'IA entraînés sur de vastes ensembles de données et bénéficient d'un très grand nombre de paramètres. La combinaison entre la quantité et la qualité des données et le nombre de paramètres détermine la qualité de la prédiction. Les données d'entraînement sont généralement de vastes corpus de textes provenant de sources variées et le plus souvent disponibles sur Internet : encyclopédies, réseaux sociaux, livres, journaux, etc.

Les applications de ces LLM, par le biais d'agents conversationnels (chatbots), incluent la génération de texte, l'aide à l'écriture, la traduction de textes, et la fourniture de réponses à diverses questions… Les limites et problèmes de ces modèles ont été très vite identifiées, comme le montre Olivier Ertzscheid : affirmations fausses, indistinction entre les faits et leurs probabilité, corruption de nos démarches cognitives…