Publié le 12 mars 2026 · 7 min de lecture

La linguistique computationnelle au service du Wordle : comment les algorithmes choisissent les mots

Derrière chaque partie de Wordle se cache un travail algorithmique fascinant. Comment décider quels mots proposer parmi les dizaines de milliers que compte la langue française ? Comment éviter les mots trop obscurs ou trop évidents ? La réponse se trouve à l’intersection de la linguistique computationnelle et de la théorie de l’information, deux disciplines qui transforment le langage humain en données exploitables par les machines.

🎮 Jouer au Wordle

La fréquence d’usage : le premier filtre

Le point de départ de toute sélection algorithmique de mots est le corpus linguistique. Un corpus est une collection massive de textes - articles de presse, romans, sous-titres de films, pages web - analysée statistiquement pour déterminer la fréquence d’apparition de chaque mot. En français, des corpus comme Lexique 3 ou le corpus de sous-titres OpenSubtitles permettent de classer les mots par fréquence d’usage réel.

Pour le Wordle, cette fréquence est capitale. Un mot comme CRANE, utilisé quotidiennement, constitue un excellent candidat. En revanche, un mot comme ZYMOL, bien que valide, serait injouable pour la majorité des joueurs. L’algorithme fixe donc un seuil de fréquence minimale : seuls les mots dépassant ce seuil intègrent la liste des solutions potentielles. Ce même principe de fréquence s’applique aux lettres elles-mêmes, comme l’explique notre guide de la fréquence des lettres en français.

La diversité des lettres : un critère d’équilibre

Un bon mot de Wordle doit être devinable, ce qui implique que ses lettres offrent des indices exploitables. L’algorithme évalue la diversité graphémique de chaque mot : un mot avec cinq lettres différentes (comme PLAGE) est préférable à un mot avec des répétitions (comme MAMAN), car il génère davantage d’informations à chaque essai du joueur.

Cette diversité est mesurée mathématiquement. On calcule le nombre de lettres uniques, la présence de voyelles et de consonnes fréquentes, et la couverture de l’alphabet. Un mot idéal contient deux à trois voyelles et deux à trois consonnes courantes, offrant au joueur un maximum de pistes dès son premier essai.

Éliminer les mots trop rares ou trop faciles

L’algorithme applique ensuite une double filtration. D’un côté, il écarte les mots trop rares : termes techniques, régionalismes, archéismes ou emprunts non assimilés. De l’autre, il évite les mots trop évidents qui rendraient le jeu trivial.

Cette filtration repose sur plusieurs indicateurs :

L’indice de familiarité : noté de 1 à 7, il mesure à quel point un locuteur natif reconnaît un mot. Seuls les mots au-dessus d’un certain seuil sont retenus.
Le nombre de sens : un mot polysmique comme MARCHE (action de marcher, escalier, commerce) est généralement mieux connu qu’un mot monosmique spécialisé.
L’âge d’acquisition : les psycholinguistes estiment l’âge moyen auquel un mot est appris. Le Wordle privilégie les mots acquis avant 10-12 ans.

La théorie de l’information : mesurer la valeur d’un indice

C’est ici que la linguistique computationnelle rejoint les mathématiques pures. La théorie de l’information, fondée par Claude Shannon en 1948, fournit un cadre rigoureux pour quantifier la valeur d’un indice. Dans le contexte du Wordle, chaque essai produit un motif de couleurs (vert, jaune, gris) qui réduit l’espace des solutions possibles.

L’algorithme calcule, pour chaque mot candidat, la réduction moyenne de l’incertitude qu’il provoque. Un mot qui divise l’espace des solutions en groupes de taille égale est plus informatif qu’un mot qui laisse un gros groupe intact. Cette mesure porte un nom précis : l’entropie.

L’entropie : la clé mathématique du Wordle

L’entropie, exprimée en bits, mesure la quantité d’information contenue dans un événement. Au Wordle, l’entropie d’un mot de départ correspond à la quantité moyenne d’information que son motif de couleurs révèle. Formellement, si un mot peut produire n motifs différents avec des probabilités p₁, p₂, ..., pₙ, son entropie est :

H = −∑ p×log₂(p)

Un mot avec une entropie élevée élimine en moyenne plus de candidats à chaque essai. Les analyses montrent que les meilleurs mots de départ en français atteignent une entropie d’environ 5,5 à 6 bits, ce qui signifie qu’ils réduisent l’espace des solutions par un facteur de 45 à 64 en un seul coup.

🎮 Jouer au Wordle

Le mot de départ optimal : mythe ou réalité ?

La question que tout joueur de Wordle se pose : existe-t-il un mot de départ objectivement optimal ? La réponse dépend du critère choisi. Si l’on maximise l’entropie, certains mots se détachent systématiquement :

TAIRE : combine les lettres T, A, I, R, E - cinq des lettres les plus fréquentes en français, avec une excellente diversité voyelles-consonnes.
SAINE : propose S, A, I, N, E - une couverture similaire avec la consonne N très courante.
CRANE : C, R, A, N, E - un équilibre classique qui teste deux des trois consonnes les plus fréquentes.

Cependant, l’optimalité absolue n’existe pas. Le meilleur mot dépend de la liste de solutions spécifique utilisée par chaque version du jeu. Un mot optimal pour le Wordle français ne le sera pas forcément pour la version anglaise, car la distribution des lettres diffère considérablement entre les langues.

L’algorithme glouton : jouer comme une machine

Les chercheurs en informatique ont développé des algorithmes gloutons (greedy algorithms) pour résoudre le Wordle de manière optimale. Le principe est simple : à chaque tour, choisir le mot qui maximise l’entropie parmi les solutions restantes. Cette approche, bien que non parfaite en théorie (elle ne garantit pas la solution globalement optimale), produit des résultats remarquables.

Un algorithme glouton bien calibré résout le Wordle en 3,4 essais en moyenne, contre 4 à 5 pour un joueur humain expérimenté. La différence s’explique par la capacité de la machine à évaluer simultanément des milliers de candidats et à choisir celui qui offre le meilleur rapport information/risque. Ce type d’approche algorithmique se retrouve aussi dans d’autres jeux de lettres, comme le démontre cet article sur les anagrammes et le Pendu.

Le traitement automatique du langage naturel

Au-delà des statistiques brutes, la linguistique computationnelle utilise des techniques de traitement automatique du langage naturel (TALN) pour enrichir la sélection des mots. Les modèles de langue, entraînés sur des milliards de mots, capturent des relations sémantiques invisibles aux simples comptages de fréquence.

Par exemple, un modèle de langue peut détecter qu’un mot est culturellement pertinent (lié à l’actualité, aux saisons, aux fêtes), qu’il possède des associations émotionnelles positives, ou qu’il appartient à un registre de langue accessible. Ces critères qualitatifs complètent les mesures quantitatives pour produire une expérience de jeu équilibrée.

Les limites de l’approche algorithmique

Malgré leur puissance, les algorithmes ne peuvent pas tout capturer. La subjectivité linguistique reste un défi : un mot considéré comme courant à Paris peut être inconnu à Montréal ou à Dakar. Les variations régionales, générationnelles et socioculturelles échappent en partie aux modèles statistiques.

De plus, le Wordle est un jeu, pas un exercice académique. L’algorithme doit trouver un équilibre entre rigueur scientifique et plaisir ludique. Un mot mathématiquement optimal peut s’avérer frustrant pour le joueur s’il est trop technique ou trop inhabituel. C’est pourquoi les concepteurs de Wordle ajoutent souvent une curation manuelle finale à la sélection algorithmique.

En résumé

La sélection des mots du Wordle est bien plus qu’un tirage au sort. Elle repose sur un édifice sophistiqué de linguistique computationnelle : analyse de corpus, mesure de fréquence, calcul d’entropie et modélisation sémantique. Comprendre ces mécanismes ne gâche pas le plaisir du jeu - au contraire, cela révèle la profondeur cachée derrière cinq petites cases colorées. La prochaine fois que vous taperez votre premier mot, vous saurez que des milliers de calculs ont été réalisés pour que ce défi soit à la fois stimulant et juste.