Hier soir Garance lisait un livre de botanique pour les enfants. Sur cette page-là, il y avait des petits volets cartonnés, une question écrite dessus, la réponse en soulevant le volet. Ca donnait à peu près ceci :
- Un sinsin... oui
- Grophène... oui
- Parmilove... oui
- Chamarou... oui
Garance ne sait pas encore lire.
Une image classique pour parler du miracle de la vie, de ces brins d'ADN qui définissent, par groupes de quelques-uns, les recettes pour créer non seulement toutes les espèces vivantes, mais aussi chaque être unique, ce miracle dont est souvent figuré par la comparaison suivante. Imaginez que l'on donne à des singes des machines à écrire, sur lesquelles ils tapent au hasard. Quelle est la probabilité pour que l'un d'eux écrive une pièce de Shakespeare ? Bien entendu, on peut juger acceptable qu'il écrive directement une traduction en français moderne de ladite pièce.
Quel rapport entre ces deux paragraphes ? Une question qui trottait dans la tête de mon mari Christian depuis bien longtemps. Comme il a parfois laisser voleter cette question un peu au dehors, par l'intermédiaire du langage, j'y ai eu accès. C'était la suivante : Si on assemble complètement au hasard des lettres, quelle est la probabilité pour que l'on tombe sur un mot qui pourrait être français ? La question n'est donc pas tant de savoir quelle est la probabilité de tomber sur un vrai mot français, comme le singe typographe autotraducteur, mais bien de créer un mot qui existe ou pas, mais nous paraît acceptable, comme Garance. Alors ? J'ai combien de chance d'y arriver ? La probabilité est-elle minime ou non négligeable ?
Première question : le nombre de lettres
Combien de lettres fait un mot en français, raisonnablement ? Cela va de 1 ("à" par exemple) à, disons, 25 pour "anticonstitutionnellement". C'était le mot défini classiquement comme le plus long quand j'allais au centre aéré. Mais en acceptant les mots composés, le dictionnaire de mots-croisés de mes parents allait jusqu'à 45 avec "Saint-Rémi en Bougemont Saint-Genest et Isson" (petite commune de cruciverbie orientale.) Et sans déconner, rien qu'en conjugant un verbe bien senti, on peut peut-être dépasser les 25 lettres ?
De toute façon, moi, même 25 je trouve ça trop. Alors j'ai décidé de façon tout à fait arbitraire de m'arrêter à 10 lettres. 10, c'est pas mal quand même. Je me suis basée sur un lexique très pratique pour connaître un max de mots réels français. Dans ce lexique, il y a même les verbes conjugués. Eh bien le nombre de mots fournis augment avec le nombre de lettres des mots jusqu'à 9, puis diminue. A 10 lettres, nous ne sommes déjà plus dans la bosse (située plutôt à 8-9 lettres). Les mots de 10 lettres ou moins représentent 72% du lexique, ceux de 11 lettres et moins 83%. Et, plus fort, si on prend en compte leur fréquence d'apparition dans un texte en français, les mots de 10 lettres ou moins représentent 96% des utilisations, ceux de 11 lettres et moins 98%.
Bon, OK, j'aurais pu aller jusqu'à 11 lettres. Mais je ne l'ai pas fait. On va donc considérer un gus qui prend entre 1 et 10 lettres au hasard, qui les pose là devant lui et ce demande si ce mot "pourrait être français".
Bon, et tant qu'on y est, j'ai enleve tous les accents et autres caracteres speciaux. Ca me paressait trop complexifiant avec. Et je n'ai pas reussi a mettre de e dans l'o dans ce paragraphe.
Digression : les mots vraiment français
Bon, tant qu'à faire, à cette étape, on a le droit de se demander combien de chance a notre homme de tirer au hasard un mot français. En utilisant "mon" lexique, je réponds :
- 1 lettre : 100% (en effet chaque lettre est, au minimum, le mot la désignant, comme dans cette inoubliable chanson : ''Tu dis que tu l'aimes / Mais tu sais très bien que même / Si tu y mettais deux M / Elle te quitterait quand même)
- 2 lettres : 15% de chances de faire un mot
- 3 lettres : 3,4%
- ... et ça décroit drastiquement. Avec 10 lettres, le nombre de combinaisons possibles est de l'ordre de 10 puissance 14, pour 17552 mots répertoriés, soit une chance sur 10 milliards.
Au total, entre 1 et 10 lettres, le nombre de combinaisons pour les grands mots étant important, on n'a que 8 chances sur 10 milliards de tomber pr hasard sur un mot.
MAIS : si on choisit statistiquement la longueur des chaînes de caractères aléatoires de manière à respecter la répartition des longueurs de mots dans le lexique, ça change tout. Dans ce cas, on a 26 chances sur 124738 (la taille du lexique) de faire une suite de 1 lettre, et 14% de chances de faire une suite de 10 lettres. Eh bien, dans ce cas, nous avons 0,06% de chances (6 chances sur 10000) de construire un mot existant en français. Bref, on a carrément augmenté la probabilité.
Deuxième question : quelles suites accepter
Bon, c'est pas tout, mais maintenant qu'on a vu avec les vrais mots de vrai français, la question se pose : qu'est-ce qu'un mot qui "pourrait être du français" ? Voilà ce que je propose : c'est un mot qu'un français peut lire, sans difficulté. Ce n'est donc pas Przewalski ou Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch ou Houyhnhnm. Ce serait plutôt, très basiquement, une suite de consonnes et de voyelles alternées.
En français, je pense, les sons consonnes ou voyelles (purs) sont composés de 1, 2 ou 3 lettres. Je les appelle polygrammes consonnes (monogrammes consonnes, bigrammes consonnes et trigrammes consonnes) et polygrammes voyelles (monogrammes voyelles, bigrammes voyelles, trigrammes voyelles.) Un pseudo-mot est donc une alternance de polygrammes consonnes et voyelles. Par exemple, une suite de quatre lettres peut être l'une des suites suivantes :
- Monogramme consonne + Monogramme voyelle + Monogramme consonne + Monogramme voyelle
- Monogramme consonne + Monogramme voyelle + Bigramme consonne
- Monogramme voyelle + Monogramme consonne + Monogramme voyelle + Monogramme consonne
- Monogramme voyelle + Monogramme consonne + Bigramme voyelle
- Bigramme consonne + Monogramme voyelle + Monogramme consonne
- Bigramme consonne + Bigramme voyelle
- Bigramme voyelle + Monogramme consonne + Monogramme voyelle
- Bigramme voyelle + Bigramme consonne
- Monogramme consonne + Bigramme voyelle + Monogramme consonne
- Monogramme consonne + Trigramme voyelle
- Monogramme voyelle + Bigramme consonne + Monogramme voyelle
- Monogramme voyelle + Trigramme consonne
- Trigramme voyelle + Monogramme consonne
- Trigramme consonne + Monogramme voyelle
Dans ces cas, on considérera que c'est un pseudo-mot. Sinon, non. Par exemple, le premier découpage correspond aux pseudo-mots "sifu" et "caca" ; le dernier à "stra". Une suite comme "mdrf" ou "ouae" n'est pas acceptable, ou "pseudo-française".
La probabilité d'écrire un pseudo-mot de 4 lettres est donc égale au nombre de possibilités de créer un des cas ci-dessus divisé par le nombre de séquences de 4 lettres.
Le nombre de séquences de 4 lettres, c'est 26 puissance 4 (26 possibilités pour la première lettre, puis dans chaque cas 26 possibilités pour la suivante, etc.)
Le nombre de cas "qui fonctionnent"est, lui, la somme des cas ci-dessus. Du premier découpage : nombre de monogrammes consonnes x nombre de monogrammes voyelles x nombre de monogrammes consonnes x nombre de monogrammes voyelles ... Au dernier découpage : nombre de trigrammes consonnes x nombre de monogrammes voyelles. En passant par tous les cas intermédiaires.
Restent une liste et deux vérifications à faire :
- La liste des polygrammes consonnes et des polygrammes voyelles
- Lever le risque de compter deux fois une séquence de lettres, car on la considère comme appartenant à deux construction différentes
- Lever le risque de passer à côté de vrais mots de français, ou de mots très probables, parce qu'ils n'entrent pas dans la définition des séquences considérées
Liste des polygrammes consonnes
- Monogrammes : (presque) facile, ce sont les consonnes de l'alphabet. Après hésitation, j'ai choisi d'enlever le Q seul, qui aurait passé son temps à m'embêter, parce qu'un mot contenant un Q suivi d'autre chose que U, çq ne fait pas français. J'ai aussi choisi de placer le Y ici. Parce que (en fait, c'est un peu long à expliquer... c'est historique... Bref)
- Bigrammes : c'est là que je signale l'existance d'un site recensant tous les bigrammes utilisés en français. Par exemple, BZ ou QJ sont des suites qu'on ne rencontre jamais en français. Cela dit, parmi les bigrammes existants, les bigrammes consonnes sont :
- d'abord ceux composés de 2 consonnes, sauf si la première lettre est un N, parce que le N est plutôt une lettre de fin de son voyelle, comme dans EN.
- Puis QU.
- Enfin, toutes les suites consonne+Y. Parce que. Cf. ci-dessus.
- Trigrammes : il y a aussi un site recensant tous les trigrammes utilisés en français. Le tri est similaire aux bigrammes : trois consonnes, une consonne et QU, et les trigrammes contenant Y (s'ils sont gentils - pas AMY, ni LYO.)
Liste des polygrammes voyelles
- Monogrammes : A, E, I, O, U. Pour ceux qui ne suivent pas, je rappelle que les accents ne sont pas bienvenus ici, et que Y a choisi de se ranger dans les consonnes aujourd'hui.
- Bigrammes : deux voyelles, ou une voyelle suivie de, au choix, H, N ou Y. Pas M, parce que je considère qu'en terme de probabilité, il est plus simple de traiter les sons nasaux comme se terminant par N, même devant M, P et B, plutôt que de gérer une exception.
- Trigrammes : trois voyelles, deux voyelles suivies de, au choix, H, N ou Y. Mais aussi AIL et EIL.
Peut-on compter deux fois la même suite de lettres, en la considérant comme deux constructions distinctes ?
J'espère que non, et c'est la raison pour laquelle je ne considère pas comme "consonnes" les bigrammes ou trigrammes commençant par N. Mais je n'en sais rien. C'est la preuve que ma méthode est approximative. C'est ce qui fait son charme. Non ? Ben en tout cas, je n'ai pas le temps de faire mieux, je ne suis pas chercheuse en linguistique.
Peut-on rejeter des mots existant vraiment en ne gardant que les séquences acceptables ?
OUI ! Exemple : "analyse", car Y n'est pas une voyelle chez moi, et LYS n'est pas un trigramme consonne. Pour la suite de la réponse, cf. paragraphe précédent.
La réponse (première proposition)
Et alors, la réponse ? Ma méthode considère comme mot acceptable :
- 96% des séquences d'1 lettre
- 35% des séquences de 2 lettres
- 36% des séquences de 3 lettres
- 28% des séquences de 4 lettres
- 18% des séquences de 5 lettres
- 11% des séquences de 6 lettres
- 5% des séquences de 7 lettres
- 5% des séquences de 8 lettres
- 3% des séquences de 9 lettres
- 2% des séquences de 10 lettres
Soit, globalement, 2% des séquences aléatoires de 1 à 10 lettres. Et si l'on pondère en prenant en compte le fait que les mots courts (réels) sont plus nombreux, on a même 4,5% de chances de créer un mot "pseudo-français".
En prenant 1 à 10 lettres au hasard, j'ai 2 à 5% de chances de créer un mot qui pourrait être français.
C'est non négligeable n'est-ce pas ? Et là-dessus, seuls 4 sur 10 millions existent vraiment. Ca laisse une certaine marge de manoeuvre à Garance, après "sinsin", "Grophène", "Parmilove" et "Chamarou".
En guise de conclusion
Celle ou celui qui veut préciser tout cela, mettre un peu plus de rigueur, des accents, le mot "analyse"... Bref, s'il y a un(e) courageux/se pour affiner mes calculs, je suis prête à lui fournir mes données d'entrée. Et j'espère juste être tenue au courant des améliorations.
Ce soir, Christian pourra dormir tranquille. Trabilvoir.
PS : Non... ce matin il me demande si la probabilité se stabilise lorsque le nombre de lettres tend vers l'infini.