Ton cerveau ne ment pas : la science derrière le code propre

La surprise linguistique : la loi de Zipf

Voici le moment où l’histoire devient fascinante.

Prends un texte en français, un texte en anglais, ou n’importe quel grand corpus de code source en Python. Classe les mots du plus fréquent au plus rare, puis observe les fréquences. Tu vas tomber sur la même courbe à chaque fois. Le mot numéro un apparaît environ deux fois plus souvent que le numéro deux, trois fois plus que le numéro trois, et ainsi de suite. C’est la loi de Zipf, une régularité statistique d’abord repérée dans les langues humaines.

Le code la respecte. Une poignée d’identifiants et de constructions reviennent sans arrêt, suivis d’une immense “longue traîne” de termes qui n’apparaissent qu’une ou deux fois dans tout le projet. Exactement comme dans une langue naturelle, où une centaine de mots couvrent l’essentiel de tes conversations et où le reste du dictionnaire dort.

Fréquence des tokens en fonction du rang — Python stdlib vs Jane Austen (échelle log-log)

Ce n’est pas une coïncidence esthétique, c’est un résultat de recherche solide. En 2012, une équipe de chercheurs a posé une thèse devenue célèbre : le logiciel est “naturel”. Le code, écrit par des humains pour des humains, est répétitif et prévisible au point d’être modélisable par les mêmes outils statistiques que l’anglais parlé. C’est même ce constat qui a ouvert la voie aux modèles de langage appliqués au code, l’ancêtre intellectuel des outils qui complètent tes lignes aujourd’hui.

L’explication tient en une contrainte biologique. Ta mémoire de travail est minuscule. Tu ne peux garder que quelques éléments en tête simultanément, une limite que la psychologie cognitive documente depuis les années 50. Alors, sans même y penser, tu écris du code répétitif, avec tes tics de langage et tes raccourcis, parce que ton cerveau ne sait pas faire autrement. Le code n’est pas une suite d’instructions pour la machine qui ressemblerait par hasard à du texte. C’est un texte, soumis aux mêmes lois que les autres, parce qu’il sort du même cerveau.

Reste que la loi de Zipf prouve une parenté, pas un critère de qualité. Savoir que le code se distribue comme une langue ne suffit pas à décréter qu’il faut le juger comme un texte. L’hypothèse devient irrésistible, mais il manque encore une preuve : que se passe-t-il vraiment dans la tête de celui qui lit ? C’est là que les neurosciences entrent en scène.

La surprise linguistique : la loi de Zipf

Tags

Articles similaires

Éloge du silence en réunion inutile

L'informatique est faite pour automatiser

Écoconception