1024 / 25 – Le Perceptron tel Janus

Comme Janus a deux visages, l’un tourné vers l’avenir et l’autre tourné vers le passé, le Perceptron offre deux récits, celui anthropocentré, retenu par l’histoire, et celui inusité selon les lois universelles de l’information.

« The Navy revealed the embryo of an electronic computer today that it expects will be able to walk, talk, see, write, reproduce itself and be conscious of its existence. »

Research trends, Vol. VI, Nº2, Cornell University, été 1958.

Report MARK 1 Perceptron operators’ manual, Cornell Aeronautical Laboratory, février 1960.

Quelle est donc cette machine, cette IA, vouée à s’autoreproduire et à être dotée de conscience ? Ces dernières années, les médias se font régulièrement l’écho de telles perspectives fracassantes. L’article évoqué ici, du très sérieux New York Times, est ancien, il date de 1958 et fait écho à une interview de Frank Rosenblatt, le concepteur du Perceptron.

Le Perceptron a marqué les débuts de l’intelligence artificielle. Les polémiques et les fantasmes qu’il suscita plongèrent le connexionnisme aujourd’hui triomphant dans un hiver de trois décennies. Les choses auraient pu se raconter autrement, et notre perception de l’IA en eût peut-être été changée.

Deux visages

Quand nous avons inventé la machine à vapeur, nous ne l’avons pas baptisée «  Puissance artificielle  », parce que notre espèce a toujours su qu’elle n’était pas la plus forte face à ses prédateurs. Alors, nous avons étudié la mécanique et la physique à partir de la nature, en en cherchant les lois et en les appliquant. Si nous avions fait ainsi avec l’intelligence, nous aurions étudié les lois de l’information et aurions vite découvert le classifieur linéaire comme composant élémentaire du traitement de l’information. Et c’eût été l’autre histoire du Perceptron, celle de la réalisation physique d’un algorithme élémentaire, le classifieur linéaire.

Mais pour l’intelligence, nous sommes partis non de la nature mais de nous-mêmes, nous n’avons pas essayé d’en trouver les lois mais avons cherché à imiter la nôtre, parce que nous avons toujours considéré et considérons encore largement que l’intelligence est notre prérogative d’êtres humains1. Les Lumières reposent même sur ce postulat. Et du coup, quand cette intelligence que nous croyions attachée au Sapiens, se déploie hors de nous, nous nous troublons et sentons notre espèce menacée, ce qui n’a jamais été le cas face à la locomotive. Et c’est ainsi que nous vivons l’IA, et que l’histoire du Perceptron est racontée2, bio-inspirée d’un neurone.

C’est que le neurone est un classifieur linéaire (voir encadré).

L’histoire du Perceptron

Les moyens d’observation confortant la théorie d’un cortex constitué de neurones ne datent que de la toute fin du xix^e siècle3. Les premières modélisations de fonctionnement viennent un demi-siècle plus tard, avec la description de la transmission d’impulsion par McCulloch et Pitts, et la règle d’apprentissage de Donald Hebb, toutes deux restées sur le papier jusqu’à ce que Rosenblatt fabrique son Perceptron. Chercheur en psychologie, son but était d’étudier nos processus d’apprentissage. À cette fin, l’architecture du Perceptron reprenait le modèle de neurone de McCulloch et Pitts et l’algorithme d’apprentissage s’inspirait de la règle de Hebb.

Schéma de neurone et loi de Hebb

Schéma de neurone (McCulloch et Pitts)

Fig. 3.

Les synapses (points noirs à gauche) reçoivent des signaux \(x_1\) et \(x_2\), \(w_1\) et \(w_2\) sont les coefficients synaptiques correspondants, \(s\) le seuil. Le neurone envoie par son axone (à droite) un signal (\(y=1\)) s’il est suffisamment excité, sinon il n’envoie rien (\(y=0\)), ce qui s’écrit

\[ \hbox {si} \quad w_1 x_1 + w_2 x_2 > s \quad \hbox {alors} \quad y = 1 \quad \hbox {sinon} \quad y = 0\]

Géométriquement la droite \(w_1 x_1 + w_2 x_2 = s\) sépare les points \((x_1 , x_2)\) du plan qui excitent le neurone de ceux qui ne l’excitent pas.

Apprentissage : la loi de Hebb

La loi de Hebb renforce les coefficients synaptiques reliant (par une synapse le long d’une dendrite) deux neurones simultanément excités. Elle a été vérifiée expérimentalement par Eric Kandel, prix Nobel. Dans sa forme informatique, elle est complétée par une loi d’inhibition, qui en neurobiologie se réalise sous une forme complexe. Cette loi est un algorithme qui au fil de l’apprentissage fournit un hyperplan4 jouant le rôle de la droite évoquée ci-dessus.

Une expérience typique était d’apprendre à la machine à reconnaître des lettres manuscrites de l’alphabet en faisant varier les résistances électriques (les coefficients synaptiques) entre les pixels de la rétine et les lampes de réponse. La « rétine » de lecture était un tableau de 20 lignes de 20 « pixels » allumés ou éteints (les pixels allumés représentaient le signe à reconnaître), fournis par une caméra ou directement par un tableau de 400 interrupteurs manuels ! La machine « répondait » en allumant ou non chaque lampe d’une rangée de huit voyants. Un fouillis de câbles électriques reliait une partie des pixels à une ou plusieurs des huit lampes de sortie. L’idée était que chaque lampe représente la sortie d’un neurone formel (l’axone) et que les pixels qui y sont reliés représentent ses entrées (les synapses). On convenait une fois pour toutes d’un code (par exemple « A » doit allumer seulement la lampe 1, « B » doit allumer seulement la lampe 2, etc). Avec 8 lampes, on peut ainsi en principe coder 256 caractères, mais le Perceptron n’est jamais allé jusque là. L’allumage de pixels aboutissait à l’allumage ou non d’un voyant de sortie (c’est-à-dire l’excitation d’un neurone) selon qu’un seuil électrique était dépassé à travers un dédale de connexions et de relais munis de résistances variables qui simulaient les coefficients synaptiques. On présentait dans un ordre quelconque, et autant de fois qu’on le voulait, des écritures différentes de chaque donnée (une lettre, un chiffre, une forme simple). Si la réponse n’était pas le code attendu de la lettre — autrement dit si «  le Perceptron se trompait » — les résistances, qui simulaient les coefficients synaptiques, étaient modifiés au tournevis selon la règle de Hebb.

Que ce soit avec des lettres, avec les chiffres, avec quelques figures géométriques simples, en général l’apprentissage s’améliorait au fil des répétitions et si on lui présentait alors de nouvelles variantes d’écriture, il faisait aussi bien qu’un humain. Cependant, parfois il échouait, on ne savait ni le prédire ni expliquer pourquoi.

Chacune de ces expériences prenait plusieurs jours, car les manipulateurs devaient intervenir en tournant des molettes. Il faut se représenter ce qu’étaient les moyens techniques de l’époque. Pas de caméras numériques5 mais des cellules photoélectriques, des fils de cuivre et des rhéostats. Le cœur du Perceptron était un enchevêtrement de câbles à faire pâlir un central téléphonique de l’époque, avec des opérateurs qui maniaient les connections comme jadis les « Dames des PTT ». Le tout intégré à ce qui se faisait de mieux comme calculateur, un Mark I d’IBM, de cinq tonnes, non pas électronique mais électromécanique. Une multiplication prenait six secondes. Durant mes études, les rares profs qui avaient eu le privilège d’accéder à de telles machines racontaient qu’à la longue ils distinguaient à l’oreille si la machine était en train de réaliser une multiplication ou une division.

Si ces conditions d’expérience font maintenant sourire, il n’en demeure pas moins que sur des graphismes simples les résultats d’apprentissage étaient bluffants, ce qui alimenta d’intenses controverses sur les capacités potentielles de ce type de machine, controverses qui aboutirent dix ans plus tard au livre de Marvin Minsky et Seymour Papert, Perceptrons: An Introduction to Computational Geometry6. Cet épais ouvrage délimite clairement les possibilités du Perceptron, et établit l’incapacité de ce type de dispositif à classer des exemples très simples — le cas du XOR est célèbre7.

Si l’on mit plusieurs années à y voir clair dans les capacités d’un Perceptron, sa nature mathématique et ses limites, c’est que la machine historique8, son manuel d’utilisation 9 de 67 pages10, aussi bien que la publication scientifique qui l’accompagnait11 étaient particulièrement confus. En soi, le fait qu’il faille du temps et des travaux de la communauté de chercheurs pour décanter, clarifier, valider, simplifier un concept fait partie de la marche normale de la science. Aussi faut-il replacer l’affaire dans son contexte historique et humain pour en comprendre les ressorts.

C’est encore l’après-guerre, sur les campus, les laboratoires d’idées foisonnent, en quête de spiritualité nouvelle — le new age n’est pas loin — aussi bien que d’innovations stratégiques. En 1956 — deux ans avant le Perceptron —, une poignée de chercheurs se réunissent durant deux mois à Dartmouth dans le New Hampshire. Beaucoup deviendront des grands noms des sciences du numérique. C’est là qu’est inventé le terme «  Artificial intelligence  ». Rosenblatt ne participe pas à cette conférence, pourtant il connaît très bien Minsky, une des fortes personnalités du groupe, ils avaient étudié ensemble un an à New York. L’objectif de la conférence de Dartmouth12 n’a pas pris une ride, il postule que chaque aspect de l’intelligence humaine peut être décrit de façon à être réalisé par une machine13.

Rosenblatt survendit son Perceptron. En témoigne la légende de sa présentation dans la revue interne de Cornell14 « Le Perceptron, une machine qui perçoit, reconnaît, mémorise et répond comme l’esprit humain ». Machine que Minsky s’acharna à dénigrer. Il faut dire que Minsky, encore étudiant, avait tenté cinq ans avant de construire lui aussi un neurone artificiel, SNARC 15, à 40 synapses, lui aussi financé par la Navy, à une époque où il n’y avait pas encore vraiment d’ordinateurs. Sa machine faite de lampes et de pièces de récupération de l’aéronautique n’a jamais fonctionné. Peut-être de quoi prendre ombrage du tapage autour du Perceptron.

Quand il conçut le Perceptron, Rosenblatt n’avait que trente 30 ans. Il passa vite à autre chose, il mena des expériences en injectant à de jeunes rats des extraits de cervelle de congénères expérimentés, afin de tester une hypothèse qui courait sur la possible transmission de cette façon de connaissances acquises. Évidemment, ce fut en vain, et cela alimenta la suspicion à l’égard du Perceptron. Il mourut d’un accident de bateau le jour de son 43^e anniversaire. Des hommages appuyés lui furent rendus, jusqu’au Congrès des États-Unis, évoquant une personnalité et un scientifique hors des sentiers battus16.

Minsky, d’un an son aîné, mourut à 89 ans, couvert d’honneurs. La presse salua la disparition d’un père de l’IA. Il s’était fait connaître d’un large public par son ouvrage « La société de l’esprit17 », recueil de réflexions où il expose comment selon lui l’« esprit » est induit par l’interaction d’agents simples. À la fin de sa vie, il se revendiquait transhumaniste18, aspirant à des posthumains faits de pièces remplaçables sans fin, quitte à dériver le contenu du cerveau dans des IA le temps d’une intervention, un peu comme on dérive la circulation sanguine durant une opération cardiaque. Pour lui, la frontière entre humains et IA avait vocation à s’estomper. Il militait pour la cryogénisation dans l’attente que la science progresse suffisamment pour nous rendre éternels. Deux jours après son décès, la société de cryogénisation Alcor dont il était administrateur publia un communiqué entretenant le doute sur sa congélation 19.

De quoi aiguiser l’esprit critique…

L’autre histoire : le Perceptron, premier classifieur linéaire de grande dimension

D’emblée l’astronomie et la physique ont postulé que les astres et la matière obéissaient à des lois universelles indépendantes de l’existence des humains.

Supposons que l’on ait suivi la même démarche pour étudier comment la nature traite l’information pour réagir à une situation sous des contraintes données, domaine que nous qualifierons de « sciences de l’intelligence », et qui relève, quand il est numérisé, des sciences informatiques actuelles.

Partager en deux est l’acte élémentaire de traitement de l’information20 : vrai ou faux, chaud ou froid, noir ou blanc, fort ou faible, dangereux ou inoffensif. Sans cet acte, rien ne se distingue, tout est mélangé. La séparation la plus simple se fait par une droite dans le plan, entre les points au dessus et les points en dessous. La notion de ligne de séparation droite plutôt que courbe plus ou moins compliquée relève du principe de parcimonie, essentiel en sciences. Si deux nuages de points d’une feuille sont séparables, encore faut-il les séparer. Un algorithme pour le faire s’appelle un séparateur linéaire, ou classifieur linéaire. Et mieux vaudrait savoir le faire non seulement en dimension 2, où chaque point de la feuille est défini par deux coordonnées, mais en dimension quelconque, où chaque donnée peut être définie par des milliers de paramètres. Et mieux vaudrait encore le faire vite et bien, et que ce classifieur soit facile à réaliser, rapide et robuste (qu’il fonctionne toujours, même si on le malmène).

Un tel algorithme existe, et il est simple : c’est celui du Perceptron. Si deux ensembles A et B de données sont séparables par un hyperplan, en considérant les coordonnées de chaque donnée comme les excitations des synapses, la loi de Hebb fait évoluer par apprentissage les coefficients synaptiques (qui sont les paramètres de l’hyperplan) de façon à répondre 1 pour les données d’un côté de l’hyperplan et 0 de l’autre. De plus, seul le signe de l’évolution des coefficients importe (+ pour renforcer, − pour inhiber), pas l’intensité, et l’apprentissage est d’autant plus rapide que la séparation est nette.

Comme apprendre donne un avantage adaptatif majeur, et vu l’existence d’une solution algorithmique aussi simple et efficace, on peut comprendre que le neurone ait émergé de l’évolution darwinienne, et qu’il ait conféré un formidable avantage aux espèces en possédant beaucoup.

On aurait donc pu trouver un tel séparateur linéaire en faisant des mathématiques sans s’inspirer de notre cerveau, et développer à partir de là les recherches sur les réseaux de séparateurs linéaires. Cela nous aurait peut être épargné bien des divagations sur l’effacement de l’humain par l’IA. Mais ce n’a pas été le cas, les motivations manquaient sans doute pour concevoir des classifieurs tant qu’il était impossible de les mettre en œuvre faute d’ordinateur.

Épilogue

Minsky avec SNARC, puis Rosenbatt avec le Perceptron, ont essayé d’imiter le neurone humain en ignorant la notion de séparateur linéaire comme les pionniers de l’aviation ont d’abord construit des machines qui battaient des ailes en ignorant les lois de l’aérodynamique.

Tout étudiant en informatique connaît maintenant le neurone formel comme étant un séparateur linéaire, il sait que les technologies connexionnistes ne sont que des agencements de millions de séparateurs linéaires, il sait pourquoi l’algorithme qui marche sur un séparateur ne se généralise pas simplement si on empile les couches de séparateurs. Cependant, cette culture doit sortir du cercle des spécialistes à l’aube de la génération ChatGPT, alors que la totalité des êtres humains sont appelés à interagir avec l’IA, en le sachant ou pas, tiraillés entre alarmisme sur ses mésusages et incitation à la surconsommer. Le séparateur linéaire devrait être enseigné au collège et au lycée, et soumis au débat critique.

On trouvera à cet URL 21 et à celui-là 22, deux articles en prolongement de cet article-ci. Le premier, « Le petit neurone et la règle d’écolier », décrit dans le détail le fonctionnement du séparateur linéaire et le compare à un neurone à deux synapses pour séparer deux nuages de points d’une feuille de papier ; les mathématiques utilisées sont du niveau collège. Le second article, « Le théorème de convergence du Perceptron », reprend une preuve, élaborée collectivement au fil du temps, des propriétés mathématiques du séparateur linéaire en dimension quelconque associé à la règle de Hebb ; les mathématiques sont du niveau spécialité maths au lycée.

En comparaison de l’image « intelligent AUTOMATON » de cet article, imagine-t-on un rapport technique « strong MACHINE » illustré d’un athlète à côté d’un prototype de machine à vapeur ? ↩
Je sais que ce paragraphe à l’emporte-pièce est contestable. Il est à prendre comme matière à réflexion. ↩
Aristote pensait que la fonction du cerveau était d’évacuer la chaleur comme le fait le radiateur d’une voiture thermique. ↩
Sous-espace de dimension 1 de moins que l’espace ambiant (dans un plan, une droite est un hyperplan). Un neurone a des centaines de synapses, chacune correspond à une dimension de l’espace. ↩
Le terme « pixel » a été forgé dix ans plus tard. ↩
MIT Press, 1969. ↩
XOR désigne le « OU exclusif », c’est-à-dire « l’un ou l’autre mais pas les deux », ou encore « soit l’un soit l’autre ». Il est peu usité dans le langage courant mais omniprésent dans les circuits électroniques. Ceci revient à dire que si on se donne une rétine de deux pixels en entrée et une lampe en sortie, un Perceptron devrait apprendre à allumer la lampe réponse si un et un seul des pixels est allumé. On montre facilement que c’est impossible. ↩
Elle gît démantelée dans une cave de l’université de Cornell. ↩
https://drive.google.com/file/d/1hOCGNHwrgIHs9ba3wbI3EdmXAtCAC0bS/view?usp=sharing. ↩
Cornell Aeronautical Laboratory, Report MARK 1 Perceptron operators’ manual, février 1960. Ce document est librement consultable mais difficile à trouver. Je l’ai placé moi-même à l’URL juste mentionné. ↩
F. Rosenblatt. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 1958. ↩
Préambule de la demande de subvention : «  The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it. An attempt will be made to find how to make machines use language, form abstractions and concepts, solve kinds of problems now reserved for humans, and improve themselves  ». ↩
On parle parfois d’IA faible, celle évoquée dans le projet de Dartmouth, et d’IA forte, qui irait jusqu’à des machines dotées de conscience, ce qui ne repose sur aucun fondement scientifique. ↩
Photo en illustration de cet article. ↩
https://en.wikipedia.org/wiki/Stochastic_Neural_Analog_Reinforcement_Calculator. ↩
Congressional Record, Tribute to Dr. Franck Rosenblatt, 1971, https://drive.google.com/file/d/1H7LHlC2mjHFWV8PDEHb5Cn1DSz1mVZfS/view?usp=sharing. ↩
The Society of Mind, Simon and Schuster ed., 1987. ↩
The Jerusalem Post titrait en 2014, à l’occasion du prix Dan David, un article « For artificial intelligence pioneer Marvin Minsky, computers have soul ». ↩
https://www.alcor.org/2016/01/official-alcor-statement-concerning-marvin-minsky/. ↩
C’est ce que fait un bit, 0 ou 1. ↩
https://maxdauchet.fr/. ↩
https://petitsriensdesciences.blogspot.com/. ↩