Note de lecture : Philosophy and Simulation IV

Les Algorithmes Génétiques – Chap 4 et 5.

Qu’est-ce qu’un algorithme génétique ? C’est un algorithme réalisant un certain type de recherche. Il existe en effet plusieurs types de recherches et, par exemple, il est probable que l’utilisation du PageRank de Google soit spontanément celui qui nous vient à l’esprit. Selon une liste de mots-clés plus ou moins paramétrés, on obtient une liste de liens nous renvoyant à des contenus pertinents avec les mots-clés fournis. Pour se donner une première intuition des algorithmes génétiques, il suffirait d’inclure la séquence dans laquelle l’internaute soumet sa liste mots-clés au moteur de recherche et l’affine progressivement en fonction des résultats qu’il explore. Le type de recherche que réalise un algorithme génétique consiste en effet à trouver la solution optimale à un problème posé. Il faut donc d’abord définir un problème puis la solution devient optimale en fonction d’un processus sélectionnant une solution parmi un ensemble de solutions et cela en fonction d’une variable qui mesure l’adaptation de la solution au problème posé. Ainsi, dans le cas d’une recherche sur Google, c’est en fonction d’un problème défini en termes de mots-clés que nous entamons notre recherche, puis selon les premiers résultats délivrés par le moteur de recherche, nous affinons notre liste de mots-clés et leur paramètres en fonction d’une mesure plus ou moins rapide de la pertinence des résultats eu égard à nos besoins initiaux.

Pour reprendre l’expression de Manuel DeLanda, il s’agit plus d’une recherche « par tâtonnement » que de la simple identification d’un motif dans un ensemble (par exemple rechercher le mot art dans le mot partie). Il prend comme illustration d’une application des algorithmes génétiques la gestion des commande de compression/décompression de pompes hydrauliques dans les pipelines. Le problème consiste à trouver la solution optimale consistant en une utilisation la plus économe possible de l’électricité pilotant les moteurs des pompes en fonction de la variation des débits et volumes passant à travers le pipeline. La valeur d’adaptation mesure l’efficacité du travail fourni par le pipeline selon les conditions changeantes et les solutions possibles sont comprises entre une valeur maximale et une valeur minimale correspond à une compression maximale ou nulle. Le résultat de la recherche correspondra à l’ensemble des valeurs de compression à un instant t pour chacune des pompes correspondant à une distribution particulière de fuel dans le pipeline à cet instant.

Pourquoi les appelle-t-on alors « génétiques » ? Ils sont appelés génétiques dans la mesure où le sujet du problème est une représentation d’un génotype (c’est-à-dire à une représentation d’une séquence précise de gènes) et son objet se définit par la capacité émergente ou non de se répliquer (soit par la représentation d’une simple recopie, soit par celle d’une reproduction sexuée).

On se posait la question de l’émergence du vivant à partir des éléments premiers de la matière. Au niveau de ces premier éléments, il fallait capter les flux d’énergie. Puis, différents éléments chimiques étant constitués, il fallait être en mesure d’expliquer les flux de matière qui rendaient possibles les combinaisons entre eux. Mais afin de constituer ce qui à terme deviendraient des macro-molécules, il fallait que soit possible la formation de boucles auto-catalytiques à l’intérieur d’une soupe prébiotique. Enfin, toujours à l’intérieur de cette soupe, viendrait le moment où ces débuts de macro-molécules soient capables d’auto-réplication. Cette capacité, qu’on associe spontanément aux seuls organismes vivants, est en fait antérieure et subsiste de nos jours dans les « vrais » virus qui peuvent s’auto-répliquer en utilisant un organisme hôte sans pour autant former par eux-mêmes un organisme. À chaque fois, des gradients spécifiques aux degrés de complexité envisagés étaient découverts. Caractérisés par le fait qu’ils co-existent virtuellement avec les éléments actuels sur lesquels ils influent, ces gradients cessent aussi d’être effectifs lorsqu’ils atteignent un point d’équilibre. Le gradient opérant au degré de l’auto-réplication des molécules est l’adaptation à l’environnement(fitness en anglais), qui fait tant parler de lui depuis la mise au jour du processus de la sélection naturelle dans la théorie de l’évolution naturelle selon Darwin.

Soit le cas le plus simple d’un ARN « nu » (non encapsulé dans un organisme), simple en ceci qu’on peut représenter son génotype (son code génétique à transmettre) et son phénotype (sa forme catalysatrice déployée dans l’espace) par la même chaîne de caractères, on décide arbitrairement d’ordonner l’espace de possibilités de tous les ARN de même longueur en les inscrivant dans une grille multidimensionnelle qui les relie tous de proche en proche selon le principe d’une seule modification du génotype entre deux voisins immédiats. La taille de cet espace, comme le nombre de ces dimensions, est fonction de la longueur du polymère étudié.

Dans ce cadre, le processus évolutionnaire d’un ARN ressemble à une randonnée à l’intérieur des variations qui peuvent être suivies dans la grille. Dans ces conditions, on observe qu’un tel « paysage » se structure autour de singularité qui se caractérisent par une valeur optimale d’adaptation c’est-à-dire par la possibilité maximale de s’auto-répliquer. Par exemple, on constate que si cette singularité est entourée de voisins ayant une valeur d’adaptation proche, le paysage prendra la forme d’un sommet entouré de diverses pentes s’élevant doucement vers lui tandis que le même sommet sera entouré de ravins si ces voisins ont une valeur d’adaptation faible.

D’autres observations permettent de dégager le véritable « acteur » de l’évolution. Ce n’est pas chaque brin considéré en lui-même, mais un nuage de brins structuré autour d’un type dominant. Ceci s’explique par le fait que les voisins du brin dominant ont plus de chances de le reproduire (puisqu’il n’ont besoin que d’une mutation chacun) que ce dernier n’a de chances de se conserver (c’est-à-dire de ne pas muter). Il apparaît ainsi que la « randonnée » évolutive est celle d’un nuage qui en raison de son extension entre en relation avec d’autres nuages. Au hasard des rencontres, l’évolution du nuage revient pour lui à se recomposer autour d’un autre type dominant ayant une valeur adaptative supérieure à la sienne. Ce qui jusqu’à présent était considéré comme une marche aléatoire devient une recherche en ceci que la marche procède par tâtonnements et s’oriente de proche en proche vers un optimum. Deux paramètres corrélés interviennent au cours de cette recherche pour le nuage considéré : le taux de mutation et la longueur du brin. Tous deux permettent de calculer un point singulier pour le nuage qui est son seuil d’erreur au-delà duquel il se « vaporise ». Dans la théorie, la recherche a lieu quand le taux de mutation avoisine sans le dépasser le seuil d’erreur, c’est-à-dire quand les erreurs sont les plus nombreuses sans pour autant désintégrer le nuage. La théorie est confirmée avec les seuls organismes actuels qui utilisent l’ARN pour se reproduire : les virus.

À ce stade de la simulation, l’utilisation des algorithmes génétiques ne produit un phénomène émergent que dans le cadre restreint de la solution du problème. En effet, ni l’auto-réplication, ni la pression de la sélection naturelle, ni même la valeur d’adaptation ou la formulation du problème ne sont émergentes. Ce sont des procédures paramétrables à l’intérieur d’un cadre déterministe. L’environnement étant un problème posé à un de ces ARN « nus », l’algorithme doit trouver la solution optimale qui consiste en une recopie aussi large que possible de l’ARN d’origine. On applique une fonction d’adaptation qui consiste à vérifier quelles solutions sont bonnes et lesquelles sont mauvaises. Ensuite, une procédure de sélection est appliqué qui choisit quelle « bonne » solution est retenue. Enfin une procédure de mutation est appliquée à la partie de l’ARN restée libre pour la variation de sorte que pour même si l’environnement reste inchangé, la nouvelle génération doit régler pour son compte le problème qu’il continue de poser et ainsi jusqu’à ce que l’ARN ne puisse plus évoluer.

À partir de la double possibilité de l’auto-réplication et de l’évolution, une autre représentation est nécessaire pour simuler l’évolution cellulaire conduisant à la constitution progressive d’organismes de plus en plus complexes. Ce n’est plus seulement d’algorithmes génétiques qu’il s’agit mais de programmation génétique.

Pour cela, l’objet à étudier est décrit comme un programme récursif, lui-même écrit comme un arbre ayant pour feuilles les variables servant de paramètres pour les fonctions que l’on trouve aux premiers nœuds de l’arbre. Ces fonctions produisent à leur tour des résultats qui servent d’entrées pour les fonctions de niveau supérieur et ainsi jusqu’à la constitution de la totalité de l’objet étudié. Soit l’étude d’une machinerie biochimique précise dont on connaît à l’avance a) les gradients prélevés sur les substrates, b) le jeu d’enzymes pour accélérer ou retarder les catalyses nécessaires et c) l’ensemble ordonné de réactions chimiques formant un réseau déterminé. La simulation aura pour enjeu de modéliser à partir des gradients prélevés sur les substrates (a), au bout de combien de générations les éléments constitutifs parviendront à mobiliser le jeu d’enzymes nécessaires (b) et à découvrir la configuration du réseau des réactions chimiques (c) pour reconstituer la machinerie.

La prise en compte du rôle des parties dans la formation du tout par la programmation génétique nous permet de revenir sur ce qu’on avait imposé de façon arbitraire : à savoir la mise en ordre de l’espace de possibilités des ARN par des variations uniques de proche en proche. En effet, la fiction était utile tant qu’on identifiait génotype et phénotype mais cesse de l’être dès que l’on doit prendre en considération ce qui les distingue, même s’il ne s’agit que de déploiement du premier dans le second. Dorénavant, nous sommes mis sur la piste de « briques de bases » susceptibles de mutation mais également de croisement. Grâce aux briques de base, il devient possible de surimposer à notre premier espace des plans de coupes qui repèrent la répétition d’un motif à travers les éléments qui l’emploient. Par ailleurs, l’opérateur de croisement qui imite la reproduction sexuelle, opère des combinaisons entre des segments tronqués d’originaux parents. Il consolide ainsi la conservation des briques de base les plus robustes comme leur propagation étend leur capacité à concentrer sur elles les fonctions d’adaptations nécessaires aux organismes. Ainsi enrichi, l’espace arbitrairement ordonné du départ devient consistant et fait actuellement l’objet d’expérimentations où cet ordre se trouve validé.

Il nous faut enfin enrichir nos modèles afin que les algorithmes génétiques puissent être employés pour les organismes vivants. Cela revient à prendre en compte l’encapsulation du phénotype à l’intérieur de la membrane et donc cela pose le problème de la distribution spatiale des organismes. Cela revient aussi à caractériser l’adaptation non plus maintenant sur la base d’un critère externe pour une solution à un problème posé en dehors de l’environnement mais par la qualité de la modification apportée au métabolisme par l’accès aux ressources sous la pression de la sélection naturelle . Autrement dit, l’adaptation devient ici une capacité émergente. On aborde au domaine scientifique de l’écologie qu’on pourrait définir comme la science des relations et interactions entre individus et/ou groupes d’individus et leurs environnements.

Dans l’écologie des populations, le phénomène émergent à étudier est la croissance de la population et le gradient utilisé est la densité de population qui dépend de deux facteurs : le taux de croissance des organismes et les ressources de l’environnement en termes d’espace, de matière et d’énergie. Par exemple, une espèce dont la stratégie de reproduction se concentrerait sur le facteur de croissance produira une descendance fréquemment, en nombre et vivant peu de temps, tandis qu’une espèce dont la stratégie se concentre sur l’exploitation des ressources de l’environnement assurera une descendance moins nombreuse, moins fréquente mais vivant plus longtemps afin de maîtriser le dit environnement. Les relations écologiques sont alors déduites des relations que l’on peut observer entre deux densités de population : prédation, parasitisme, compétition, mutualisme, symbiose et commensalisme.

Mais avant de simuler les interactions entre populations, on veut déjà simuler les relations entre une population et son environnement. Pour cela, on emploie une approche appelée LEE pour « Latent Energy Environments ». Dans cette approche, une dimension spatiale est ajoutée aux algorithmes génétiques de deux façons : d’abord par une distribution des organismes dans un espace où ils sont extérieurs les uns aux autres, ensuite par l’attribution à chacun d’eux d’un espace intensif appelé « estomac » dans lesquels sont ingérées les ressources dispersées dans le premier espace. Par ailleurs, l’approche LEE ne remplace pas complètement une ancienne génération par une nouvelle comme le faisaient les algorithmes génétiques décrits ci-dessus mais les fait coexister et il est ainsi permis de tester différents peuplements de l’espace selon diverses compositions de la population étudiée. Enfin, puisque l’objet de l’approche LEE consiste à simuler la découverte de nouvelles stratégies de recherche des ressources environnementale en en optimisant le coût énergétique, ces dernières sont dispersées dans l’espace en pièces détachées et il revient aux organismes de les assembler à l’intérieur de l’estomac. En termes de conception, cela revient à décrire sur une table disponible pour chaque individu comment assembler les pièces détachées pour les rendre utiles en termes de ressources. Dès lors, selon la complexité des processus d’assemblage, la taille de la table, la distribution dans l’espace des ressources et des organismes, les moyens de locomotion des organismes, leurs moyens de détection des ressources et les capacités de mesure de la composition interne de l’estomac, il est possible de calculer finement pour une population le coût énergétique de l’accès aux ressources et, de là, observer les nouveaux comportements à travers les générations qui vont tendre à le réduire.

Que se passe-t-il dès lors que l’on veut étudier les interactions entre deux populations ? Nous allons devoir définir un nouvel espace de possibilités spécifique aux relations écologiques. Les divers paysages d’adaptation (« fitness landscape ») qui définissaient l’espace de possibilités pour le processus évolutionnaire d’une espèce tout au long de centaines de milliers ou de millions d’années doivent maintenant être couplés les uns aux autres tout au long d’une chaîne alimentaire qui les met en relation sur des périodes beaucoup plus brèves. Les chaînes alimentaires n’étant pas extensible à l’infini, on obtient des séries d’espèces relativement courtes. Une autre approche étendant les caractéristiques des algorithmes génétiques et permettant d’étudier les relations entre populations s’appelle Echo. Ici, il n’est plus nécessaire de représenter l’espace interne de l’estomac en relation avec les processus métaboliques qu’il réalise car qui est étudié c’est désormais le fait que diverses espèces puissent se reconnaître et interagir. Ainsi les organismes se nourrissent directement de gènes et se reproduisent dès lors qu’ils ont ingérés l’ensemble des gènes décrivant leur génotype. Les relations écologiques sont alors représentés à partir de l’ingestion de gènes se trouvant dans l’estomac d’un autre organisme soit sous la forme de capture, et alors on décrit une relation de prédation, soit sous la forme d’échange et on décrit une relation de symbiose.

Dans Echo, les gènes sont rassemblées en un réservoir et sont étiquetés « offensifs » ou « défensifs » par rapport à d’autres gènes. Lorsqu’un individu d’une espèce en rencontre un d’une autre, il revient à un programme extérieur de comparer le chromosome de chacun et de délivrer le type de relation qui en découle selon le couplage éventuel d’étiquettes. Dans le cas asymétrique d’un tag offensif rencontrant un tag défensif sans que la réciproque n’existe, la relation est de prédation sinon elle de symbiose.

Le modèle Echo permet de simuler deux traits majeurs de l’évolution du vivant : la spéciation et l’endosymbiose. Par spéciation, il faut entendre cette bifurcation majeure du vivant entre les les procaryotes et les eucaryotes, les premiers formant l’immense réservoir bactérien où les chromosomes ne sont pas enfermés dans un noyau ; les seconds, pour lesquels les chromosomes sont protégés par un noyau, point d’appui pour la diversité des espèces vivantes animales et végétales. Pour cela, on ajoute une étiquette « adhésion » au modèle et on observe comment des combinaisons de gènes ainsi étiquetés s’associent sur plusieurs générations. Quant à l’endosymbiose, elle consiste dans l’incorporation d’un organisme par un autre sans destruction de sa membrane et constitue le mécanisme fondamental autorisant la complexification des organismes. Pour cela, le modèle associe l’étiquette « offensif » d’une espèce à un jeu d’actions conditionnelles relatif au comportement d’accouplement et produit en conséquence une descendance.

La résolution d’un problème dans les algorithmes génétiques procède par tâtonnement vers un optimum. C’est une forme d’apprentissage. Mais celui-ci est réalisé tout au long des générations et se trouve inscrit dans une modification du génotype. Autrement dit, c’est l’espèce qui porte le phénomène émergent de l’apprentissage. Lorsqu’il faudra étudier la capacité d’apprentissage pendant la durée de vie d’un organisme, nous devrons alors étudier les réseaux de neurones.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s