Après AlphaTensor, voici AlphaEvolve : l’agent IA de Google DeepMind qui bat l’état de l’art en mathématiques et en optimisation

4.2/5 - (4 votes)

AlphaEvolve, c’est le genre d’outil qui fait lever un sourcil même aux vieux briscards du code: Google DeepMind a construit un agent capable d’inventer et d’optimiser des algorithmes tout seul, en s’appuyant sur Gemini et une boucle d’évolution qui trie, teste, garde le meilleur. Pas juste “écrire une fonction”, non: on parle de programmes entiers, parfois longs de centaines de lignes, avec une logique qui ressemble plus à du boulot d’ingénieur chevronné qu’à un gadget de démo.

2 IA, 1 projet AlphaEvolve, Gemini invente ses algorithmes chez DeepMind, Google encaisse déjà gros, ce que ça cache

Sommaire

1 2 IA, 1 projet AlphaEvolve, Gemini invente ses algorithmes chez DeepMind, Google encaisse déjà gros, ce que ça cache
2 AlphaEvolve, c’est FunSearch en stéroïdes
3 La recette: Gemini Pro/Flash, une base de candidats, et des métriques
4 0,7% de compute récupéré: le jackpot discret des data centers
5 En maths, 75% de “déjà vu” et 20% de mieux
6 Qui va y avoir accès, et à quelles conditions
7 À retenir
8 Questions fréquentes
9 Sources

Le plus frappant, c’est que ce n’est pas resté dans un labo. Google l’a déjà branché sur des sujets très concrets: orchestration de tâches dans ses data centers, optimisation de calculs pour l’entraînement IA, et même des problèmes de maths où la machine retrouve l’état de l’art dans la majorité des cas, puis bat la référence sur une partie non négligeable. Du coup, la question n’est plus “est-ce que ça marche?”, mais “qu’est-ce qu’on fait d’un truc pareil?”.

AlphaEvolve, c’est FunSearch en stéroïdes

Pour comprendre AlphaEvolve, faut le voir comme la suite logique d’une série d’outils DeepMind: AlphaTensor, AlphaDev, puis FunSearch. Les deux premiers jouaient déjà avec l’idée de transformer un problème de calcul en jeu, puis de chercher une séquence gagnante. FunSearch, fin 2023, a fait un pas de côté: au lieu d’un agent entraîné pour un jeu précis, tu mets un grand modèle de langage au centre, capable de proposer du code sur des tâches variées.

AlphaEvolve pousse le curseur plus loin. Là où FunSearch se concentrait sur des bouts de code assez courts, AlphaEvolve peut faire évoluer des programmes entiers. Et ce détail change tout: quand tu touches à des systèmes réels, optimiser une seule fonction ne suffit pas. Tu dois gérer des compromis, des effets de bord, des contraintes de performance. DeepMind dit que l’agent peut produire des algorithmes d’une complexité “remarquable”, avec des structures logiques sophistiquées.

Le moteur, c’est un mix: Gemini génère des variantes, puis un processus d’évaluation automatique note les propositions, jette les mauvaises, conserve les bonnes, et recommence. On est sur une logique d’évolution: une population de candidats, une sélection, des itérations. Le truc important, c’est que ce n’est pas juste “Gemini répond à un prompt”. La boucle de scoring sert de garde-fou: tu testes, tu mesures, tu gardes ce qui marche.

Et cette boucle s’appuie sur un prérequis très concret: il faut une fonction d’évaluation. En clair, tu dois définir ce que “mieux” veut dire, sous forme de métriques scalaires. Rapidité, précision, consommation mémoire, coût de calcul… Ce cadre réduit la part de blabla typique des LLM. Résultat: AlphaEvolve est présenté comme un agent généraliste, pas un modèle spécialisé type AlphaFold. Tant que tu peux décrire le problème comme un algorithme et vérifier automatiquement la solution, il peut tenter sa chance.

La recette: Gemini Pro/Flash, une base de candidats, et des métriques

Dans la cuisine AlphaEvolve, il y a plusieurs casseroles. D’abord, un ensemble de modèles Gemini, dont Gemini Pro et Gemini Flash, utilisés pour générer et faire évoluer du code. Le choix d’un “ensemble” n’est pas anodin: tu diversifies les styles de propositions, tu limites le risque d’être coincé dans une seule manière de résoudre le problème. Et quand tu fais de l’évolution, la diversité, c’est du carburant.

Ensuite, il y a une base de données de programmes candidats. L’agent ne repart pas de zéro à chaque tour: il stocke ce qu’il a déjà produit et ce qui a bien scoré. Puis il réinjecte ces candidats comme contexte dans les prompts, avec des instructions du style “améliore ce point”, “réduis le temps d’exécution”, “garde la précision mais baisse la mémoire”. Tu vois le tableau: ça ressemble à un développeur qui itère, sauf que là, c’est industrialisé.

Le nerf de la guerre, c’est l’évaluation automatique. Les LLM sont connus pour être “hit and miss” en code: parfois géniaux, parfois à côté. AlphaEvolve contourne ça en notant chaque suggestion. Si ça ne compile pas, si ça échoue sur des tests, si la perf est pire, poubelle. Si ça passe, ça rentre dans la population. Cette mécanique réduit la dépendance au jugement humain, et limite les hallucinations, parce que le réel tranche.

Mais soyons honnêtes: tout dépend de la qualité de la fonction d’évaluation. Si tu mesures mal, tu optimises mal. Si ta métrique favorise une vitesse brute mais oublie la robustesse, tu peux te retrouver avec un algo fragile. Et si ton test ne couvre pas les cas limites, tu risques de sélectionner un “champion” qui triche sur l’échantillon. AlphaEvolve n’échappe pas à la vieille règle: “dis-moi ce que tu mesures, je te dirai ce que tu obtiens”.

0,7% de compute récupéré: le jackpot discret des data centers

Le chiffre qui a fait tiquer pas mal de monde, c’est 0,7% de ressources de calcul récupérées à l’échelle mondiale chez Google, grâce à une heuristique trouvée pour Borg, l’orchestrateur de tâches maison. 0,7%, dit comme ça, ça sonne petit. Sauf que quand tu gères des data centers à l’échelle de Google, 0,7% c’est une montagne de serveurs, de watts, et de factures. C’est le genre de gain qui se compte en millions.

Ce que DeepMind met en avant, c’est que l’heuristique trouvée par AlphaEvolve a fait mieux qu’une solution découverte via deep reinforcement learning. Là, on touche à un point intéressant: l’IA qui améliore une autre IA, et qui en plus bat une approche RL sur un terrain où le RL était justement une arme classique. En gros, tu remplaces des semaines d’entraînement et de tuning par une boucle d’évolution guidée par des métriques.

Et ce n’est pas le seul terrain “productif”. AlphaEvolve a aussi optimisé des opérations utilisées dans l’entraînement des modèles: kernel tiling et FlashAttention. Les chiffres annoncés sont costauds: 23% de speedup pour le kernel tiling, 32% pour FlashAttention. Pour toi, utilisateur, ça ne se voit pas directement. Pour une équipe qui entraîne des modèles géants, ça veut dire moins de GPU-heures, des cycles plus courts, et la possibilité de tester plus d’itérations.

Le revers de la médaille, c’est que ces gains sont plus faciles à obtenir quand tu as l’infrastructure pour tester à grande échelle. Google peut évaluer des milliers de variantes en parallèle, avec des bancs de tests internes, des métriques ultra précises, et un accès direct à la prod. Une boîte moyenne, elle, n’a pas Borg, ni des fermes de calcul à volonté. Du coup, AlphaEvolve risque d’accentuer un vieux déséquilibre: les meilleurs outils d’optimisation profitent d’abord à ceux qui ont déjà le plus de compute.

En maths, 75% de “déjà vu” et 20% de mieux

DeepMind a aussi emmené AlphaEvolve sur le terrain des maths et de l’informatique théorique. Et là, les stats sont parlantes: sur plus de 50 problèmes de maths testés, l’agent a redécouvert la solution état de l’art dans 75% des cas, et trouvé mieux dans 20% des cas. Traduction: la machine n’est pas juste “créative”, elle est aussi capable de retomber sur les meilleures idées humaines, ce qui est déjà un test de solidité.

Un exemple cité côté ingénierie mathématique: une amélioration sur la multiplication de matrices 4×4. Ça peut sembler ésotérique, sauf que la multiplication de matrices, c’est une brique de base partout: graphismes, simulation, apprentissage automatique, traitement du signal. DeepMind avait déjà frappé fort avec AlphaTensor en 2022, en trouvant une méthode plus rapide pour certaines multiplications de matrices, battant un record vieux de plus de 50 ans. AlphaEvolve s’inscrit dans cette lignée.

Ce qui change, c’est l’outillage: AlphaEvolve utilise Gemini 2.0 (famille de modèles) pour produire du code sur une large variété de tâches, puis itère. Pushmeet Kohli, qui pilote l’IA pour la science chez DeepMind, parle d’un “super agent de code” qui ne se contente pas de proposer une modification, mais produit un résultat que “personne n’avait en tête”. Ce n’est pas juste une phrase marketing: la boucle d’évaluation donne une chance à des solutions non intuitives.

Mais garde un truc en tête: ces problèmes sont choisis parce qu’ils sont vérifiables. Si tu peux tester automatiquement, tu peux évoluer. Si tu ne peux pas, tu retombes dans l’opinion, et là les LLM redeviennent des machines à assurance. Donc AlphaEvolve est très fort sur une classe de problèmes bien définie: ceux où la vérité est calculable. Pour le reste – typiquement des systèmes socio-techniques, ou des objectifs flous – tu n’as pas la même garantie.

Qui va y avoir accès, et à quelles conditions

Pour l’instant, AlphaEvolve est surtout présenté comme un outil interne et un partenaire de recherche. DeepMind parle d’un programme d’accès anticipé pour une sélection de chercheurs académiques, avec une interface en cours de développement avec l’équipe People + AI Research. Dit autrement: ils savent que si tu veux que ça serve, il faut une UX, des garde-fous, des workflows. Un agent qui crache du code sans cadre, c’est une usine à incidents.

Dans les usages envisagés, DeepMind cite des domaines comme la science des matériaux, la découverte de médicaments, la durabilité, et plus largement tout ce qui se formule en “problème algorithmique vérifiable”. Sur le papier, c’est large. Dans la vraie vie, ça veut dire que les équipes devront formaliser leurs objectifs en métriques, construire des évaluations solides, et accepter une part d’expérimentation. C’est un changement culturel: tu passes de “je conçois” à “je définis le terrain de jeu”.

Il y a aussi une question de confiance. Si l’agent pond un algorithme de 300 lignes qui améliore ton score, tu fais quoi? Tu le déploies direct? Tu l’audites? Tu le réécris? Matej Balog insiste sur la complexité des solutions produites, et c’est justement ça le souci: plus c’est complexe, plus c’est dur à expliquer, maintenir, sécuriser. Dans une boîte, la perf ne suffit pas, tu dois vivre avec le code pendant des années.

Et puis il y a l’effet marché. Si Google garde les meilleurs gains pour lui, il optimise son empire de calcul et creuse l’écart. S’il ouvre trop, il donne un avantage à des concurrents. Le compromis probable, c’est un accès limité, orienté recherche, avec des problèmes bien cadrés. On verra bien si, d’ici quelques mois, AlphaEvolve devient un produit à part entière, ou s’il reste une arme interne, comme tant d’outils qui font tourner Google sans jamais sortir du hangar.

À retenir

AlphaEvolve fait évoluer du code avec Gemini et une évaluation automatique, pas juste des réponses au prompt.
Google dit avoir récupéré 0,7% de compute mondial via Borg, et accéléré des briques d’entraînement IA (23% et 32%).
Sur plus de 50 problèmes de maths, l’agent retrouve l’état de l’art 75% du temps et fait mieux dans 20% des cas.

Questions fréquentes

AlphaEvolve, c’est juste un LLM qui code ?: Non. Le cœur, c’est une boucle d’évolution : Gemini génère des variantes de programmes, puis une fonction d’évaluation mesure automatiquement les résultats. Les mauvaises propositions sont éliminées, les meilleures sont conservées dans une base de candidats, et le processus itère jusqu’à obtenir un meilleur algorithme.
Pourquoi 0,7% de ressources récupérées, c’est important ?: À l’échelle d’un parc mondial de data centers, 0,7% représente une quantité massive de calcul, donc des coûts et de l’énergie économisés. Ce type de gain peut se traduire par des millions de dollars de capacité libérée et par plus de marge pour entraîner des modèles ou faire tourner des services.
Dans quels cas AlphaEvolve marche le mieux ?: Quand le problème peut être formulé comme un algorithme et vérifié automatiquement via une fonction d’évaluation. C’est ce cadre qui permet de trier objectivement les propositions et de limiter les erreurs typiques des modèles de langage.
Est-ce que des chercheurs externes pourront l’utiliser ?: Google DeepMind dit travailler sur une interface et préparer un Early Access Program pour des chercheurs académiques sélectionnés. L’outil reste surtout appliqué en interne pour l’instant, avec une exploration d’une disponibilité plus large.

Après AlphaTensor, voici AlphaEvolve : l’agent IA de Google DeepMind qui bat l’état de l’art en mathématiques et en optimisation

2 IA, 1 projet AlphaEvolve, Gemini invente ses algorithmes chez DeepMind, Google encaisse déjà gros, ce que ça cache

AlphaEvolve, c’est FunSearch en stéroïdes

La recette: Gemini Pro/Flash, une base de candidats, et des métriques

0,7% de compute récupéré: le jackpot discret des data centers

En maths, 75% de “déjà vu” et 20% de mieux

Qui va y avoir accès, et à quelles conditions

À retenir

Questions fréquentes

Sources

Nvidia Shield TV supprime une fonctionnalité mais simplifie l’expérience des utilisateurs

Discuter avec des gens : Meilleures applications pour parler à des inconnus

10 idées cadeaux à offrir pour un homme de 50 ans

Telegram avantages inconvénients : Applications de Messagerie Instantanée 2023

Après AlphaTensor, voici AlphaEvolve : l’agent IA de Google DeepMind qui bat l’état de l’art en mathématiques et en optimisation

Modal title

2 IA, 1 projet AlphaEvolve, Gemini invente ses algorithmes chez DeepMind, Google encaisse déjà gros, ce que ça cache

AlphaEvolve, c’est FunSearch en stéroïdes

La recette: Gemini Pro/Flash, une base de candidats, et des métriques

0,7% de compute récupéré: le jackpot discret des data centers

En maths, 75% de “déjà vu” et 20% de mieux

Qui va y avoir accès, et à quelles conditions

À retenir

Questions fréquentes

Sources

Nvidia Shield TV supprime une fonctionnalité mais simplifie l’expérience des utilisateurs

Discuter avec des gens : Meilleures applications pour parler à des inconnus

10 idées cadeaux à offrir pour un homme de 50 ans

Telegram avantages inconvénients : Applications de Messagerie Instantanée 2023