Rethinking AI Agents: The Rise of Harness Engineering

14 Apr 202611:46

Summary

TLDRLes recherches récentes révèlent que la performance des agents IA dépend davantage de l'orchestration autour du modèle que du modèle lui-même. Le « harness » — incluant la gestion de la mémoire, les outils, les boucles de vérification et la logique d'exécution — agit comme un système d'exploitation, coordonnant les capacités du modèle. Des expérimentations montrent qu'une conception soignée et structurée du harness, notamment via des représentations en langage naturel et des boucles d'auto-optimisation, améliore considérablement efficacité et précision. Le véritable atout réutilisable n’est pas le modèle mais le harness optimisé, soulignant l’importance de l’ingénierie de l’orchestration pour des agents plus performants et fiables.

Takeaways

😀 L'architecture de l'agent (le 'harness') est un facteur clé dans la performance des modèles d'IA, souvent plus influent que le modèle lui-même.
😀 La recherche de Stanford et Langchain montre que la variation des performances des agents est principalement déterminée par l'orchestration et l'infrastructure du 'harness'.
😀 Les choix architecturaux dans la gestion de la mémoire, l'intégration des outils et la logique d'orchestration ont un impact direct sur les performances des agents.
😀 L'analogie avec un système d'exploitation : le modèle LLM est comparable à un processeur sans mémoire, disque ou entrée-sortie, avec le 'harness' agissant comme le système d'exploitation.
😀 Les cinq modèles canoniques identifiés par Anthropic (chaînage de prompts, routage, parallélisation, etc.) expliquent la variation de performance en fonction de l'architecture du 'harness'.
😀 L'écriture de la logique de contrôle des agents en langage naturel (comme proposé par Tingua) permet de tester et d'optimiser les agents de manière plus modulable et contrôlée.
😀 L'optimisation du 'harness' (par exemple, avec le Meta Harness de Stanford) peut être automatisée et améliorer de manière significative les performances des agents.
😀 Les modèles d'IA comme Opus et Haiku montrent que l'optimisation du 'harness' seul, sans changer le modèle, peut surpasser des modèles plus grands en termes de performances.
😀 Le 'harness' ne se contente pas de coordonner, il décompose, délègue et vérifie les tâches, ce qui en fait un facteur clé de l'optimisation des agents.
😀 La recherche suggère qu'un meilleur 'harness' peut offrir des gains plus importants que l'attente d'une nouvelle version du modèle LLM.
😀 L'avenir du développement des agents se concentre sur l'ingénierie du 'harness', où la discipline est devenue aussi importante que la création de nouveaux modèles, avec un processus de 'réduction' plutôt que d'addition de complexité.

Q & A

Qu'est-ce qu'un 'harness' dans le contexte des agents IA?
-Le 'harness' désigne l'ensemble de la logique d'orchestration, de gestion de mémoire, des intégrations d'outils et des contrôles autour d'un modèle de langage, qui coordonne son utilisation et sa performance.
Pourquoi le harness peut-il influencer davantage la performance que le modèle lui-même?
-Parce que le harness détermine comment, quand et dans quel ordre le modèle est appelé, comment les outils et les données externes sont utilisés, et comment les erreurs sont gérées. Ces facteurs orchestrent l'efficacité globale de l'agent.
Quels sont les cinq patterns canoniques identifiés par Anthropic pour la conception des harnesses?
-Les cinq patterns sont : le chaînage de prompts (prompt chaining), le routage, la parallélisation, les orchestrateurs de travailleurs, et les boucles d'évaluation/optimisation.
Quelles sont les principales causes d'échec des harnesses observées chez Knive?
-Les échecs incluent le 'oneshotting', où l'agent essaie tout en une seule fois et épuise le contexte, et le 'premature completion', où l'agent déclare un succès partiel trop tôt.
Quels avantages apporte l'utilisation d'un harness en langage naturel structuré (NLH)?
-Il permet des expériences contrôlées, une séparation claire entre infrastructure, runtime et logique de contrôle, une meilleure ablation modulaire, et une optimisation plus facile du comportement de l'agent.
Quels résultats ont été observés lors de la migration d'un code harness en NLH?
-La performance est passée de 30,4% à 47,2%, le temps d'exécution a chuté de 361 à 141 minutes, et le nombre d'appels au modèle a diminué de 1 200 à seulement 34.
Quel module du harness s'est révélé le plus utile de manière constante?
-Le module d'auto-évolution (self-evolution) a été le seul module à améliorer systématiquement les performances en affinant la boucle d'essai de l'agent.
Comment Meta Harness optimise-t-il le harness automatiquement?
-Il utilise une boucle de proposition-évaluation où un agent propose de nouvelles versions du harness, un évaluateur teste chaque proposition, et les résultats sont accumulés pour guider la génération suivante, utilisant des millions de tokens pour le feedback détaillé.
Pourquoi l'ingénierie du harness est-elle comparée à un art de la soustraction?
-Parce qu'à mesure que les modèles s'améliorent, certaines parties du harness deviennent inutiles. L'ingénierie mature consiste à retirer les composants superflus tout en conservant l'efficacité, plutôt que d'ajouter constamment des structures.
Quelles sont les questions ouvertes dans le domaine de l'ingénierie du harness?
-Parmi les questions ouvertes figurent la portabilité des logiques de harness pour workflows risqués, la sécurité contre les injections de prompt et les outils malveillants, et la co-évolution du harness avec les poids du modèle pour un apprentissage mutuel.
Quelle est la principale conclusion pratique du transcript concernant les agents IA?
-Investir dans la conception et l'optimisation du harness offre des gains de performance plus importants et plus fiables que d'attendre une amélioration du modèle lui-même. En pratique, quiconque construit un agent agit comme ingénieur de harness.