No. 09 · Technical

L'usine d'IA : orchestration et observation (Nexus)

Un bac à sable infonuagique sécurisé où les agents travaillent en autonomie, et où chaque action demeure observable et vérifiable à mesure qu'ils progressent.

Abstract. Accorder de l'autonomie aux agents leur permet de résoudre des problèmes de manière nouvelle et créative. Pour le faire de façon sécuritaire dans un environnement gouvernemental, l'Alberta a conçu un outil sur mesure appelé Nexus qui rend les actions des agents observables pendant qu'ils travaillent. Nexus offre un bac à sable sécurisé où les agents travaillent de façon indépendante ou en groupe sur des problèmes difficiles qui n'ont pas de solution claire à l'avance. Comme chaque action posée par un agent dans cet espace technique demeure visible et vérifiable, l'autonomie peut être accordée en toute sécurité. Une application de calibre entreprise peut désormais être déployée de façon sécurisée dans Nexus en quelques minutes. Faire évoluer la plateforme pour soutenir une orchestration plus poussée permettra de réaliser les quatre stratégies de modernisation fondées sur l'IA et ouvrira de nouvelles portes pour les opérations d'agents autonomes.

Lorsqu'on accorde aux systèmes d'IA la latitude et les outils pour agir avec une certaine autonomie, en choisissant leurs propres prochaines étapes selon leur propre jugement, on peut justement les appeler des « agents ». Cette capacité d'agir est rendue possible par des outils que l'IA peut activer au moyen de ses sorties, qui s'exécutent sur l'ordinateur et renvoient souvent un résultat. L'IA récupère ce résultat, évalue ses réussites ou ses échecs, et est réactivée pour essayer de nouveau dans un processus continu d'expérimentation. C'est une façon de travailler efficace. Les processus agentiques rehaussent l'efficacité de l'IA au-delà de la manière dont la plupart des gens l'utilisent aujourd'hui, comme un outil de clavardage. Un agent d'IA devient un collaborateur persistant et compétent.

## §01 Réunir les conditions du succès

Aujourd'hui, les agents les plus récents peuvent accomplir un travail significatif avec une intervention minimale, fonctionnant avec une supervision limitée ou nulle pendant des heures, voire des jours. Comme tout travailleur, les sorties et les résultats d'un agent doivent être mesurés et gérés afin que nous puissions confirmer que ses actions atteignent nos objectifs. Une sortie générée par l'IA qui manque de preuve ne peut faire l'objet de confiance, peu importe à quoi ressemble le produit final. L'IA doit démontrer son travail, et notre formation de l'Alberta AI Academy enseigne à notre personnel à « vérifier, puis faire confiance » à toutes les sorties d'IA.

Le juste équilibre consiste à accorder de l'autonomie aux agents tout en imposant l'observabilité et une piste de vérification, pour que l'IA fonctionne avec rapidité, mais fournisse aussi la preuve qu'elle suit les bons processus. Ces outils portent une vaste connaissance intégrée des commandes nécessaires pour faire fonctionner un ordinateur, et trop les contraindre gaspille cette capacité. Nous devons savoir ce qu'ils font et comment, mais il faut parfois aussi leur laisser le champ libre.

## §02 Relier les morceaux est la partie difficile

La capacité de résolution de problèmes d'un agent d'IA est un facteur de succès essentiel dans la construction ou la réparation de solutions technologiques. Créer une application logicielle ne consiste qu'en partie à produire du code. Une application s'inscrit dans un environnement plus vaste et souvent compliqué fait de systèmes d'exploitation, de structures de permissions, de réseaux, de bases de données, d'outils et de systèmes tiers. Relier correctement ces morceaux ensemble est l'une des parties les plus chronophages du travail. Nous savons comment écrire du code; le faire fonctionner de manière fiable à travers toutes ces connexions est la partie difficile, car les morceaux ne s'emboîtent pas toujours. Un bon développeur consacre énormément de temps à concevoir et à mettre à l'essai ces intégrations, tout en préparant aussi l'application à survivre au passage de l'environnement de développement à la production, où des milliers d'utilisateurs imprévisibles peuvent interagir avec elle en même temps. Un bon code doit être logiquement correct, en appliquant les bonnes politiques et règles, et aussi fonctionnellement aligné sur l'environnement dans lequel il s'exécute. Tout développeur expérimenté vous dira que ce travail exige une résolution de problèmes persistante, de l'expérimentation et un apprentissage constant. Bref, de la ténacité. De la persévérance.

Au cours des 18 derniers mois, le personnel de Technologie et Innovation a étudié et surveillé ces agents d'IA dans le domaine du développement logiciel. Nous avons observé une croissance importante des capacités de ces agents d'IA, et aussi des outils qui leur permettent d'être efficaces. Les maximalistes de l'IA de l'Alberta ont également observé que des agents sans contraintes, ceux à qui l'on donne la latitude de résoudre un problème sans voie de solution prédéfinie, révélaient fréquemment des solutions nouvelles à des problèmes ardus. Souvent, les agents utilisaient des méthodes que les maximalistes saisissaient sur le plan conceptuel, mais qu'ils n'avaient pas les connaissances techniques précises pour anticiper. Toutes leurs interventions n'étaient pas souhaitées, alors des garde-fous ont été introduits par l'entremise de l'environnement d'exécution afin de rendre le travail des agents plus opinionné, en suivant les normes d'entreprise, sans freiner l'élan vers l'avant. Lorsqu'on leur donnait l'instruction de créer des sous-agents, les agents d'IA généraient des dizaines d'instances pour aborder le même problème sous différents angles. Une telle investigation a révélé qu'ils étaient efficaces pour cerner de nouvelles solutions viables, ainsi que des bogues et des lacunes dans le code existant, qui pouvaient être comblés rapidement.

Rendre les agents efficaces signifie les guider avec votre jugement et savoir quand prendre du recul. Un agent a souvent besoin de contexte et d'orientation de la part d'un orchestrateur humain pour amorcer le travail, et de nouveau aux décisions et carrefours critiques. Mais la connaissance propre de l'humain peut être à la fois habilitante et limitante. Si l'humain dit « fais A » et que A est erroné, l'agent est lié par cette erreur. Si, au lieu de cela, l'humain dit « développe et mets à l'essai dix approches en parallèle » et laisse l'agent les évaluer, une solution inattendue a la place d'émerger. Être prescriptif sur la manière dont l'agent doit travailler le confine souvent à votre propre vision du problème. Alors comment obtenir le meilleur des deux mondes? L'arrivée de Nexus.

## §03 Qu'est-ce que Nexus

Nexus est un environnement virtuel hébergé sur Google Cloud Platform où chaque développeur a accès à sa propre machine virtuelle et peut exécuter un nombre illimité d'instances d'agents d'IA dans un bac à sable sécurisé, tout en déléguant l'accès à l'agent pour l'aider à la conteneurisation et au déploiement vers Google Cloud. Il s'accompagne d'un terminal, d'un navigateur, d'un système de fichiers, de l'observabilité et de contrôles de publication, ainsi que d'un modèle de sécurité en surcouche. À titre de couche de protection supplémentaire, toutes les applications sont déployées derrière un point d'accès privé, accessible uniquement par une connexion RPV interne au gouvernement de l'Alberta.

Le système fait en sorte que les agents puissent fonctionner comme des utilisateurs de premier rang de l'environnement infonuagique, en réalisant des déploiements immédiats vers le nuage avec une seule consigne « publier cette application ». Ils disposent de leur propre environnement d'exécution intégré qui leur permet d'accéder aux contrôles du système, et vous pouvez redéléguer l'accès toutes les quelques heures afin qu'aucun accès que vous accordez à l'agent ne soit permanent. Il s'agit d'un mode d'octroi d'accès de type gestion des identités privilégiées au nom de l'utilisateur, permettant à l'agent de fonctionner en son nom.

Il s'intègre aussi à une suite appelée Ent Tools, nos outils d'entreprise, qui étendent la capacité de tout agent. Nous avons Brave Search, ElevenLabs, tous les points d'accès API des grands fournisseurs infonuagiques, des modèles à code source ouvert et une grappe de calcul privée. Nous avons une série d'autres API ouvertes : l'heure, la météo et les nouvelles. Nous avons une intégration des médias sociaux afin qu'un agent puisse puiser dans l'information en temps réel sur le monde. Et nous avons des outils d'entreprise en cours de construction pour soutenir les intégrations à SharePoint, à ServiceNow et au PGI 1GX. Au moyen de l'authentification unique, l'utilisateur peut y déléguer son accès. Nous l'étendrons à l'espace Microsoft 365 dans un proche avenir, afin qu'un utilisateur puisse déléguer l'accès à Teams, au courriel, au calendrier et à d'autres services.

Le but des outils d'entreprise est de fournir de façon sécuritaire des ressources agentiques aux ministères partenaires qui n'ont pas de service de TI, mais qui souhaitent construire des outils significatifs. Par la délégation, nous facilitons l'accès à ces ressources de manière sécuritaire et surveillée.

## §04 L'univers élargi

Nous superposons également la passerelle d'IA Bifrost et des scripts personnalisés pour ajouter la détection et le retrait des renseignements personnels identifiables (RPI). Les utilisateurs qui soumettent des RPI à des modèles dont la classification est insuffisante sont signalés et avisés qu'il existe un désalignement entre leur choix de modèle et leur cas d'utilisation. L'utilisation d'outils par l'entremise de la passerelle Enterprise Tools ajoute une couche de sécurité supplémentaire et offre une vérification et une révision significatives des interactions sortantes. Les deux plateformes permettent la maîtrise des coûts, où des budgets quotidiens peuvent être attribués aux développeurs et aux charges de travail pour prévenir une utilisation incontrôlée des jetons lors de tâches de longue durée, ou demander des approbations de budget ponctuelles directement par la console pour le traitement de grandes quantités de données.

L'observabilité intervient en permettant au développeur humain, dans son propre environnement Nexus, de surveiller ce que font les agents de codage. Les utilisateurs administratifs de Nexus peuvent aussi observer et vérifier tous les agents sur toutes les machines virtuelles. Les vues administratives ont révélé des schémas intéressants et parfois inattendus. Les agents ont démontré une persistance croissante à sonder leurs propres environnements pour comprendre les options offertes. Certains mouvements nous ont surpris. Nous avons utilisé l'observabilité pour voir ce que faisaient les agents, et créé d'autres agents pour les vérifier, ce qui nous a amenés à modifier nos schémas à mesure que les agents repoussaient les limites et trouvaient des lacunes. Cette période de « rodage » a rendu Nexus plus robuste et a fait ressortir des lacunes qui étaient d'abord cachées.

## §05 Nexus et les quatre approches

Pour l'Alberta, Nexus nous a permis d'utiliser ces agents pour résoudre des problèmes nouveaux, et nous l'avons fait. Toutes les charges de travail dont nous avons parlé, par l'entremise de Git Insights, de Git Insights Ministry et de dizaines d'applications, ont été conçues dans Nexus. Depuis sa mise en service il y a tout juste trois mois, plus de 600 applications ont été conçues sur la plateforme, et elle a permis le type de vélocité nécessaire pour réaliser les transformations que nous recherchons. Nexus était une évolution nécessaire qui a débloqué un essor important de l'accélération pour nos modèles de garage d'IA et d'usine d'IA. Sans Nexus pour simplifier le processus de construction complexe à une seule consigne « publier cette application », la vélocité vers l'avant de nos développeurs serait freinée par les processus manuels de demande de billets et d'attente de plusieurs jours ou semaines pour des éléments de l'infrastructure.

Pour l'avenir, Nexus fournit le modèle de référence pour deux des approches de transformation à venir, abordées dans le document blanc sur Les quatre approches de la modernisation par l'IA. Nexus soutient actuellement l'approche 1, le garage d'IA, et l'approche 2, l'usine d'IA, qui prennent en charge la remédiation et le développement directs d'applications. L'expansion de Nexus permet l'approche 3, avec des couches d'agents orchestrateurs supervisant des centaines d'environnements virtuels, un pour chaque application patrimoniale. Nous pouvons imaginer une situation où toutes les applications d'un ministère sont démarrées dans leur propre environnement virtuel avec une orchestration globale qui les surveille. Intégré à chaque application, un agent gère son état de santé et sa performance, l'application de correctifs et la sécurité. S'il y a 200 applications dans un ministère, il y aurait 200 agents pour les superviser, puis des agents de supervision par-dessus, surveillant la télémétrie sur la disponibilité et l'indisponibilité des applications, l'état des agents, et ce sur quoi ils travaillent. Appliquent-ils des correctifs? Effectuent-ils des publications? Documentent-ils? Et il y a ensuite d'autres couches abstraites d'architectes, à l'œuvre pour intégrer et reconstruire des systèmes dans de nouveaux environnements et piles technologiques cibles.

Nexus jette aussi les bases de l'approche 4, où nous construisons une couche d'orchestration d'agents entièrement sans interface, avec les fonctions du gouvernement exposées et consommées par API. Dans cet environnement, des personnes de partout au gouvernement qui ont été formées par l'AI Academy pourront définir un agent, lui déléguer un accès, puis surveiller et suivre ses étapes pour atteindre leurs objectifs. Cette version future de Nexus n'est pas loin, et nous travaillons avec diligence à comprendre comment elle se déploie à grande échelle.

## §06 L'arrivée du claw

Cette plateforme permet aussi à notre direction de la livraison et de l'habilitation de l'IA de commencer à mettre en œuvre une orchestration « fondée sur le claw », où des agents autodirigés, désormais appelés claws, ou travailleurs autonomes à apprentissage continu, comme OpenClaw ou Hermes, sont activés dans un environnement gouvernemental contrôlé. Il s'agit de l'état cible probable de l'utilisation agentique au gouvernement. Un agent claw fonctionne dans un environnement en réseau, où le développement, la mise en réseau, la cybersécurité et la surveillance sont tous pris en charge par des agents de type claw travaillant de manière quelque peu collaborative, ou même contradictoire, dans un environnement. Dans un tel scénario, des agents au chapeau blanc peuvent simuler des auteurs de cybermenaces, jouant au chat et à la souris. C'est le type de schéma persistant qu'émulent les auteurs de menaces, alors il est raisonnable pour nous d'imiter ces schémas au moyen d'un OpenClaw ou d'un Hermes. Élargir l'utilisation de ce type d'architecture claw par l'entremise de Nexus devient une prochaine étape raisonnable au cours des 6 à 12 prochains mois.

La virtualisation et la conteneurisation de nos charges de travail, la rapidité de déploiement, l'observabilité et l'évolutivité à travers des centaines de développeurs, chacun exécutant des dizaines à des centaines d'agents, chacun gérant des dizaines à des centaines d'applications, sont une exigence absolue pour utiliser l'IA à grande échelle au sein d'une grande organisation comme le gouvernement. Il en va de même pour la capacité d'exécuter des agents de manière autonome avec une confiance suffisante qu'ils travaillent en alignement, que les erreurs peuvent être détectées, que les intégrations à GitHub se produisent, et que les commits permettent l'annulation et le rétablissement. Tout cela accroît la confiance dans l'utilisation et la gestion de l'IA. Ces habitudes sont codifiées dans les environnements d'exécution, de sorte que les agents d'IA suivent les schémas définis par les pratiques exemplaires. Nexus a débloqué la vélocité vers l'avant nécessaire pour faire avancer notre vision d'une accélération vingtuple de la livraison.

## §07 Élargir l'accès à l'IA

La plateforme Nexus nous permet de nous préparer à un accès démocratisé, même pour le personnel non TI, à une IA agentique autonome au sein d'un effectif plus large, où l'effet cumulatif d'une utilisation non gérée de l'IA pourrait autrement semer le chaos s'il était laissé sans contrainte. Nexus amène les charges de travail des opérations d'IA dans un état de cohérence, où chaque Constructeur a son propre environnement, où chaque environnement est observable et où chaque agent est géré, où l'accès aux modèles est contrôlé par des passerelles comme Bifrost, et où l'accès aux outils est régulé comme par un contrôle aérien selon les règles de la passerelle Enterprise Tools. Toute organisation gouvernementale qui cherche à avancer rapidement avec l'IA agentique doit mettre en place une architecture semblable pour conjuguer sécurité et rapidité.

Nexus résout une moitié essentielle de l'observabilité : savoir que les agents travaillent, et pouvoir vérifier leurs activités techniques. Mais cette information demeure inaccessible aux clients et partenaires d'affaires, aux experts en la matière, à l'équipe de mobilisation et aux gestionnaires de projet. Pour cela, nous avons construit une deuxième couche d'observabilité, que couvre le prochain document, appelée Velocity.

Tags: ai-factory, nexus, sandbox, gcp, agents, orchestration, observability, claw

Open the interactive version