EN BREF
  • 🤖 Helix représente une percée majeure dans l’intégration de l’IA et des robots humanoïdes grâce à son modèle de Vision-Language-Action.
  • Le système offre un contrôle continu et précis du haut du corps humanoïde, permettant des mouvements plus nuancés et une interaction naturelle.
  • Utilisant des instructions en langage naturel, Helix simplifie l’apprentissage et permet aux robots de manipuler une variété d’objets domestiques inédits.
  • ⚙️ Composé de deux systèmes distincts, Helix améliore la rapidité et la généralisation des tâches robotiques sans nécessiter de programmation intensive.

La révolution des robots humanoïdes a franchi une nouvelle étape avec l’introduction d’Helix par Figure, une entreprise basée en Californie. Ce modèle de Vision-Language-Action (VLA) unifie la perception, la compréhension du langage et le contrôle appris, surmontant ainsi de nombreux défis de longue date en robotique. Brett Adcock, fondateur de Figure, souligne l’importance de cette avancée, positionnant Helix comme la mise à jour la plus significative de l’histoire de l’entreprise. Avec la capacité de penser et d’agir comme un humain, Helix pourrait bien être la clé pour intégrer des robots dans nos foyers, en leur permettant de manipuler une variété d’objets domestiques sans formation spécifique ni codage.

Une série de capacités inédites

Helix se distingue par son approche novatrice du contrôle de la manipulation du haut du corps. Il offre un contrôle continu à haute fréquence de l’ensemble du corps supérieur humanoïde, y compris les poignets, le torse, la tête et les doigts individuels. Ce niveau de contrôle permet des mouvements et des interactions plus nuancés. Un autre aspect important d’Helix est sa capacité de collaboration multi-robots, lui permettant de fonctionner simultanément sur deux robots. Cette fonctionnalité élargit considérablement le champ d’action des robots dans des environnements complexes.

Les robots équipés d’Helix peuvent ainsi saisir une large gamme de petits objets ménagers, y compris ceux qu’ils n’ont jamais rencontrés auparavant. Cette capacité est facilitée par des instructions en langage naturel, ce qui améliore l’interaction et la facilité d’utilisation. En utilisant un ensemble unique de poids de réseau neuronal pour apprendre divers comportements, Helix élimine le besoin d’un réglage fin spécifique à la tâche, simplifiant ainsi le processus d’apprentissage.

Révolution technologique : cette montre ultra-futuriste contrôle vos appareils d’un simple geste grâce au LiDAR

Intégration des robots et Helix

Les systèmes robotiques actuels peinent souvent à s’adapter rapidement aux nouvelles tâches, nécessitant souvent une programmation intensive ou de nombreuses démonstrations. Figure a utilisé les capacités des Modèles de Langage Visuel (VLMs) pour permettre aux robots de généraliser leurs comportements à la demande et d’exécuter des tâches par le biais d’instructions en langage naturel. Helix est conçu pour contrôler tout le haut du corps humanoïde avec une grande dextérité et rapidité.

Il se compose de deux systèmes : le Système 1 (S1) et le Système 2 (S2). S2 est un VLM plus lent, pré-entraîné sur internet, qui se concentre sur la compréhension de la scène et du langage. S1, en revanche, est une politique visuomotrice rapide qui convertit les informations de S2 en actions robotiques en temps réel. Cette division permet à chaque système de fonctionner de manière optimale, S2 pour un traitement réfléchi et S1 pour une exécution rapide.

700 capteurs par pneu : le Cyber Tyre de Bosch et Pirelli, plus intelligent qu’un smartphone, prépare une révolution automobile

Avancées technologiques et applications pratiques

Helix résout plusieurs problèmes rencontrés par les approches robotiques précédentes, notamment l’équilibre entre la vitesse et la généralisation, la capacité à gérer des actions de haute dimension et la simplicité architecturale en utilisant des modèles standard. La séparation de S1 et S2 permet des améliorations indépendantes de chaque système sans dépendance à un espace d’observation ou d’action partagé.

Un ensemble de données d’environ 500 heures de comportements téléopérés a été collecté pour entraîner Helix, utilisant un VLM d’auto-étiquetage pour générer des instructions en langage naturel. L’architecture comprend un VLM de 7 milliards de paramètres et un transformateur de contrôle de 80 millions de paramètres, traitant les entrées visuelles pour permettre un contrôle réactif basé sur les représentations latentes générées par le VLM.

« Marcher sur la glace sans glisser, on l’a fait » : inspiré des geckos, ce matériau révolutionnaire pourrait rendre les trottoirs hivernaux ultra-sécurisés

Implications futures et perspectives

Contrairement aux systèmes robotiques précédents, Helix peut générer une manipulation collaborative, dextrale et à long terme à la volée sans démonstrations spécifiques à la tâche ou programmation manuelle étendue. Helix affiche une forte généralisation des objets, étant capable de saisir des milliers de nouveaux objets ménagers de formes, tailles, couleurs et propriétés matérielles variées jamais rencontrés auparavant en formation, simplement en posant une question en langage naturel.

Cette avancée représente un pas transformateur dans la manière dont Figure échelonne les comportements des robots humanoïdes, une évolution que l’entreprise estime être cruciale à mesure que ses robots assistent de plus en plus dans les environnements domestiques quotidiens.

Alors que les robots continuent de s’intégrer de plus en plus dans notre vie quotidienne, quelle sera la prochaine frontière pour Helix et l’IA en robotique domestique ?

Ça vous a plu ? 4.5/5 (21)

Partagez maintenant.

Jessica, journaliste avec dix ans d’expérience en management et production de contenu, est diplômée de Sciences Po en Communication et Médias. Curieuse et stratégique, elle analyse les idées de business et les opportunités émergentes, offrant une vision riche et documentée. Contact : [email protected].

6 commentaires
Publiez votre avis