OpenAI, la société d’intelligence artificielle présidée par Sam Altman, affirme être capable de cloner une voix humaine en une quinzaine de secondes seulement à partir d’un échantillon vocal, à travers son dernier modèle de synthèse vocale, Voice Engine.
Pionnier dans la synthèse vocale
C’est une révolution technologique majeure qui vient de la part d’OpenAI : le clonage vocal humain. Cette prouesse est rendue possible grâce à « Voice Engine », le dernier dispositif de synthèse vocale créé par OpenAI en 2022. Les sociétés comme Apple proposent déjà de générer une voix en 15 minutes tandis qu’OpenAI prétend réaliser le même exploit en seulement un quart de minute. En écoutant un individu pendant cet intervalle, le dispositif est capable de générer une voix synthétique reproduisant même les nuances émotionnelles.
Les applications potentielles de la Voice Engine
Dans une publication sur son blog en date du 29 mars, OpenAI explique les différents usages possibles de cette technologie. L’objectif affiché est d’aller au-delà de la prouesse technologique et de développer des applications concrètes et utiles pour les utilisateurs finaux. Cette technologie pourrait notamment être utilisée pour l’aide à la lecture avec une voix familière, les traductions en temps réel avec sa propre voix, ou encore pour aider les personnes ne pouvant plus parler.
Deux exemples concrets sont déjà en place : la technologie alimente actuellement ChatGPT Voice ainsi que les podcasts traduits sur la plateforme Spotify. Les résultats sont stupéfiants, puisqu’il est pratiquement impossible de discerner la voix originale de celle générée par la machine.
Prévention des abus
Cependant, OpenAI reste consciente des risques potentiels associés à cette technologie puissante, notamment la usurpation de l’identité d’autrui. Ainsi, Voice Engine n’est pas accessible au grand public pour limiter les dérives. Toutefois, pour les entreprises qui utilisent la technologie, il est exigé qu’elles ne s’engagent pas à usurper l’identité vocale des personnes.
Pour anticiper les usages malveillants de la technologie, OpenAI a implanté un filigrane audio, qui peut être repéré par une machine. Cette mesure de sécurité est accompagnée d’une stratégie complexe incluant la mise en place d’une liste de voix interdites et d’expériences d’authentification vocale. Le but est de s’assurer que le locuteur original donne sciemment son consentement pour que sa voix soit reproduite par le service.
Face à cette avancée technologique impressionnante, demeure une question fondamentale : Sommes-nous prêts à accepter que notre voix, partie intégrante de notre identité, puisse être reproduite et utilisée dans un contexte technologique ? Une réflexion dont l’issue façonnera sans aucun doute l’avenir de la synthèse vocale.
Ça vous a plu ? 4.5/5 (22)