
OpenAI a commencé à déployer le mode voix avancé de ChatGPT mardi, donnant aux utilisateurs leur premier accès aux réponses audio hyper-réalistes de GPT-4o. La version alpha sera disponible pour un petit groupe de utilisateurs ChatGPT Plus aujourd'hui, et OpenAI indique que la fonctionnalité sera progressivement déployée pour tous les utilisateurs Plus à l'automne 2024.
Lorsque OpenAI a présenté la voix de GPT-4o en mai, la fonction a choqué le public avec des réponses rapides et une ressemblance troublante avec la voix d'un être humain réel - en particulier une voix spécifique. La voix, Sky, ressemblait à celle de Scarlett Johansson, l'actrice derrière l'assistant artificiel dans le film "Her". Peu de temps après la démonstration d'OpenAI, Johansson a déclaré avoir refusé de multiples demandes du PDG Sam Altman d'utiliser sa voix, et après avoir vu la démonstration de GPT-4o, a engagé un conseil juridique pour défendre sa ressemblance. OpenAI a nié avoir utilisé la voix de Johansson, mais a ensuite supprimé la voix présentée dans sa démonstration. En juin, OpenAI a déclaré qu'il reporterait la sortie du mode voix avancé pour améliorer ses mesures de sécurité.
Un mois plus tard, et l'attente est terminée (en quelque sorte). OpenAI indique que les capacités de vidéo et de partage d'écran présentées lors de sa mise à jour de printemps ne feront pas partie de cette alpha, lançant à une "date ultérieure". Pour le moment, la démonstration de GPT-4o qui a impressionné tout le monde est toujours juste une démonstration, mais certains utilisateurs premium auront désormais accès à la fonctionnalité vocale de ChatGPT présentée là-bas.
ChatGPT peut maintenant parler et écouter
Vous avez peut-être déjà essayé le mode voix actuellement disponible dans ChatGPT, mais OpenAI indique que le mode voix avancé est différent. La vieille solution de ChatGPT pour l'audio utilisait trois modèles distincts: un pour convertir votre voix en texte, GPT-4 pour traiter votre commande, puis un troisième pour convertir le texte de ChatGPT en voix. Mais GPT-4o est multimodal, capable de réaliser ces tâches sans l'aide de modèles auxiliaires, créant des conversations avec une latence significativement moindre. OpenAI affirme également que GPT-4o peut détecter les intonations émotionnelles dans votre voix, y compris la tristesse, l'excitation ou le chant.
Dans cette phase pilote, les utilisateurs de ChatGPT Plus pourront voir de première main à quel point le mode voix avancé d'OpenAI est vraiment hyper-réaliste. TechCrunch n'a pas pu tester la fonctionnalité avant la publication de cet article, mais nous la testerons dès que nous y aurons accès.
OpenAI indique qu'il publie progressivement la nouvelle voix de ChatGPT pour surveiller de près son utilisation. Les personnes du groupe alpha recevront une alerte dans l'application ChatGPT, suivie d'un e-mail avec des instructions sur la façon de l'utiliser.
Depuis la démonstration d'OpenAI, la société déclare avoir testé les capacités vocales de GPT-4o avec plus de 100 équipes de sécurité externes parlant 45 langues différentes. Un rapport sur ces efforts de sécurité est prévu pour début août.
La société indique que le mode voix avancé sera limité aux quatre voix prédéfinies de ChatGPT - Juniper, Breeze, Cove et Ember - créées en collaboration avec des acteurs de voix rémunérés. La voix Sky présentée dans la démonstration de mai d'OpenAI n'est plus disponible dans ChatGPT. La porte-parole d'OpenAI, Lindsay McCallum, indique que "ChatGPT ne peut pas imiter les voix d'autres personnes, individus et personnalités publiques, et bloquera les sorties qui diffèrent de l'une de ces voix prédéfinies".
OpenAI cherche à éviter les controverses liées aux deepfakes. En janvier, la technologie de clonage vocal de la startup AI ElevenLabs a été utilisée pour imiter le président Biden, trompant ainsi les électeurs lors des primaires au New Hampshire.
OpenAI affirme également avoir introduit de nouveaux filtres pour bloquer certaines demandes de génération de musique ou d'autres contenus audio protégés par des droits d'auteur. Au cours de l'année écoulée, des entreprises d'IA se sont retrouvées dans des problèmes juridiques pour violation de droits d'auteur, et des modèles audio comme le GPT-4o ouvrent une toute nouvelle catégorie d'entreprises pouvant déposer une plainte. En particulier, les maisons de disques, connues pour être très litigieuses, ont déjà poursuivi en justice les générateurs de chansons AI Suno et Udio.