OpenAI a introduit une version bêta publique de l'API Realtime, une API qui permet aux développeurs payants de créer des expériences multimodales à faible latence, y compris du texte et de la parole dans les applications.
Introduite le 1er octobre, l'API en temps réel, similaire au mode vocal avancé d'OpenAI ChatGPT, prend en charge les conversations parole-parole naturelles à l'aide de voix prédéfinies que l'API prend déjà en charge. OpenAI introduit également l'entrée et la sortie audio dans l'API Chat Completions pour prendre en charge les cas d'utilisation qui n'ont pas besoin des avantages de faible latence de l'API Realtime. Les développeurs peuvent transmettre des entrées texte ou audio dans GPT-4o et demander au modèle de répondre avec du texte, de l'audio ou les deux.
Grâce à l'API Realtime et à la prise en charge audio de l'API Chat Completions, les développeurs n'ont pas besoin de relier plusieurs modèles pour alimenter les expériences vocales. Ils peuvent créer des expériences conversationnelles naturelles avec un seul appel API, a déclaré OpenAI. Auparavant, pour créer une expérience vocale similaire, les développeurs transcrivaient un modèle de reconnaissance vocale automatique tel que Whisper, transmettaient le texte à un modèle de texte à des fins d'inférence ou de raisonnement et lisaient la sortie du modèle à l'aide d'un modèle de synthèse vocale. Cette approche entraînait souvent une perte d’émotion, d’emphase et d’accents, ainsi qu’une latence.


GIPHY App Key not set. Please check settings