Tecnología
Las grandes tecnológicas se han empeñado en algo este año: que terminemos hablando con una IA
La mayoría de las veces el teclado es nuestra forma de usar ChatGPT. Lo mismo ocurre con Gemini, Claude, Llama o cualquier otro modelo del mercado. Y sin embargo la interacción directa con nuestra voz va ganando enteros. Hablar con las máquinas poco a poco nos va resultando menos extraño. Y menos que resultará.
Llama 4. En Financial Times citan a fuentes cercanas al proyecto de desarrollo del nuevo modelo de IA de Meta. Llama 4 —si es que acaba llamándose así— se centrará en mejorar características de interacción por voz. También habrá opciones dirigidas a ese futuro de agentes de IA, sin duda, pero la voz parece que será especial protagonista. Se espera que este nuevo modelo llegue «en las próximas semanas».
Voz nativa. Chris Cox, uno de los máximos directivos en Meta, indicó que Llama 4 será un «omnimodelo» en el que «la voz será nativa». Hasta ahora, explicaba, el proceso era engorroso. Había que convertir voz a texto, enviar el texto al LLM, obtener la respuesta en texto y convertirla en voz de nuevo.
Es una revolución, dicen en Meta. Esa concepción nativa de la voz es una opción especialmente importante para la interacción con los chatbots pero también con el hardware. Y aquí las Ra-Ban Meta pueden ser las grandes beneficiadas. Como decía Cox, es algo importante «para lainterfaz de producto, la idea de que se puede hablar con Internet y preguntarle cualquier cosa. Creo que aún no nos hemos hecho a la idea de lo potente que es».
Todas a por lo mismo. Pero es que Meta está lejos de ser la única que piensa eso. Hace tiempo que Google ofrece funciones de voz en Gemini en nuestros móviles, y lleva ventaja porque ya estábamos acostumbrados a usar Google Assistant. OpenAI nos asombró hace meses con GPT-4o y aquella voz que hasta se convertía en profesora de cualquier disciplina.
Elon Musk y su startup, xAI, han planteado un Grok 3 de lo más parlanchín y que puede adoptar tonos personalizados como uno «desquiciado» y otro «sexy» para hablar con nosotros. Claude parece más rezagada aquí, pero incluso Alexa+, el nuevo modelo de Amazon, tiene un componente muy fuerte conversacional con IA, algo lógico viniendo de dónde viene se producto.
Voces casi humanas. Y mientras que los asistentes de voz de hace unos años ofrecían voces adecuadas pero algo planas, los modelos de IA actuales logran voces prácticamente indistinguibles de las humanas. Ayer hablábamos de Sesame y de esa voz sintenizada que hace pausas y cambia de tono para ajustarse a la conversación como lo haría un humano. En esa misma carrera están otras como Eleven Labs o
Para qué teclear. Aunque el teclado siempre ha tenido la ventaja de permitirnos «pensar antes de hablar», la interacción directa con los modelos de IA parece mucho más potente en muchos escenarios en los que esa conversación en tiempo real es una opción ganadora.
Id preparándoos para hablar con las máquinas. Todos estos esfuerzos se dirigen al mismo sitio: hablar con una IA. Una que probablemente de momento esté en la nube, pero que podrá funcionar de forma inmediata en nuestro móvil, pero también en unas gafas conectadas como las Ray-Ban Meta —mucho futuro ahí—, unos auriculares o un reloj inteligente. Y como ocurría con ‘Her’, puede que veamos a un montón de gente que lleva unas gafas o un auricular y que parece hablar sola. Pero que en realidad está hablando con una IA.
Imagen | Warner Bros Pictures
En Xataka | ¿Estamos preparados para hablar con las máquinas?
–
La noticia
Las grandes tecnológicas se han empeñado en algo este año: que terminemos hablando con una IA
fue publicada originalmente en
Xataka
por
Javier Pastor
.