Cynthia Reina, en "Marketing Directo".-
Google está cada vez más cerca de conseguir su objetivo de crear un modelo de inteligencia artificial de 1000 idiomas para destronar a ChatGPT, anunciado en noviembre. La compañía está desarrollando todo tipo de IAs y con esta última, quieren construir un modelo que pueda comprender los 1000 idiomas más hablados del mundo.
Yu Zhang, científico investigador, y James Qin, ingeniero de software, Google Research aseguran en un comunicado que, Universal Speech Model (USM), como se llamará la IA, continúa avanzando.
Ambos describen USM como «una familia de modelos de voz de última generación» con 2 mil millones de parámetros entrenados en 12 millones de horas de voz y 28 mil millones de oraciones en más de 300 idiomas.
Además, aseguran que esta inteligencia artificial de Google ya se usa en YouTube (por ejemplo, para los subtítulos). «Puede realizar el reconocimiento de voz automático (ASR) no solo en los idiomas más hablados, como el inglés y el mandarín, sino también en idiomas de escasos recursos, como el amárico, el cebuano, el asamés, y azerbaiyanos, por nombrar algunos», informan.
De momento, USM admite más de 100 idiomas y sienta las bases para construir un sistema aún más grande.
Google analiza los desafíos del aprendizaje supervisado
La compañía asegura que debemos abordar dos desafíos importantes en el aprendizaje supervisado.
1. Obtener suficientes datos para entrenar modelos de alta calidad: requiere demasiado tiempo y dinero. Algunos idiomas son difíciles de encontrar. El aprendizaje autosupervisado puede aprovechar los datos de solo audio, que están disponibles en cantidades mucho mayores en todos los idiomas.
2. Los modelos deben mejorar de manera computacionalmente eficiente mientras amplían la cobertura y la calidad del idioma.
El enfoque de la compañía: aprendizaje autosupervisado con ajuste fino
Para el primer paso, utilizan BEST-RQ. Aseguran que ha demostrado grandes resultados y ser eficiente cuando se usan cantidades muy abundantes de datos de audio no supervisados.
En el segundo paso del proceso, se utiliza un enfoque de entrenamiento supervisado previo con múltiples objetivos para incorporar conocimientos adicionales de datos de texto. Este modelo incluye un módulo codificador adicional que toma texto como entrada y capas adicionales para combinar la salida de la codificación de voz y texto. El modelo se entrena en datos de voz sin etiquetar, voz etiquetada y texto.
En la última etapa del proceso, el modelo USM se ajusta a las tareas posteriores. El proceso general de entrenamiento se puede ilustrar de manera sencilla. Gracias al conocimiento adquirido durante el entrenamiento previo, los modelos USM logran una alta calidad con solo una pequeña cantidad de datos supervisados en las tareas posteriores.
Si quieres saber más sobre el comunicado, haz clic aquí.
Comentarios
Publicar un comentario