Cover Image for La inteligencia artificial Gemini de Google ahora puede analizar y comentar archivos de audio.

La inteligencia artificial Gemini de Google ahora puede analizar y comentar archivos de audio.

Google ha habilitado la función que permite a todos los usuarios de Gemini cargar archivos de audio para interactuar con el chatbot de inteligencia artificial. Los usuarios pueden formular preguntas sobre el contenido de los archivos y transformar esa información en otros formatos sin costo alguno.

Google ha actualizado su inteligencia artificial Gemini para incluir funciones de procesamiento de archivos de audio. Ahora, los usuarios pueden subir archivos de audio y hacer consultas sobre ellos, una mejora significativa en su capacidad multimodal, que ya abarca texto, imágenes y videos. Este nuevo servicio está disponible tanto en la aplicación móvil de Gemini como en su versión web.

Para utilizar esta función, los usuarios solo necesitan tocar el icono “+” en la ventana de chat de Gemini y seleccionar el archivo de audio que desean subir. La buena noticia es que este servicio es gratuito para todos los usuarios de Gemini. Según la información proporcionada, los clips de audio pueden tener una duración de hasta diez minutos. Sin embargo, aquellos que se suscriben a los planes Gemini AI Pro o Ultra tienen la ventaja de poder subir archivos de audio de hasta tres horas.

Además del audio, Gemini permite cargar hasta diez archivos a la vez, incluidos archivos ZIP, y videos de hasta 2GB. Los usuarios gratuitos pueden manejar videos de hasta cinco minutos, mientras que los suscriptores tienen un límite de una hora. También es posible subir un código de carpeta o un repositorio de GitHub, siempre que no supere los 5,000 archivos o 100MB de tamaño.

Para quienes prefieren los textos, esta funcionalidad puede resultar muy útil. La capacidad de resumir largas conferencias o extraer puntos específicos de un podcast brinda un nuevo nivel de comodidad. Por ejemplo, se puede pedir a Gemini que elabore informes extensos, resúmenes breves o incluso transformaciones en diapositivas de conocimiento que se pueden exportar como imágenes.

Además, la herramienta NotebookLM complementa estas funciones al convertir archivos de texto en un podcast atractivo con dos voces, y también ofrece resúmenes en formato de video. Por otro lado, Google está proporcionando acceso gratuito a Gemini AI Pro para estudiantes en varios países, lo que amplía aún más las oportunidades de aprendizaje.

La evolución de la inteligencia artificial ha permitido pasar de simples interacciones de chatbot a realizar tareas más complejas como reservar mesas en restaurantes, agregar productos a la cesta de Amazon y buscar información detallada. Sin embargo, la calidad de las respuestas, especialmente en compras en línea, puede variar dependiendo del chatbot utilizado. Un análisis ha revelado que las recomendaciones de marcas difieren en un 61.9% según la plataforma de inteligencia artificial empleada.

Por otro lado, Claude, uno de los chatbots más populares que está siendo considerado por Apple para mejorar Siri, empezará a guardar transcripciones de chats para fines de entrenamiento de inteligencia artificial, lo que ya ha comenzado a ser notificado a sus usuarios.

Finalmente, Japón ha utilizado simulaciones de inteligencia artificial para preparar a la población ante posibles erupciones del Monte Fuji, presentando un video generado por IA que ilustra la devastación que podría causar una erupción en Tokio, con el objetivo de alertar a los ciudadanos sobre la urgencia de las medidas de prevención.