La última herramienta de inteligencia artificial de Google, “Whisk,” permite a los usuarios subir fotografías para obtener una imagen fusionada, generada por IA, sin tener que escribir una sola palabra.
Antes de que Whisk mezcle fotografías, los usuarios pueden proporcionar imágenes de temas, escenarios y estilos.
En una publicación de blog, Google llamó a Whisk una “herramienta creativa” para inspiración rápida, no un “editor de imágenes tradicional.” Whisk está destinado a ser una función de IA divertida, no una herramienta profesional.
Empresas de tecnología como Google y OpenAI se apresuran a ofrecer productos para consumidores que demuestren la nueva y emocionante tecnología, incluso cuando los detractores advierten que el crecimiento de la IA sin límites es peligroso para la humanidad.
Desde que OpenAI introdujo Dall-E, una herramienta de producción de texto a imagen, en 2021, las obras de arte generadas por IA han inundado las redes sociales y se han permeado en productos para consumidores. Google Whisk es un generador de imagen a imagen que se basa en generadores de texto a imagen.
Los usuarios de Whisk pueden modificar sus entradas y mezclar categorías para crear peluches, pines de esmalte y pegatinas. Los usuarios pueden dirigir detalles utilizando palabras, pero una imagen no es esencial.
“Whisk está diseñado para permitir a los usuarios mezclar un sujeto, escena y estilo de nuevas y creativas maneras, ofreciendo exploración visual rápida en lugar de ediciones perfectas en píxeles,” declaró Thomas Iljic, director de gestión de productos de Google Labs.
Google adquirió DeepMind en 2014 y utilizó su IA generativa para construir Whisk.
Whisk utiliza el servicio de IA principal de Google, Gemini, introducido en diciembre de 2023, e Imagen 3, el generador de texto a imagen más reciente de DeepMind.
Imagen 3 recibe subtítulos de Gemini cuando los usuarios publican fotografías. Para mezclar la imagen final, la técnica captura la “esencia” del tema en lugar de una reproducción exacta, lo que puede desviarse del estímulo inicial.
Google afirmó en una publicación de blog que la imagen creada puede diferir de las fotos iniciales en altura, corte de cabello y tono de piel.
Google recibió críticas en febrero cuando lanzó el convertidor de texto a imagen de Gemini porque creó imágenes históricamente incorrectas.
Whisk, un sitio web de Google Labs solo disponible en EE. UU., está en una etapa temprana de desarrollo, afirmó la empresa.
OpenAI presentó Sora, un generador de texto a video, mostrando competitividad en productos para consumidores.
Daniel Ives, director gerente y analista senior de valores de Wedbush Securities, le dijo a CNN que Whisk es otro “momento para mostrar músculo” para Google en IA y tecnología.
Los productos de IA forman parte del “cofre del tesoro” de nuevos productos de Google para 2025, que incluye un nuevo sistema operativo Android desarrollado con Samsung y Qualcomm. “DeepMind es un activo clave para Google,” dijo Ives.