Meta presentó Llama 3.2, su primer modelo de lenguaje multimodal de código abierto capaz de procesar imágenes y texto. A unos meses del lanzamiento de Llama 3.1, Mark Zuckerberg y compañía vuelven a la carga con una IA que comprende imágenes, generación de texto multilingüe y más. La familia incluye dos modelos livianos optimizados para ARM que pueden ejecutarse en procesadores de Qualcomm y MediaTek.
De acuerdo con Meta, Llama 3.2 admiten casos de uso de razonamiento de imágenes, como la comprensión de tablas y gráficos, subtítulos, localización de objetos y más. La nueva IA multimodal es capaz de extraer detalles de una foto y escribir una oración o dos que podrían utilizarse como identificador o para ayudar a contar una historia.
Durante la presentación en la keynote de Meta Connect, Mark Zuckerberg mostró la integración de Llama 3.2 en sus aplicaciones más populares. Por ejemplo, el asistente Meta AI que se encuentra integrado en WhatsApp, Messenger, Instagram y Facebook, entiende lo que estás mirando. Puedes enviarle una foto y preguntarle acerca de ella, o compartir una imagen de un platillo para obtener una receta de su preparación.
800 Noticias
Te puede interesar 👇
5 datos claves sobre el uso de la tecnología Contactless
El submarino español que podrá estar más bajo el agua con una novedosa tecnología
China presenta un cohete totalmente reutilizable similar al Starship de SpaceX