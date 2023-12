A Google revelou um modelo de IA multimodal que, nos primeiros testes, parece ter ultrapassado GPT-4 da rival OpenAI. O Bard, que começou como um serviço de chatbot, vai ser reforçado.

A Google não quer perder o passo na corrida para liderar a inteligência artificial (IA). Dos laboratórios da DeepMind, a startup que adquiriu em 2014 por 400 milhões de dólares, saiu o Gemini, o novo modelo de IA multimodal, ou seja, construído para generalizar e compreender diferentes tipos de informação, seja em texto, imagem, áudio, vídeo ou código.

Na lista de argumentos para dizer que está mais à frente do que as rivais, a Google diz que o Gemini demonstrou “um desempenho de última geração em muitos benchmarks líderes”, explica Sundar Pichai, CEO da Google, em comunicado. O líder da tecnológica frisa que estão “apenas a começar a ‘arranhar’ a superfície daquilo que é possível” fazer na inteligência artificial.

De acordo com a Google, o Gemini “excedeu os resultados actuais” de última geração em “30 dos 32” critérios usados na investigação e desenvolvimento de grandes modelos de linguagem (LLM, na sigla em inglês). Nestes parâmetros, estão incluídas questões como a compreensão natural do que está em imagens, raciocínio matemático e compreensão de áudio e vídeo. O rival da OpenAI, que alimenta o ChatGPT, tem revelado algumas dificuldades no raciocínio matemático, por exemplo.

“Com uma pontuação de 90,04%, o Gemini Ultra é o primeiro modelo a superar os especialistas humanos em MMLU (compreensão massiva de linguagem multitarefa), que usa uma combinação de 57 disciplinas como a matemática, física, história, direito, medicina e ética para testar o conhecimento do mundo e a capacidade de resolução de problemas”, detalha Demis Hassabis, CEO e co-fundador da DeepMind.

O Gemini vai estar disponível em três tamanhos, “capaz de funcionar com eficiência em tudo, desde dispositivos móveis até data centers”, detalha a empresa. O Gemini Ultra é o modelo maior, destinado a tarefas altamente complexas, mas não está ainda disponível. O Gemini Pro será o adequado para “escalar uma gama alargada de tarefas”, enquanto a versão Nano estará destinada a tarefas em dispositivo.

Os programadores também vão ter um papel nos trabalhos do Gemini. A partir de 13 de dezembro, os programadores e clientes empresariais vão poder aceder ao Gemini Pro através da interface de programação de aplicações (API) Gemini no Google AI Studio ou em Google Cloud Vertex AI, indica a tecnológica.

Texto originalmente publicado na edição impressa do Expresso das Ilhas nº 1150 de 13 de Dezembro de 2023.