LLaVA 1.5: Uma alternativa de código aberto ao GPT-4 Vision
A inteligência artificial generativa está evoluindo rapidamente graças aos modelos de linguagem multimodais (LMMs), representados por iniciativas como a Visão GPT-4 da OpenAI. Esses modelos revolucionam nossa interação com sistemas de IA ao integrar texto e imagens.
No entanto, a natureza fechada e comercial de algumas destas tecnologias pode dificultar a sua adoção universal. É neste contexto que a comunidade de código aberto oferece uma alternativa promissora ao GPT-4 Vision com o modelo LLaVA 1.5.
A mecânica do LMM
Os LMMs operam usando uma arquitetura multicamadas. Eles combinam um modelo pré-treinado para codificar elementos visuais, um modelo de linguagem grande (LLM) para decifrar e responder às instruções do usuário e um conector multimodal para unir visão e linguagem.
Seu treinamento ocorre em duas etapas: uma fase inicial de alinhamento entre visão e linguagem, seguida de ajuste fino para responder às solicitações visuais. Este processo, embora eficiente, muitas vezes requer recursos computacionais significativos e uma base de dados precisa e rica.
As vantagens do LLaVA 1.5
LLaVA 1.5 depende do modelo CLIP para codificação visual e Vicuna para linguagem. O modelo original, LLaVA, utilizou as versões em texto do ChatGPT e GPT-4 para ajuste visual, gerando 158 mil exemplos de treinamento.
O LLaVA 1.5 vai além ao conectar o modelo de linguagem e o codificador visual por meio de um perceptron multicamadas (MLP), enriquecendo seu banco de dados de treinamento com perguntas e respostas visuais. Esta atualização, que inclui aproximadamente 600.000 exemplos, permitiu que o LLaVA 1.5 superasse outros LMMs de código aberto em 11 dos 12 benchmarks multimodais.
O futuro dos LMMs de código aberto
A demonstração online do LLaVA 1.5, acessível a todos, mostra resultados promissores mesmo com orçamento limitado. No entanto, importa referir que a utilização dos dados gerados pelo ChatGPT limita a sua utilização a fins não comerciais.
Apesar desta limitação, o LLaVA 1.5 abre caminho para o futuro dos LMMs de código aberto. Sua relação custo-benefício, capacidade de gerar dados de treinamento de maneira escalonável e eficiência no ajuste de instruções visuais fazem dele um prelúdio para inovações futuras.
LLaVA 1.5 é apenas o começo de uma evolução que acompanhará o progresso da comunidade de código aberto. Ao antecipar modelos mais eficientes e acessíveis, podemos imaginar um futuro onde a tecnologia generativa de IA seja acessível a todos, revelando o potencial ilimitado da inteligência artificial.