GPT-4 Vision battu par LLaVA 1.5: Découvrez les incroyables alternatives open source !

LLaVA 1.5 : Une solution open source en réponse à GPT-4 Vision

Le développement rapide des modèles langage multimodaux (LMM) marque un nouveau chapitre dans l’histoire de l’intelligence artificielle générative. Cette histoire, illustrée par GPT-4 Vision d’OpenAI, prend une nouvelle dimension avec l’arrivée de LLaVA 1.5, une solution open source qui gagne en popularité. Plongeons au cœur de cette dynamique où l’innovation rime avec l’accessibilité.

La mécanique des LMM

Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entraîné pour encoder les éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, et un connecteur multimodal pour faire le lien entre la vision et le langage.

Leur formation se déroule en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, demande souvent des ressources informatiques importantes et nécessite une base de données riche et précise.

Les atouts de LLaVA 1.5

LLaVA 1.5 s’appuie sur le modèle CLIP pour l’encodage visuel et Vicuna pour le langage. Le modèle original, LLaVA, utilisait les versions texte de ChatGPT et GPT-4 pour l’ajustement visuel, générant ainsi 158 000 exemples d’apprentissage.

LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel grâce à un perceptron multicouche (MLP), enrichissant sa base de données d’apprentissage avec des questions-réponses visuelles. Cette mise à jour, comprenant environ 600 000 exemples, a permis à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux.

LIRE  IA génère livres de cueillette de champignons, envahissent Amazon

L’avenir des LMM open source

La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs même avec un budget limité. Cependant, une restriction subsiste : l’utilisation des données générées par ChatGPT limite son utilisation à des fins non commerciales.

Malgré cette limitation, LLaVA 1.5 ouvre une fenêtre sur l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’apprentissage de manière évolutive et son efficacité dans l’ajustement des instructions visuelles en font une préfiguration des innovations à venir.

LLaVA 1.5 n’est que le premier pas d’une mélodie qui résonnera au rythme des progrès de la communauté open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un futur où la technologie de l’IA générative sera à la portée de tous, dévoilant ainsi le potentiel illimité de l’intelligence artificielle.

Laisser un commentaire