Technology

Flamingo

A premier vision-language model (VLM) built by DeepMind for rapid multimodal task adaptation.

Flamingo integrates vision encoders with large language models (such as the 70B Chinchilla) using a Perceiver Resampler. This setup enables the model to ingest interleaved sequences of text, images, and video. It dominates in few-shot scenarios: it often surpasses fine-tuned specialists using only 32 task-specific examples. Use it to solve visual question answering (VQA) or image captioning challenges with minimal data overhead.

https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

3 projects · 3 cities

Related technologies

BLIP 4 BLIP-2 4 CLIP 16 LXMERT 4 UNITER 3 ViLBERT 4 VisualBERT 3 ABBYY FineReader 3 Amazon Textract 5 Azure Computer Vision 1 BERT 186 BLOOM 116 Claude 383 Data Augmentation 3 Demo App 1 DOM parsing 1 Fireworks AI 1 Google Cloud Vision API 2

Recent Talks & Demos

Showing 1-3 of 3

Members-Only

classifai.dev: Self-Improving Classification

Los Angeles Oct 20

GPT-4 CLIP

VLM and Claude Web Agents

Toronto Jan 30

Claude Selenium

4o Vision Finetuning Chemistry Diagrams

Singapore Nov 19

CLIP Vision Fine-Tuning