Technology

UNITER

Microsoft's large-scale transformer model for universal image-text representations: a unified framework for visual reasoning and cross-modal retrieval.

UNITER (UNiversal Image-TExt Representation) achieves state-of-the-art performance by pre-training on 9.6 million image-text pairs from datasets like COCO and Visual Genome. The architecture uses a large-scale transformer to learn joint embeddings through four key tasks: Masked Language Modeling, Masked Region Modeling, Image-Text Matching, and Word-Region Alignment. This unified approach allows the model to excel at complex visual reasoning (benchmarked on NLVR2 and VQA) and high-precision image-text retrieval (Flickr30K). By capturing fine-grained alignments between visual regions and textual tokens, UNITER provides a robust foundation for diverse vision-language applications.

https://github.com/ChenRocks/UNITER

3 projects · 3 cities

Related technologies

BLIP 4 BLIP-2 3 CLIP 10 Flamingo 3 LXMERT 4 ViLBERT 4 VisualBERT 3 ABBYY FineReader 3 Amazon Textract 5 Azure Computer Vision 1 BERT 179 BLOOM 115 Claude 145 Data Augmentation 1 Demo App 1 DOM parsing 1 Fireworks AI 1 Google Cloud Vision API 1

Recent Talks & Demos

Showing 1-3 of 3

Members-Only

classifai.dev: Self-Improving Classification

Los Angeles Oct 20

GPT-4 CLIP

VLM and Claude Web Agents

Toronto Jan 30

Claude Selenium

4o Vision Finetuning Chemistry Diagrams

Singapore Nov 19

CLIP Vision Fine-Tuning