Technology

VisualBERT

A single-stream Transformer architecture that aligns visual regions and text tokens through a unified self-attention mechanism.

VisualBERT (developed by researchers at UCLA) streamlines vision-language modeling by treating image regions and text as a single input sequence. The architecture uses a BERT backbone to process 36 regional features (extracted via Faster R-CNN) alongside word embeddings. By pre-training on the MS COCO dataset using masked language modeling and image-text alignment, the model excels at complex reasoning tasks: Visual Question Answering (VQA) and Natural Language Visual Reasoning (NLVR2). This design proves that a simple, joint-attention approach outperforms complex, multi-stream alternatives.

https://arxiv.org/abs/1908.03557

3 projects · 3 cities

Related technologies

BLIP 4 BLIP-2 3 CLIP 10 Flamingo 3 LXMERT 4 UNITER 3 ViLBERT 4 ABBYY FineReader 3 Amazon Textract 5 Azure Computer Vision 1 BERT 179 BLOOM 115 Claude 145 Data Augmentation 1 Demo App 1 DOM parsing 1 Fireworks AI 1 Google Cloud Vision API 1

Recent Talks & Demos

Showing 1-3 of 3

Members-Only

classifai.dev: Self-Improving Classification

Los Angeles Oct 20

GPT-4 CLIP

VLM and Claude Web Agents

Toronto Jan 30

Claude Selenium

4o Vision Finetuning Chemistry Diagrams

Singapore Nov 19

CLIP Vision Fine-Tuning