CLIP ViT-B/32 Multilingual v1

sentence-transformers multimodal

textimage

A multilingual vision-language embedding model that maps images and text to a shared embedding space.

Capabilities

vision

Dates

releasedMar 2022

Resources

homepagehuggingface.co/sentence-transformers/clip-ViT-B-32-multilingual-v1 ↗

API

full doc /v1/models/sentence-transformers/clip-ViT-B-32-multilingual-v1