{"slug":"sentence-transformers/clip-ViT-B-32-multilingual-v1","title":"CLIP ViT-B/32 Multilingual v1","description":"A multilingual vision-language embedding model that maps images and text to a shared embedding space.","provider":"sentence-transformers","model_type":"multimodal","status":"active","context_window":null,"max_output_tokens":null,"pricing":null,"modalities":["text","image"],"capabilities":["vision"],"knowledge_cutoff":null,"release_date":"2022-03-01T00:00:00.000Z","deprecation_date":null,"retirement_date":null,"aliases":[],"homepage":"https://huggingface.co/sentence-transformers/clip-ViT-B-32-multilingual-v1","docs":null,"categories":["ai-ml"],"tags":[],"last_verified":"2026-06-09T00:00:00.000Z","next_check":"2026-09-07T00:00:00.000Z","created_at":"2026-06-09T18:18:08.983Z","updated_at":"2026-06-09T18:18:08.983Z"}