Talk2DINO ViT-B

lorebianchi98 multimodal

imagetext

A vision-language model for referring segmentation using DINOv2 ViT-B backbone.

Capabilities

vision

Dates

releasedMar 2024

Resources

homepagehuggingface.co/lorebianchi98/Talk2DINO-ViTB ↗

API

full doc /v1/models/lorebianchi98/Talk2DINO-ViTB