DepthVLM-4B

JonnyYu828 multimodal

imagetext

A vision-language model with 4 billion parameters for depth-aware visual reasoning and question answering.

Capabilities

visionreasoning

releasedAug 2024