ViT Base Patch32 384

timm vision

image

A base Vision Transformer with 32x32 patch size and 384x384 input resolution, pretrained on ImageNet-21k with augmentation regularization and fine-tuned on ImageNet-1k.

Capabilities

vision

API

full doc /v1/models/timm/vit_base_patch32_384.augreg_in21k_ft_in1k