ViT Base Patch8 224

timm vision

image

A base Vision Transformer with 8x8 patch size and 224x224 input resolution, pretrained on ImageNet-21k with second-generation augmentation regularization and fine-tuned on ImageNet-1k.

Capabilities

vision

API

full doc /v1/models/timm/vit_base_patch8_224.augreg2_in21k_ft_in1k