ViT-Base (Patch16, 224px, AugReg v2, IN21k → IN1k)

timm vision

image

A Vision Transformer base model with patch size 16, pretrained on ImageNet-21k with AugReg v2 and fine-tuned on ImageNet-1k for classification.

Capabilities

vision

Dates

releasedOct 2021

Resources

homepagehuggingface.co/timm/vit_base_patch16_224.augreg2_in21k_ft_in1k ↗

docshuggingface.co/docs/timm/en/models/vit ↗

API

full doc /v1/models/timm/vit_base_patch16_224.augreg2_in21k_ft_in1k