NVIDIA Resiliency Extension

library 0.5.0 ·python

✓ verified May 25, 2026

NVIDIA Resiliency Extension (NVRE) is a Python package that provides fault-tolerant features for framework developers and users, aiming to minimize downtime in deep learning training due to failures and interruptions. It supports features like checkpointing (local and cloud), in-job restarts, and health checks. The current version is 0.5.0, with minor releases occurring every few months to introduce new features and bug fixes.

Traffic · last 30 days ↓17% vs prev 7d · indexed Thu Apr 16 · updated Mon Jun 01

total hits 16

actors 8 distinct systems

last hit 3d ago MetaBot

MetaBot

GPTBot

Script

ClaudeBot

ChatGPT-User

Search engines

top countries 🇺🇸 United States · 🇨🇦 Canada · 🇩🇪 Germany · 🇫🇷 France

Resources

githubgithub.com/NVIDIA/nvidia-resiliency-ext ↗

packagepypi.org/project/nvidia-resiliency-ext/ ↗

API endpoints

full doc /v1/registry/nvidia-resiliency-ext

install /v1/registry/nvidia-resiliency-ext/install

compatibility /v1/registry/nvidia-resiliency-ext/compatibility