Flash Attention

library 2.8.3 ·python

✓ verified Jun 28, 2026

Flash Attention is a fast and memory-efficient exact attention mechanism for deep learning models, particularly Transformers. It reorders the attention computation to reduce the number of memory accesses, making it significantly faster and less memory-intensive than standard attention. The library is currently stable at version 2.8.3, with an active beta development for version 4.0.0 which introduces new features and architectural changes. Its release cadence is driven by research advancements and performance optimizations.

Traffic · last 30 days ↑33% vs prev 7d · indexed Sun Apr 12 · updated Sat Jul 11

total hits 18

actors 6 distinct systems

last hit 10d ago AhrefsBot

OAI-SearchBot

Script

ByteDance

ChatGPT-User

Search engines

top countries 🇺🇸 United States · 🇨🇦 Canada · 🇫🇷 France · 🇩🇪 Germany · 🇸🇬 Singapore

Resources

githubgithub.com/Dao-AILab/flash-attention ↗

packagepypi.org/project/flash-attn/ ↗

homepageflash-attention.github.io/flash-attention/ ↗

API endpoints

full doc /v1/registry/flash-attn

install /v1/registry/flash-attn/install

compatibility /v1/registry/flash-attn/compatibility