Flash Linear Attention

library 0.4.2 ·python

✓ verified Jun 28, 2026

Flash Linear Attention (FLA) is a Python library providing efficient, Triton-based implementations for state-of-the-art linear attention models and emerging sequence modeling architectures. It aims for high-performance training and inference across NVIDIA, AMD, and Intel GPUs. As of version 0.4.2, the library is actively maintained with frequent releases, offering optimized kernels, fused modules, and integration-ready layers for PyTorch and Hugging Face models.

Traffic · last 30 days ↑86% vs prev 7d · indexed Wed Apr 15 · updated Sat Jul 11

total hits 41

actors 7 distinct systems

last hit 5d ago human

ChatGPT-User

OAI-SearchBot

Perplexity-User

Script

ByteDance

Search engines

Humans

top countries 🇺🇸 United States · 🇸🇬 Singapore · 🇨🇳 China · BY · 🇫🇷 France

Resources

githubgithub.com/fla-org/flash-linear-attention ↗

packagepypi.org/project/flash-linear-attention/ ↗

API endpoints

full doc /v1/registry/flash-linear-attention

install /v1/registry/flash-linear-attention/install

compatibility /v1/registry/flash-linear-attention/compatibility