Qwen3 Reranker 4B GGUF

alibaba reranking

text

A GGUF quantized version of the Qwen3 4B reranker model for efficient local inference via llama.cpp.

Specs

context window 41K tokens

max output 41K tokens

streaming

releasedApr 2025