Models

all llm embedding vision audio image-generation reranking multimodal

320 audio models · clear

sort by name newest

gpt-4o-transcribe audio openai

16K ctx
gpt-4o-transcribe-diarize audio openai

16K ctx
gpt-audio audio openai

128K ctx
gpt-audio-1.5 audio openai

128K ctx
gpt-audio-2025-08-28 audio openai

128K ctx
gpt-audio-mini audio openai

128K ctx
gpt-audio-mini-2025-10-06 audio openai

128K ctx
gpt-audio-mini-2025-12-15 audio openai

128K ctx
griko/gender_cls_svm_ecapa_voxceleb audio griko
hexgrad/Kokoro-82M audio hexgrad
hexgrad/Kokoro-82M-v1.1-zh audio hexgrad
ibm-granite/granite-4.0-1b-speech audio ibm-granite
ibm-granite/granite-speech-3.3-2b audio ibm
ibm-granite/granite-speech-4.1-2b audio ibm
imvladikon/wav2vec2-xls-r-300m-hebrew audio imvladikon
indonesian-nlp/wav2vec2-indonesian-javanese-sundanese audio indonesian-nlp
isaiahbjork/orpheus-3b-0.1-ft-Q4_K_M-GGUF audio isaiahbjork
ivrit-ai/pyannote-speaker-diarization-3.1 audio ivrit-ai
jakeBland/wav2vec-vm-finetune audio jakeBland
jbetker/wav2vec2-large-robust-ft-libritts-voxpopuli audio jbetker
jihedjabnoun/wavlm-base-emotion audio jihedjabnoun
jonatasgrosman/wav2vec2-large-xlsr-53-arabic audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-dutch audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-finnish audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-german audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-greek audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-hungarian audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-japanese audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-persian audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-polish audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-portuguese audio jonatasgrosman
jonatasgrosman/wav2vec2-large-xlsr-53-russian audio jonatasgrosman
jonatasgrosman/wav2vec2-xls-r-1b-portuguese audio jonatasgrosman
k2-fsa/OmniVoice audio k2-fsa
kenpath/svara-tts-v1 audio kenpath
kingabzpro/wav2vec2-large-xls-r-300m-Urdu audio kingabzpro
kotoba-tech/kotoba-whisper-v2.2 audio kotoba-tech
kresnik/wav2vec2-large-xlsr-korean audio kresnik
kyutai/mimi audio kyutai
kyutai/tts-0.75b-en-public audio kyutai
kyutai/tts-1.6b-en_fr audio kyutai
lab260/AASIST3 audio lab260
m-a-p/MERT-v1-330M audio m-a-p
m-a-p/MERT-v1-95M audio m-a-p
maya-research/Veena audio maya-research
microsoft/VibeVoice-1.5B audio microsoft
microsoft/VibeVoice-ASR audio microsoft
microsoft/VibeVoice-Realtime-0.5B audio microsoft
microsoft/speecht5_asr audio microsoft

← prev 4 / 7 next →