{"slug":"microsoft/Phi-4-multimodal-instruct","title":"Phi-4 Multimodal Instruct","description":"A multimodal instruction-tuned model from Microsoft Phi-4 family capable of processing text, images, and audio.","provider":"microsoft","model_type":"multimodal","status":"active","context_window":131072,"max_output_tokens":4096,"pricing":{"currency":"USD","input_per_mtok":0.08,"output_per_mtok":0.32},"modalities":["text","image","audio"],"capabilities":["vision","streaming","reasoning","code-generation","function-calling"],"knowledge_cutoff":"2024-06-01T00:00:00.000Z","release_date":"2025-02-01T00:00:00.000Z","deprecation_date":null,"retirement_date":null,"aliases":[],"homepage":"https://huggingface.co/microsoft/Phi-4-multimodal-instruct","docs":null,"categories":["ai-ml"],"tags":[],"last_verified":"2026-06-10T00:00:00.000Z","next_check":"2026-09-08T00:00:00.000Z","created_at":"2026-06-09T19:23:00.736Z","updated_at":"2026-06-09T19:23:00.736Z"}