全部標簽

AI模型

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminus是DeepSeek開源LLM優化版，強化語言一致性、Code/Search Agent性能，提供穩定高效代理任務解決方案
LongCat-Flash-Thinking：美團 LongCat 團隊開源的推理AI模型

LongCat-Flash-Thinking 是美團開源的大推理模型，具備高效推理與工具調用能力，在數學、邏輯和編程任務中表現領先，支持長鏈推理與多框架部署。
Grok 4 Fast：xAI 最新發布的低成本高效推理模型，支持 200 萬 token 長上下文

Grok 4 Fast 是 xAI 最新發布的低成本高效推理模型，支持 2M token 長上下文、工具瀏覽能力與統一架構，在多個 benchmark 中性能與 Grok 4 近似但成本大幅降低，適合企業與開發者部署使用。
Qwen3-ASR-Flash：阿里通義千問最新推出的語音識別模型

Qwen3-ASR-Flash 是通義千問系列最新語音識別模型，基于 Qwen3 底座與千萬小時級 ASR 訓練，支持 11 種語言與多方言，提供上下文定制與歌聲識別，具備語種識別、非人聲拒識與強魯棒性，適配多噪聲與長難句場景。
Step-Audio-2-mini：階躍星辰開源的端到端語音大模型

Step-Audio 2 mini 是階躍星辰發布的開源端到端語音大模型，采用統一架構實現語音理解、推理與生成，支持語音識別、跨語種翻譯、情感解析與自然對話。
LongCat-Flash-Chat：美團推出的開源大語言模型

LongCat-Flash-Chat 是美團開源的 5600 億參數 MoE 大語言模型，在 LongCat-Flash 基礎上對齊優化，支持多輪對話、長上下文和 Agent 應用。
Nano Banana：Google 最新推出的 AI 圖像生成與編輯模型

Nano Banana 是 Google DeepMind 推出的圖像生成與編輯 AI 模型，支持從文本生成高質量圖像、自動融合多圖與風格編輯，具備多輪推理與上下文一致性，適合創作者、設計師與開發者使用。
Gemini 2.5 Flash Image：Google 最新推出的 AI 圖像生成與編輯模型

Gemini 2.5 Flash Image 是 Google DeepMind 推出的圖像生成與編輯 AI 模型，支持從文本生成高質量圖像、自動融合多圖與風格編輯，具備多輪推理與上下文一致性，適合創作者、設計師與開發者使用。
DeepSeek-V3.1：DeepSeek最新開源的AI大模型

DeepSeek-V3.1 是 DeepSeek 最新開源的AI大模型，支持“思考/非思考”混合推理架構，用戶可自由切換交互模式。新版本在推理速度、工具調用與 Agent 多步驟任務處理上全面提升，并支持高達 128K 上下文輸入。
Qwen-Image-Edit：阿里通義千問開源的圖像編輯模型

Qwen-Image-Edit 是阿里通義千問團隊基于 20B 參數的 Qwen-Image 模型深度訓練出的圖像編輯模型，其特點是同時具備“語義理解”與“外觀處理”雙重控制能力。它不僅支持低級的像素級視覺編輯（如添加/刪除元素、部分修改），還支持高級的語義級編輯（如IP 創作、物體旋轉、風格遷移），并且具備精準的中英文文本編輯能力，可在保持原字體/風格的基礎上進行文字增、刪、改。
Hunyuan-GameCraft：騰訊混元等開源的高動態交互式游戲視頻生成框架

Hunyuan-GameCraft 是由騰訊混元團隊與華中科技大學聯合推出的開源交互式游戲視頻生成框架，基于HunyuanVideo底模，只需輸入一張圖 +?文字描述+動作指令（按鍵盤方向鍵）就能生成高動態、分鐘級長視頻
Baichuan-M2：百川智能開源的醫療增強推理大模型

Baichuan-M2-32B 是百川智能推出的醫療增強推理模型，專為真實世界的醫療推理任務設計。該模型基于 Qwen2.5-32B 基座，通過創新的大型驗證器系統（Large Verifier System）從真實世界的醫療問題出發，進行醫療領域后訓練對齊，在保持模型通用能力的同時，實現了醫療效果的突破性提升。
Matrix-Game 2.0：昆侖萬維開源的交互式AI世界模型

Matrix-Game 2.0 是昆侖萬維發布的國產開源交互式世界模型，能夠以 25FPS 實時生成分鐘級長交互視頻，并在不同風格與環境下保持良好的泛化與物理一致性。它面向游戲開發、虛擬現實與影視創作等應用，旨在為虛擬世界構建提供可落地的生成式基座，推動具身智能與空間智能研究。
Skywork UniPic 2.0：昆侖萬維開源的統一多模態生成與編輯模型

UniPic 2.0 是 Skywork 推出的統一多模態模型，基于 SD3.5-Medium 的 2B DiT，結合“在線強化學習+雙任務漸進強化”，在生成與編輯上優于同級開源模型，并擴展為理解-生成-編輯一體的統一模型，提供技術報告、代碼與權重。
SkyReels-A3：昆侖萬維推出的音頻驅動人像視頻生成模型

SkyReels-A3是昆侖萬維新發布的音頻驅動任意時長人像視頻模型，一句話照片+聲音即可讓靜態人像開口說話、唱歌或帶貨，支持分鐘級長視頻、8種運鏡控制，效果超越當前開源/閉源方案，零門檻在線可用。
GLM-4.5V：智譜開源的多模態視覺推理大模型

GLM-4.5V 是智譜基于 GLM-4.5-Air 文本基座構建的開源視覺-語言模型，面向圖像、視頻、文檔與 GUI 屏幕等全場景的多模態推理與理解。
GPT-OSS：OpenAI開源的大語言模型，支持本地部署與高效推理

GPT-OSS是 OpenAI 發布的開源權重大語言模型系列，包含 20B 與 120B 兩個版本，支持原生 128K tokens 長上下文、MoE 架構高效推理、微調與智能體功能，適合本地部署與企業級生成式應用，采用 Apache 2.0 許可協議。
Qwen-Image：阿里通義千問推出的圖像生成基礎模型

Qwen-Image 是通義千問系列的圖像生成基礎模型，具備卓越的文本渲染和圖像編輯能力，支持多種藝術風格與復雜場景，廣泛應用于海報、PPT及創意設計，推動視覺內容創作發展。
Step 3：階躍星辰開源的多模態推理模型

Step 3 是階躍星辰團隊最新推出并開源的多模態推理模型，采用 MoE 架構，總參數量 321B，激活參數量 38B，上下文長度64k，擁有強大的視覺感知和復雜推理能力，可準確完成跨領域的復雜知識理解、數學與視覺信息的交叉分析，以及日常生活中的各類視覺分析問題。
Qwen3-Coder-Flash：阿里通義千問開源的AI編程模型

Qwen3-Coder-Flash 是阿里通義開源的 30B 編程模型，支持超長上下文，函數調用優化，性能接近主流閉源大模型。
Wan2.2 - 阿里通義開源的視頻和圖像生成模型

Wan2.2 是由阿里通義大模型團隊發布的開源視頻生成模型，專為電影級視覺控制和高質量視頻創作設計。它通過混合專家（MoE）架構，實現了對電影鏡頭語言的深度理解和還原，支持多維度的視覺呈現，如光影、色彩和構圖。
GLM-4.5：智譜AI推出的新一代開源旗艦AI模型

GLM-4.5 是由智譜 AI 推出的開源 SOTA 模型，專為智能體應用打造，具備卓越的推理、代碼生成和智能體能力。采用混合專家架構，提供思考模式和非思考模式，滿足復雜任務和即時響應需求。
Qwen-MT：阿里通義千問推出的機器翻譯模型，支持92種語言互譯

Qwen?MT 是阿里云通義千問團隊基于 Qwen3 開發的機器翻譯大模型，采用輕量級 MoE 架構，支持 92 種官方語言及方言互譯。
Qwen3-Coder：阿里通義千問推出的代碼模型，具備卓越的代碼生成和 Agent 能力

Qwen3-Coder 是阿里巴巴通義千問團隊發布的最新代碼模型，具備卓越的代碼生成和 Agent 能力。它擁有多個尺寸，其中最強大的版本是 Qwen3-Coder-480B-A35B-Instruct，這是一個 480B 參數激活 35B 參數的 MoE 模型，原生支持 256K token 的上下文，并可通過 YaRN 擴展到 1M token。
Kimi K2：月之暗面開源的萬億參數 MoE 架構基礎模型

Kimi?K2 是月之暗面 Moonshot AI 推出的開源大型語言模型，采用 Mixture-of-Experts 架構，擁有總參數量達 1?萬億、32?B 激活參數，支持最長 128K 上下文長度，原生設計以實現“agentic intelligence”（自主任務執行與工具調用）。
AniSora - Bilibili開源的動漫視頻生成模型，一鍵生成多種風格動漫視頻鏡頭

AniSora是 Bilibili 推出的開源動漫視頻生成模型，它支持一鍵生成多種動漫風格的視頻鏡頭，包括番劇片段、國創動畫、漫畫改編、VTuber 內容、動畫 PV、鬼畜（MAD）等。
ThinkSound - 阿里通義開源的AI音頻生成模型

ThinkSound 是阿里通義實驗室開源的首個音頻生成模型，能夠像專業音效師一樣理解畫面內容并進行結構化推理，從而生成高保真、與視覺高度同步的空間音頻，適用于影視、短視頻、游戲等多種創作場景。
OmniGen2 - 智源研究院推出的開源多模態生成模型

OmniGen2是智源研究院推出的開源多模態生成模型，具備文本生成圖像、圖像編輯、上下文圖像生成與視覺理解等核心能力。
Ovis-U1：阿里巴巴推出的統一的多模態理解與生成模型

Ovis-U1 是阿里巴巴國際化團隊推出的統一多模態理解與生成模型，它擁有三十億參數，融合了圖像理解、文本到圖像生成和圖像編輯功能。
百度正式開源文心4.5系列模型

2025年6月30日，百度宣布文心4.5系列模型正式開源。此次開源包括10款不同規模的模型，其中包括參數量為47B和3B的混合專家（MoE）模型，以及0.3B的稠密參數模型。文心4.5的開源文件包括預訓練權重和推理代碼，已上傳至Hugging Face、GitHub以及飛槳星河社區，供全球開發者使用。主要技術特點 1. 多模態混合專家模型預訓練文心4.5通過聯合訓練文本和視覺兩種模態來提高模型…
Qwen VLo - 阿里推出的多模態統一理解與生成模型

Qwen VLo 是通義千問團隊推出的多模態統一理解與生成模型，具備強大的圖文雙向交互能力。它不僅能精準理解圖像內容，還能根據自然語言指令進行高質量的圖像生成與編輯，支持風格遷移、背景更換、物體添加等多種操作
FLUX.1 Kontext [dev]：Black Forest Labs開源的圖像編輯模型

FLUX.1 Kontext \[dev] 是 Black Forest Labs 推出的開源圖像編輯模型，支持通過自然語言對圖像進行局部修改，具備風格與角色一致性保持、多輪穩定編輯等能力。該模型基于 Flow Transformer 架構，編輯精度高、響應速度快，適合創作者、開發者和研究人員用于插畫創作、視覺敘事和圖像生成研究。
Hailuo 02：MiniMax最新推出的AI視頻生成模型

Hailuo 02 是 MiniMax 稀宇科技最新推出的AI視頻生成模型，支持生成高質量1080p視頻，擅長處理復雜指令和物理表現，如體操場景。
MiniMax-M1：MiniMax開源的大規模混合架構推理模型

MiniMax-M1 是MiniMax（稀宇科技）推出的全球首個開源大規模混合架構推理模型，具備卓越的長上下文處理能力和高效的推理性能。其支持高達100萬上下文輸入和8萬Token輸出，采用閃電注意力機制，顯著提升算力效率。同時，該模型在軟件工程、長上下文理解等復雜場景中表現優異，性價比極高，且提供免費不限量使用和低價格API服務。
dots.llm1：小紅書開源的 MoE 架構大語言模型

dots.llm1是小紅書開源的 MoE 架構大語言模型，擁有 1420 億參數，推理僅激活 140 億，兼顧性能與效率。模型基于 11.2 萬億非合成高質量數據訓練，支持中英文，具備 32K 長上下文處理能力，并開放中間訓練 checkpoint，適合問答、內容生成、語義理解等多種應用場景。
Speech 02：MiniMax 推出的新一代語音TTS模型，支持高質量多語種語音合成

MiniMax-Speech-02 支持多語言、高擬真語音生成，廣泛應用于配音制作、虛擬人、教育、語音定制與無障礙溝通等場景，助力個性化語音內容高效生成與全球化傳播。
Wan2.1-VACE：阿里開源的AI視頻生成和編輯模型

通義萬相 Wan2.1-VACE是阿里巴巴開源的AI視頻生成與編輯模型，單一模型可同時支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等全系列基礎生成和編輯能力。
Step1X-3D：階躍星辰開源的3D大模型，支持生成高保真可控的3D內容

Step1X-3D 是由階躍星辰正式發布并開源的一款3D大模型。該模型是繼圖像、視頻、語音、音樂等模態后，階躍星辰在多模態AI方向的最新成果，專注于生成高保真、可控的3D內容。
Seed1.5-VL：字節跳動推出的視覺-語言多模態基礎模型

Seed1.5-VL 是字節跳動推出的視覺-語言多模態基礎模型，結合圖像編碼器與200億激活參數的大語言模型，具備出色的圖像、視頻理解與推理能力。在60項基準測試中獲得38項SOTA，廣泛應用于視頻問答、圖表理解、GUI智能體等任務，表現穩定、推理強大。
Matrix-Game：昆侖萬維開源的交互式世界基礎模型

Matrix-Game是由昆侖萬維開源的交互式世界基礎模型，能夠生成完整可交互的游戲世界，能夠對人類輸入的操作指令進行正確響應，保留了游戲世界的空間結構與物理特性，畫面也更加精致，超越了以往所有類似開源世界模型。