全部標簽

AI訓(xùn)練模型

最新隨機最多瀏覽

豆包·視覺理解模型：豆包推出的多模態(tài)AI大模型

對視覺內(nèi)容有更強的識別能力，更強理解和推理能力，以及更細膩的視覺描述能力
LTX-Video：Lightricks開源的實時AI視頻生成模型

LTXV是由Lightricks推出的基于DiT的首個實時AI視頻生成開源模型，可以生成 24 FPS 768x512分辨率的視頻，比觀看它們更快。該模型在包含各種視頻的大規(guī)模數(shù)據(jù)集上進行訓(xùn)練，可以生成具有逼真和多樣化內(nèi)容的高分辨率視頻。
文心大模型4.5：百度推出的新一代原生多模態(tài)基礎(chǔ)大模型

文心大模型4.5是百度推出的新一代原生多模態(tài)基礎(chǔ)大模型，通過多個模態(tài)聯(lián)合建模實現(xiàn)協(xié)同優(yōu)化，多模態(tài)理解能力優(yōu)秀；具備更精進的語言能力，理解、生成、邏輯、記憶能力全面提升，去幻覺、邏輯推理、代碼能力顯著提升。
PixelDance：字節(jié)跳動推出的豆包視頻生成大模型

豆包視頻生成大模型，具備精準的語義理解能力以及多風(fēng)格多尺寸的視頻生成能力，支持通過文本和圖片生成視頻，顯著提高視頻內(nèi)容創(chuàng)作效率。
MathGLM-智譜AI發(fā)布的數(shù)學(xué)大模型

近日，智譜AI發(fā)布MathGLM數(shù)學(xué)模型，旨在增強大模型在數(shù)學(xué)推理方面的性能。它能夠精確計算算術(shù)運算，包括基礎(chǔ)算術(shù)運算和復(fù)雜混合運算，并提升模型的中文數(shù)學(xué)解決能力。
達觀數(shù)據(jù)-曹植大語言模型

“曹植”是一款大語言模型，它是基于自然語言處理(NLP)、光學(xué)字符識別（OCR）、知識圖譜等技術(shù)的實踐產(chǎn)物。作為垂直、專用、自主可控的國產(chǎn)版ChatGPT模型，它不僅實現(xiàn)專業(yè)領(lǐng)域的AIGC智能化應(yīng)用，還可以內(nèi)置在客戶各類業(yè)務(wù)系統(tǒng)中提供專用服務(wù)。
SiliconCloud - 硅基流動推出的一站式大模型云服務(wù)平臺

領(lǐng)先的 AI Infra 平臺，助力開發(fā)者實現(xiàn) Token 自由。
TripoSR - 單張圖片快速生成高質(zhì)量3D模型

TripoSR是由Stability AI 和國內(nèi)AI企業(yè)VAST合作開源的快速3D物體重建模型，能在1秒內(nèi)從單張2D圖像快速生成高質(zhì)量的3D模型。
Muse：微軟推出的AI游戲生成模型，能生成連貫的游戲畫面和動作

Muse 是微軟發(fā)布的首個專為游戲創(chuàng)意設(shè)計的生成式AI模型，基于大規(guī)模玩家數(shù)據(jù)訓(xùn)練，能夠生成連貫、多樣化的游戲視覺效果和控制器操作。它支持多模態(tài)生成，可快速生成游戲原型，助力開發(fā)者探索新玩法。
混元DiT-騰訊最新開源的文生圖AI模型

混元DiT是一個基于Diffusion transformer的文本到圖像生成模型，此模型具有中英文細粒度理解能力。
浦語靈筆-上海AI實驗室開源圖文混合創(chuàng)作大模型

浦語靈筆是上海人工智能實驗室推出的首個圖文混合創(chuàng)作大模型，該模型能夠根據(jù)用戶提供的主題或圖片，自動創(chuàng)作出圖文并茂的文章，為大模型落地應(yīng)用提供更多可能。
Step-Video-T2V：階躍星辰推出的開源視頻生成大模型

Step-Video-T2V是階躍星辰與吉利聯(lián)合開源的一款高性能視頻生成大模型，具備300億參數(shù)量，能夠生成540P分辨率的高質(zhì)量視頻。它支持復(fù)雜運動場景、精準鏡頭控制和生動人物生成，能夠根據(jù)文本輸入生成符合物理規(guī)律的視頻。
Pixtral 12B：Mistral 推出的首款多模態(tài)大語言模型，支持下載和微調(diào)

Pixtral 12B是法國 AI 初創(chuàng)公司 Mistral 發(fā)布的首款多模態(tài)大語言模型，擁有 120 億參數(shù)，模型大小約為 24GB。它的多模態(tài)功能使其能夠同時處理文本和圖像，適合執(zhí)行如圖像描述生成、圖像分析、跨模態(tài)搜索等任務(wù)。Pixtral 12B 基于 Mistral 之前的 Nemo 12B 模型構(gòu)建，并且具備開放性，允許用戶下載并微調(diào)以適應(yīng)特定任務(wù)需求。
BioMedGPT-清華開源的生物醫(yī)藥基礎(chǔ)模型

BioMedGPT-1.6B是一個參數(shù)為16億的生物醫(yī)藥領(lǐng)域輕量級科研版基礎(chǔ)模型，具有跨模態(tài)與知識融合的特點，可以處理藥物性質(zhì)預(yù)測、自然語言類、跨模態(tài)等多種任務(wù)。
OpenAI o3：OpenAI推出的最新推理模型，支持工具調(diào)用和圖像理解

OpenAI o3 是 OpenAI 發(fā)布的最新推理模型，代表了其在智能推理領(lǐng)域的最高水平。它能夠自主使用 ChatGPT 內(nèi)的所有工具，包括網(wǎng)絡(luò)搜索、文件分析、代碼執(zhí)行和圖像生成。
Gemini 1.5-谷歌發(fā)布的新一代AI大模型

Gemini 1.5是谷歌發(fā)布的全新AI大模型，除了性能顯著增強，還在長上下文理解方面取得突破，它可以處理多達100萬token，實現(xiàn)了迄今為止任何大型基礎(chǔ)模型中最長的上下文窗口。甚至能僅靠提示詞學(xué)會一門訓(xùn)練數(shù)據(jù)中沒有的新語言。
Llama 3.2：Meta最新推出的開源模型，包括視覺大語言模型和設(shè)備端純文本模型

Llama 3.1是Meta最新推出的開源大語言模型，包括90B和11B兩種參數(shù)規(guī)格的視覺大語言模型，還有能在設(shè)備端本地運行的1B和3B輕量級純文本模型，包括預(yù)訓(xùn)練和指令調(diào)整版。1B和3B模型支持128K tokens上下文，適配高通和聯(lián)發(fā)科硬件，并針對Arm處理器做了優(yōu)化。
元象大模型

元象大模型是元象從頭訓(xùn)練、全鏈路自主研發(fā)的高性能通用大模型系列，具備優(yōu)秀的中文創(chuàng)作、邏輯推理和任務(wù)執(zhí)行能力。
SeedFoley - 字節(jié)跳動推出的AI視頻音效生成模型

SeedFoley 是字節(jié)跳動推出的端到端視頻音效生成模型，通過融合時空視頻特征和擴散生成模型，實現(xiàn)音效與視頻的高度同步。它支持可變長度視頻輸入，可在音效準確性、同步性和匹配度上達到領(lǐng)先水平。SeedFoley 已上線即夢應(yīng)用，用戶可一鍵生成專業(yè)級音效，廣泛應(yīng)用于 AI 視頻創(chuàng)作、Vlog、短片和游戲制作等場景，提升視頻的沉浸感和專業(yè)感。
QwQ-32B：阿里云開源的最新AI推理模型，更小尺寸，消費級顯卡即可部署

QwQ-32B 是阿里云開源的320億參數(shù)推理模型，具備強大的數(shù)學(xué)、代碼和通用推理能力，性能比肩全球頂尖開源模型。它支持消費級顯卡部署，降低硬件門檻，同時集成智能體能力，可靈活調(diào)整推理過程。采用Apache 2.0協(xié)議開源，用戶可免費下載、商用和定制化開發(fā)，推動AI技術(shù)的廣泛應(yīng)用。
Stable Diffusion-全球最強開源AI繪畫模型

Stable Diffusion 完全免費開源，所有代碼均在 GitHub 上公開，任何人都可以拷貝使用，只需要輸入一句提示詞（prompt），就能夠在幾秒鐘內(nèi)創(chuàng)造出令人驚嘆的繪畫作品。
心辰Lingo：西湖心辰推出的端到端語音大模型

心辰Lingo大模型是由西湖心辰開發(fā)的一款端到端語音大模型，集成了語音識別、自然語言處理、意圖識別和語音合成等功能，能夠深度理解用戶的語音內(nèi)容和情感，為用戶提供自然、生動的互動體驗。Lingo不僅可以快速響應(yīng)復(fù)雜指令，還能根據(jù)語境和情感自適應(yīng)調(diào)整語音表達方式，重新定義了智能語音交互的體驗。
Grok 3：馬斯克旗下XAI發(fā)布的新一代AI大模型

Grok 3是由埃隆·馬斯克旗下公司xAI開發(fā)的的新一代大語言模型系列，包括Grok-3及其精簡版Grok-3 mini。Grok 3計算能力是前代的十倍，具備思維鏈推理和邏輯一致性。數(shù)學(xué)、科學(xué)推理和編程能力領(lǐng)先，AIME'24得52分，科學(xué)知識75分，編程57分，AIME 2025得93分，LMSYS聊機競技場得1400分。新增Big Brain和DeepSearch模式，優(yōu)化復(fù)雜任務(wù)…
Qwen2-Audio：阿里推出的開源音頻語言大模型

Qwen2-Audio是由阿里通義團隊推出的大型音頻語言模型系列，它能夠接受音頻信號輸入，進行音頻分析或直接文本響應(yīng)，支持語音聊天和音頻分析兩種交互模式，并且提供了預(yù)訓(xùn)練模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。
SmolLM-HuggingFace發(fā)布的高性能小型語言模型

SmolLM是由 Huggingface 最新發(fā)布的一組高性能的小型語言模型，參數(shù)分別為 1.35 億、3.6 億和 17 億，訓(xùn)練數(shù)據(jù)來自高質(zhì)量數(shù)據(jù)集 SmolLM-Corpus，其中包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。SmolLM 模型在多種基準測試中表現(xiàn)不錯，適合跑在手機這種終端設(shè)備上。
Pixtral Large：Mistral AI推出的開源千億參數(shù)多模態(tài) AI 模型

Pixtral Large 是由 Mistral AI 推出的 1240 億參數(shù)開源多模態(tài)模型。它是基于 Mistral Large 2 構(gòu)建的第二代多模態(tài)模型，能夠同時處理文本和圖像數(shù)據(jù)，專為復(fù)雜推理、文檔分析和視覺理解任務(wù)設(shè)計。它在保持頂尖文本理解能力的同時，顯著增強了圖像相關(guān)任務(wù)的表現(xiàn)，適用于研究、教育和商業(yè)場景。
Goku：港大字節(jié)推出的AI視頻生成模型

Goku是香港大學(xué)與字節(jié)跳動合作開發(fā)的視頻生成模型，基于Rectified Flow Transformer架構(gòu)，能夠從文本、圖像或圖文輸入生成高質(zhì)量的視頻。
Stable Virtual Camera：Stability AI等推出的AI模型，2D圖像輕松轉(zhuǎn)3D視頻

Stable Virtual Camera是由Stability AI推出的多視圖擴散模型，能夠?qū)?D圖像轉(zhuǎn)化為具有真實深度和透視效果的3D視頻。該模型支持用戶自定義相機軌跡和多種動態(tài)路徑，可從單個或多達32個輸入圖像生成3D視頻，并支持多種寬高比和長達1000幀的長視頻生成。
CogAgent-可免費商用的帶 Agent 能力的視覺模型

CogAgent是由清華大學(xué)智譜AI研究團隊開發(fā)的一個基于CogVLM改進的新型視覺語言模型。這個模型專門設(shè)計用于理解和導(dǎo)航圖形用戶界面。它采用了低分辨率和高分辨率圖像編碼器的雙編碼器系統(tǒng)，能夠處理和理解復(fù)雜的GUI元素和文本內(nèi)容。
Qwen3：阿里巴巴最新開源的混合推理大模型

Qwen3 是阿里巴巴推出的新一代大語言模型，支持119種語言，具備強大的推理、編碼和智能體能力。它引入了“思考模式”和“快速響應(yīng)模式”雙模式切換，能根據(jù)任務(wù)靈活調(diào)節(jié)推理深度。Qwen3發(fā)布了多種規(guī)模的開源模型，旗艦版Qwen3-235B-A22B在多個領(lǐng)域性能達到業(yè)界頂尖，廣泛應(yīng)用于自然語言理解、復(fù)雜推理、代碼生成等場景。
千帆大模型平臺-百度推出的大模型與AI應(yīng)用開發(fā)服務(wù)平臺

一站式企業(yè)級大模型平臺，提供先進的生成式AI生產(chǎn)及應(yīng)用全流程開發(fā)工具鏈
HiDream.ai：AI視頻和圖像生成平臺

HiDream AI是一個提供多種圖像和視頻生成服務(wù)的AIGC創(chuàng)作平臺和社區(qū)，由前京東副總裁、加拿大工程院外籍院士梅濤于2023年3月成立。HiDream AI主要包括文生圖、圖生圖、文生視頻、圖生視頻、圖片智能重繪、智能拓圖、智能排版、視頻智能編輯、設(shè)計師展示交流社區(qū)、AI創(chuàng)意創(chuàng)作大賽、AIGC課程及攻略等欄目，幫助您零基礎(chǔ)輕松掌握AIGC一站式能力，喚醒創(chuàng)造力、生命感和價值感，解放生產(chǎn)力，全面…
Seedream 3.0：字節(jié)推出的雙語AI圖像生成模型，支持原生 2K 分辨率

Seedream 3.0 是豆包大模型團隊推出的下一代全場景文生圖模型，支持原生 2K 分辨率圖像生成，并具有顯著提升的文本渲染、圖像美學(xué)、結(jié)構(gòu)優(yōu)化能力。
DeepSeek-V3：DeepSeek推出的開源自研 MoE 模型，性能與速度全面突破

DeepSeek-V3 是由深度求索公司推出的一款全新發(fā)布的自研 MoE（混合專家）模型，旨在突破當前大語言模型的性能瓶頸。通過 671B 參數(shù)和 37B 激活專家，DeepSeek-V3 在 14.8T token 的大規(guī)模預(yù)訓(xùn)練上取得了顯著進展，展現(xiàn)出與世界頂尖閉源模型（如 GPT-4o 和 Claude-3.5-Sonnet）相當?shù)谋憩F(xiàn)。該模型在多項標準評測中超越了 Qwen2.5-72B …
MovieLLM-通過AI生成電影來增強長視頻理解的框架

MovieLLM 是一個由復(fù)旦大學(xué)和騰訊PCG共同開發(fā)的，旨在通過AI生成的電影來增強長視頻理解的框架。它可以在各種場景上生成具有風(fēng)格一致的視頻畫面，解決在生成長視頻時的高質(zhì)量數(shù)據(jù)的問題。
Step-1V：階躍星辰推出的千億參數(shù)多模態(tài)大模型

Step-1V是階躍星辰研發(fā)的一款千億參數(shù)的多模態(tài)大模型。這個模型在多個領(lǐng)域表現(xiàn)出色，特別是在圖像理解、多輪指令跟隨、數(shù)學(xué)能力、邏輯推理和文本創(chuàng)作等方面。
Sana - 英偉達等推出的開源圖像生成模型，支持生成4096×4096圖像

Sana是由英偉達、麻省理工學(xué)院和清華大學(xué)等聯(lián)合推出的文本到圖像合成框架，能夠快速生成高達4096×4096分辨率的高質(zhì)量圖像。Sana的核心設(shè)計包括深度壓縮自編碼器、線性DiT、解碼器僅文本編碼器和高效的訓(xùn)練與采樣策略。這些設(shè)計使得Sana在保持圖像質(zhì)量的同時，顯著提高了生成速度，甚至可以在筆記本電腦的GPU上部署。
POINTS 1.5：微信發(fā)布的最新多模態(tài)AI大模型

POINTS 1.5是什么？ POINTS1.5是微信最新發(fā)布的多模態(tài)大模型，性能超越了同級別開源模型，位居OpenCompass Leaderboard榜首。它采用LLaVA架構(gòu)，使用NaViT風(fēng)格視覺編碼器和Qwen2.5-7B-Instruct大語言模型，支持中英文雙語理解和生成。POINTS1.5在多個基準測試和真實場景中表現(xiàn)出色，具備強大的視覺理解、推理和信息提取能力。該模型通過單獨…
雅意大模型-中科聞歌推出的企業(yè)級大模型

雅意大模型是中科聞歌推出的企業(yè)級專屬大模型，具備5大核心能力，包括實時聯(lián)網(wǎng)問答、領(lǐng)域知識問答、多語言內(nèi)容理解、復(fù)雜場景信息抽取、多模態(tài)內(nèi)容生成，共100多個特色技能，可快速對接政府、企業(yè)數(shù)據(jù)并一鍵生成大模型專屬應(yīng)用服務(wù)。
子曰-o1：網(wǎng)易有道推出的開源輕量級AI推理模型

子曰-o1是網(wǎng)易有道推出的國內(nèi)首個支持分步講解的輕量級推理模型，采用14B架構(gòu)，專為消費級顯卡設(shè)計，可高效運行。通過鏈式思維推理和自我糾錯，模型輸出詳細的解題步驟，幫助用戶掌握邏輯思路。

{{userData.name}}已認證

AI訓(xùn)練模型