-
-
LTX-Video:Lightricks開源的實時AI視頻生成模型
LTXV是由Lightricks推出的基于DiT的首個實時AI視頻生成開源模型,可以生成 24 FPS 768x512分辨率的 視頻,比觀看它們更快。該模型在包含各種視頻的大規(guī)模數(shù)據(jù)集上進行訓(xùn)練,可以生成具有逼真和多樣化內(nèi)容的高分辨率視頻。 -
文心大模型4.5:百度推出的新一代原生多模態(tài)基礎(chǔ)大模型
文心大模型4.5是百度推出的新一代原生多模態(tài)基礎(chǔ)大模型,通過多個模態(tài)聯(lián)合建模實現(xiàn)協(xié)同優(yōu)化,多模態(tài)理解能力優(yōu)秀;具備更精進的語言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺、邏輯推理、代碼能力顯著提升。 -
PixelDance:字節(jié)跳動推出的豆包視頻生成大模型
豆包視頻生成大模型,具備精準的語義理解能力以及多風(fēng)格多尺寸的視頻生成能力,支持通過文本和圖片生成視頻,顯著提高視頻內(nèi)容創(chuàng)作效率。 -
MathGLM-智譜AI發(fā)布的數(shù)學(xué)大模型
近日,智譜AI發(fā)布MathGLM數(shù)學(xué)模型,旨在增強大模型在數(shù)學(xué)推理方面的性能。它能夠精確計算算術(shù)運算,包括基礎(chǔ)算術(shù)運算和復(fù)雜混合運算,并提升模型的中文數(shù)學(xué)解決能力。 -
達觀數(shù)據(jù)-曹植大語言模型
“曹植”是一款大語言模型,它是基于自然語言處理(NLP)、光學(xué)字符識別(OCR)、知識圖譜等技術(shù)的實踐產(chǎn)物。作為垂直、專用、自主可控的國產(chǎn)版ChatGPT模型,它不僅實現(xiàn)專業(yè)領(lǐng)域的AIGC智能化應(yīng)用,還可以內(nèi)置在客戶各類業(yè)務(wù)系統(tǒng)中提供專用服務(wù)。 -
-
TripoSR - 單張圖片快速生成高質(zhì)量3D模型
TripoSR是由Stability AI 和國內(nèi)AI企業(yè)VAST合作開源的快速3D物體重建模型,能在1秒內(nèi)從單張2D圖像快速生成高質(zhì)量的3D模型。 -
Muse:微軟推出的AI游戲生成模型,能生成連貫的游戲畫面和動作
Muse 是微軟發(fā)布的首個專為游戲創(chuàng)意設(shè)計的生成式AI模型,基于大規(guī)模玩家數(shù)據(jù)訓(xùn)練,能夠生成連貫、多樣化的游戲視覺效果和控制器操作。它支持多模態(tài)生成,可快速生成游戲原型,助力開發(fā)者探索新玩法。 -
-
浦語靈筆-上海AI實驗室開源圖文混合創(chuàng)作大模型
浦語靈筆是上海人工智能實驗室推出的首個圖文混合創(chuàng)作大模型,該模型能夠根據(jù)用戶提供的主題或圖片,自動創(chuàng)作出圖文并茂的文章,為大模型落地應(yīng)用提供更多可能。 -
Step-Video-T2V:階躍星辰推出的開源視頻生成大模型
Step-Video-T2V是階躍星辰與吉利聯(lián)合開源的一款高性能視頻生成大模型,具備300億參數(shù)量,能夠生成540P分辨率的高質(zhì)量視頻。它支持復(fù)雜運動場景、精準鏡頭控制和生動人物生成,能夠根據(jù)文本輸入生成符合物理規(guī)律的視頻。 -
Pixtral 12B:Mistral 推出的首款多模態(tài)大語言模型,支持下載和微調(diào)
Pixtral 12B是法國 AI 初創(chuàng)公司 Mistral 發(fā)布的首款多模態(tài)大語言模型,擁有 120 億參數(shù),模型大小約為 24GB。它的多模態(tài)功能使其能夠同時處理文本和圖像,適合執(zhí)行如圖像描述生成、圖像分析、跨模態(tài)搜索等任務(wù)。Pixtral 12B 基于 Mistral 之前的 Nemo 12B 模型構(gòu)建,并且具備開放性,允許用戶下載并微調(diào)以適應(yīng)特定任務(wù)需求。 -
BioMedGPT-清華開源的生物醫(yī)藥基礎(chǔ)模型
BioMedGPT-1.6B是一個參數(shù)為16億的生物醫(yī)藥領(lǐng)域輕量級科研版基礎(chǔ)模型,具有跨模態(tài)與知識融合的特點,可以處理藥物性質(zhì)預(yù)測、自然語言類、跨模態(tài)等多種任務(wù)。 -
OpenAI o3:OpenAI推出的最新推理模型,支持工具調(diào)用和圖像理解
OpenAI o3 是 OpenAI 發(fā)布的最新推理模型,代表了其在智能推理領(lǐng)域的最高水平。它能夠自主使用 ChatGPT 內(nèi)的所有工具,包括網(wǎng)絡(luò)搜索、文件分析、代碼執(zhí)行和圖像生成。 -
Gemini 1.5-谷歌發(fā)布的新一代AI大模型
Gemini 1.5是谷歌發(fā)布的全新AI大模型,除了性能顯著增強,還在長上下文理解方面取得突破,它可以處理多達100萬token,實現(xiàn)了迄今為止任何大型基礎(chǔ)模型中最長的上下文窗口。甚至能僅靠提示詞學(xué)會一門訓(xùn)練數(shù)據(jù)中沒有的新語言。 -
Llama 3.2:Meta最新推出的開源模型,包括視覺大語言模型和設(shè)備端純文本模型
Llama 3.1是Meta最新推出的開源大語言模型,包括90B和11B兩種參數(shù)規(guī)格的視覺大語言模型,還有能在設(shè)備端本地運行的1B和3B輕量級純文本模型,包括預(yù)訓(xùn)練和指令調(diào)整版。1B和3B模型支持128K tokens上下文,適配高通和聯(lián)發(fā)科硬件,并針對Arm處理器做了優(yōu)化。 -
-
SeedFoley - 字節(jié)跳動推出的AI視頻音效生成模型
SeedFoley 是字節(jié)跳動推出的端到端視頻音效生成模型,通過融合時空視頻特征和擴散生成模型,實現(xiàn)音效與視頻的高度同步。它支持可變長度視頻輸入,可在音效準確性、同步性和匹配度上達到領(lǐng)先水平。SeedFoley 已上線即夢應(yīng)用,用戶可一鍵生成專業(yè)級音效,廣泛應(yīng)用于 AI 視頻創(chuàng)作、Vlog、短片和游戲制作等場景,提升視頻的沉浸感和專業(yè)感。 -
QwQ-32B:阿里云開源的最新AI推理模型,更小尺寸,消費級顯卡即可部署
QwQ-32B 是阿里云開源的320億參數(shù)推理模型,具備強大的數(shù)學(xué)、代碼和通用推理能力,性能比肩全球頂尖開源模型。它支持消費級顯卡部署,降低硬件門檻,同時集成智能體能力,可靈活調(diào)整推理過程。采用Apache 2.0協(xié)議開源,用戶可免費下載、商用和定制化開發(fā),推動AI技術(shù)的廣泛應(yīng)用。 -
Stable Diffusion-全球最強開源AI繪畫模型
Stable Diffusion 完全免費開源,所有代碼均在 GitHub 上公開,任何人都可以拷貝使用,只需要輸入一句提示詞(prompt),就能夠在幾秒鐘內(nèi)創(chuàng)造出令人驚嘆的繪畫作品。 -
心辰Lingo:西湖心辰推出的端到端語音大模型
心辰Lingo大模型是由西湖心辰開發(fā)的一款端到端語音大模型,集成了語音識別、自然語言處理、意圖識別和語音合成等功能,能夠深度理解用戶的語音內(nèi)容和情感,為用戶提供自然、生動的互動體驗。Lingo不僅可以快速響應(yīng)復(fù)雜指令,還能根據(jù)語境和情感自適應(yīng)調(diào)整語音表達方式,重新定義了智能語音交互的體驗。 -
Grok 3:馬斯克旗下XAI發(fā)布的新一代AI大模型
Grok 3是由埃隆·馬斯克旗下公司xAI開發(fā)的的新一代大語言模型系列,包括Grok-3及其精簡版Grok-3 mini。Grok 3計算能力是前代的十倍,具備思維鏈推理和邏輯一致性。數(shù)學(xué)、科學(xué)推理和編程能力領(lǐng)先,AIME'24得52分,科學(xué)知識75分,編程57分,AIME 2025得93分,LMSYS聊機競技場得1400分。新增Big Brain和DeepSearch模式,優(yōu)化復(fù)雜任務(wù)… -
Qwen2-Audio:阿里推出的開源音頻語言大模型
Qwen2-Audio是由阿里通義團隊推出的大型音頻語言模型系列,它能夠接受音頻信號輸入,進行音頻分析或直接文本響應(yīng),支持語音聊天和音頻分析兩種交互模式,并且提供了預(yù)訓(xùn)練模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。 -
SmolLM-HuggingFace發(fā)布的高性能小型語言模型
SmolLM是由 Huggingface 最新發(fā)布的一組高性能的小型語言模型,參數(shù)分別為 1.35 億、3.6 億和 17 億,訓(xùn)練數(shù)據(jù)來自高質(zhì)量數(shù)據(jù)集 SmolLM-Corpus,其中包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。SmolLM 模型在多種基準測試中表現(xiàn)不錯, 適合跑在手機這種終端設(shè)備上。 -
Pixtral Large:Mistral AI推出的開源千億參數(shù)多模態(tài) AI 模型
Pixtral Large 是由 Mistral AI 推出的 1240 億參數(shù)開源多模態(tài)模型。它是基于 Mistral Large 2 構(gòu)建的第二代多模態(tài)模型,能夠同時處理 文本 和 圖像 數(shù)據(jù),專為復(fù)雜推理、文檔分析和視覺理解任務(wù)設(shè)計。它在保持頂尖文本理解能力的同時,顯著增強了圖像相關(guān)任務(wù)的表現(xiàn),適用于研究、教育和商業(yè)場景。 -
Goku:港大字節(jié)推出的AI視頻生成模型
Goku是香港大學(xué)與字節(jié)跳動合作開發(fā)的視頻生成模型,基于Rectified Flow Transformer架構(gòu),能夠從文本、圖像或圖文輸入生成高質(zhì)量的視頻。 -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D圖像輕松轉(zhuǎn)3D視頻
Stable Virtual Camera是由Stability AI推出的多視圖擴散模型,能夠?qū)?D圖像轉(zhuǎn)化為具有真實深度和透視效果的3D視頻。該模型支持用戶自定義相機軌跡和多種動態(tài)路徑,可從單個或多達32個輸入圖像生成3D視頻,并支持多種寬高比和長達1000幀的長視頻生成。 -
CogAgent-可免費商用的帶 Agent 能力的視覺模型
CogAgent是由清華大學(xué)智譜AI研究團隊開發(fā)的一個基于CogVLM改進的新型視覺語言模型。這個模型專門設(shè)計用于理解和導(dǎo)航圖形用戶界面。它采用了低分辨率和高分辨率圖像編碼器的雙編碼器系統(tǒng),能夠處理和理解復(fù)雜的GUI元素和文本內(nèi)容。 -
Qwen3:阿里巴巴最新開源的混合推理大模型
Qwen3 是阿里巴巴推出的新一代大語言模型,支持119種語言,具備強大的推理、編碼和智能體能力。它引入了“思考模式”和“快速響應(yīng)模式”雙模式切換,能根據(jù)任務(wù)靈活調(diào)節(jié)推理深度。Qwen3發(fā)布了多種規(guī)模的開源模型,旗艦版Qwen3-235B-A22B在多個領(lǐng)域性能達到業(yè)界頂尖,廣泛應(yīng)用于自然語言理解、復(fù)雜推理、代碼生成等場景。 -
-
HiDream.ai:AI視頻和圖像生成平臺
HiDream AI是一個提供多種圖像和視頻生成服務(wù)的AIGC創(chuàng)作平臺和社區(qū),由前京東副總裁、加拿大工程院外籍院士梅濤于2023年3月成立。HiDream AI主要包括文生圖、圖生圖、文生視頻、圖生視頻、圖片智能重繪、智能拓圖、智能排版、視頻智能編輯、設(shè)計師展示交流社區(qū)、AI創(chuàng)意創(chuàng)作大賽、AIGC課程及攻略等欄目,幫助您零基礎(chǔ)輕松掌握AIGC一站式能力,喚醒創(chuàng)造力、生命感和價值感,解放生產(chǎn)力,全面… -
Seedream 3.0:字節(jié)推出的雙語AI圖像生成模型,支持原生 2K 分辨率
Seedream 3.0 是豆包大模型團隊推出的下一代全場景文生圖模型,支持原生 2K 分辨率圖像生成,并具有顯著提升的文本渲染、圖像美學(xué)、結(jié)構(gòu)優(yōu)化能力。 -
DeepSeek-V3:DeepSeek推出的開源自研 MoE 模型,性能與速度全面突破
DeepSeek-V3 是由深度求索公司推出的一款全新發(fā)布的自研 MoE(混合專家)模型,旨在突破當前大語言模型的性能瓶頸。通過 671B 參數(shù)和 37B 激活專家,DeepSeek-V3 在 14.8T token 的大規(guī)模預(yù)訓(xùn)練上取得了顯著進展,展現(xiàn)出與世界頂尖閉源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相當?shù)谋憩F(xiàn)。該模型在多項標準評測中超越了 Qwen2.5-72B … -
MovieLLM-通過AI生成電影來增強長視頻理解的框架
MovieLLM 是一個由復(fù)旦大學(xué)和騰訊PCG共同開發(fā)的,旨在通過AI生成的電影來增強長視頻理解的框架。它可以在各種場景上生成具有風(fēng)格一致的視頻畫面,解決在生成長視頻時的高質(zhì)量數(shù)據(jù)的問題。 -
Step-1V:階躍星辰推出的千億參數(shù)多模態(tài)大模型
Step-1V是階躍星辰研發(fā)的一款千億參數(shù)的多模態(tài)大模型。這個模型在多個領(lǐng)域表現(xiàn)出色,特別是在圖像理解、多輪指令跟隨、數(shù)學(xué)能力、邏輯推理和文本創(chuàng)作等方面。 -
Sana - 英偉達等推出的開源圖像生成模型,支持生成4096×4096圖像
Sana是由英偉達、麻省理工學(xué)院和清華大學(xué)等聯(lián)合推出的文本到圖像合成框架,能夠快速生成高達4096×4096分辨率的高質(zhì)量圖像。Sana的核心設(shè)計包括深度壓縮自編碼器、線性DiT、解碼器僅文本編碼器和高效的訓(xùn)練與采樣策略。這些設(shè)計使得Sana在保持圖像質(zhì)量的同時,顯著提高了生成速度,甚至可以在筆記本電腦的GPU上部署。 -
POINTS 1.5:微信發(fā)布的最新多模態(tài)AI大模型
POINTS 1.5是什么? POINTS1.5是微信最新發(fā)布的多模態(tài)大模型,性能超越了同級別開源模型,位居OpenCompass Leaderboard榜首。 它采用LLaVA架構(gòu),使用NaViT風(fēng)格視覺編碼器和Qwen2.5-7B-Instruct大語言模型,支持中英文雙語理解和生成。POINTS1.5在多個基準測試和真實場景中表現(xiàn)出色,具備強大的視覺理解、推理和信息提取能力。 該模型通過單獨… -
雅意大模型-中科聞歌推出的企業(yè)級大模型
雅意大模型是中科聞歌推出的企業(yè)級專屬大模型,具備5大核心能力,包括實時聯(lián)網(wǎng)問答、領(lǐng)域知識問答、多語言內(nèi)容理解、復(fù)雜場景信息抽取、多模態(tài)內(nèi)容生成,共100多個特色技能,可快速對接政府、企業(yè)數(shù)據(jù)并一鍵生成大模型專屬應(yīng)用服務(wù)。 -
子曰-o1:網(wǎng)易有道推出的開源輕量級AI推理模型
子曰-o1是網(wǎng)易有道推出的國內(nèi)首個支持分步講解的輕量級推理模型,采用14B架構(gòu),專為消費級顯卡設(shè)計,可高效運行。通過鏈式思維推理和自我糾錯,模型輸出詳細的解題步驟,幫助用戶掌握邏輯思路。