小九·体育世界杯(中国)官方网站 半月内两次问鼎寰球: 中国创业公司, 在AI图像生成赛谈掀了桌子


机器之心发布
每一次手艺范式的要紧转化,齐是旧规律松动、新物种出身的窗口期。
大模子的竞争进入 2026 年,行业正在将 AI 视为一场对于参数规模与算力堆砌的无穷游戏时,一家建立仅三年多的中国创业公司——智象当年(HiDream.ai),凭借底层架构的创新,在巨头环伺的图像模子领域撕开了全部疏忽。
国内第一、寰球第二
智象当年刷新国产图像生成模子记载
近日,智象当年(HiDream.ai)全新推出的商用领土像生成模子 HiDream-O1-Image-1.5 再次终了 SOTA,在寰球著明稳定 AI 模子评测与分析平台 Artificial Analysis 的文生图榜单(Text to Image Leaderboard)上,一举登上中国图像生成模子第一,成为评分仅次于 OpenAI 的中国大模子公司,超越 Google Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA Cosmos3-Super-Text2Image 和字节跳跃的 Seedream 4.0 等国表里大厂的主流图像生成模子。


这并非是一次偶发性的手艺爆发。只是在数周之前,智象当年原生全模态 HiDream-O1 系列的开源模子 HiDream-O1-Image-Dev-2604 刚刚登顶文生图榜单开源模子的寰球第一。
半月之内两次问鼎寰球,这不禁让东谈主让东谈主感到趣味:一家建立刚满三年的创业公司,凭什么在图像生成的雄风榜单中超越谷歌和字节?这是偶然的评测优化,照旧硬核实力的比拼?此次评测收尾,又折射出了哪些时期的潮向?
榜单的背后——UiT 架构的门路得手
Artificial Analysis 的 Text to Image Leaderboard 弃取匿名对比、用户投票和 ELO 动态名次机制,尽量减少品牌领路对评测收尾的影响,更接近确凿用户在绽放生成场景中的偏好判断。在这一专科评测体系下,HiDream-O1-Image-1.5 在高出 4000 个样本对比中赢得 1265 ELO。HiDream-O1-Image-1.5 的发扬不仅体现了模子在图像质料上的竞争力,也反应出其在语义顺从、复杂画面生成、翰墨渲染和多主体限制等概括智商上的擢升。
放眼扫数 “赛场”,与智象当年同台竞技的敌手不乏一些市值万亿的泰斗:Google 领有 TPU 集群和寰球顶级东谈主才积存,字节跳跃领有强劲的流量进口与足下泥土。在算力、数据与生态天禀齐不占优的布景下,这家初创企业终了超越,中枢在于弃取了一条天壤之隔的手艺旅途。
现时寰球主流文生图模子,精深沿用文本编码器 + VAE(变分自编码器)+DiT(扩散 Transformer) 的模块化架构,行业也耐久以增多参数规模、堆砌算力动作主要迭代处所。而智象当年毁灭了这条熟习门路,弃取了一条更难但更具联想力的路 —— 像素级原生全模态架构 UiT。
传统文生图模子常常弃取 “文本编码器 + VAE + DiT / 扩散模子” 的模块化旅途,其形态更像一棵持续分叉滋长的树:文本有我方的 tokenizer,图像和视频有各自的 encoder /decoder,音频、动作、空间关系也往往沿着不同旅途被处理,模块之间需要屡次转化信息。在长文本排版、UI 遐想、多主体画面、多参考图联动、一语气分镜等复杂任务中,信息屡次转化容易形成细节丢失、语义偏差与画面结构不踏实,这亦然现时大齐商用图像模子的精深痛点。
智象当年 HiDream-O1 系列所弃取的原生全模态架构,透彻重构了信息处理逻辑。该架构剔除传统决策中的稳定 VAE 与专用文本编码器,将图像像素、文本 Token、视频体素、音频、动作及空间关系等原始信号,调和映射至团结个分享表征空间,通过一套 UiT(像素级调和 Transformer)完周到模态信息的清爽、野心与生成。不同于行业常见的 “多模态后期拼接” 决策,这套架构从模子底层终明晰各类信号的交融交互,从根源上减少模态转化带来的损耗。
企业手艺门路的弃取,往往与团队的领路结构和实行素养高度相干。顺序会智象当年的手艺门路,需要回到这支团队的历史坐标系中。
智象当年中枢手艺团队专注 AIGC 领域高出 10 年,深度参与三代 AI 模子手艺演进,是国内少有的由院士领衔、兼具完好手艺旅途与产业素养的多模态 AI 团队。早在 2017 年,团队便提议了 TGANs-C,这亦然寰球最早的视频生成模子论文之一,曾经深度参与寰球第二大视频搜索引擎、中国最大自营电商平台图片搜索引擎等大规模系统建筑,并将多模态手艺进一步落地到物流具身智能、千卡级准及时智能视频推理等高复杂度产业场景。
这意味着,智象当年并非只领有模子研发素养,而是同期资格过前沿算法、工程系统与确凿业务场景的完好闭环。决定发展高度的,是合手续深耕底层创新的智商;决定能走多远的,是穿越复杂产业场景的落地素养。
智象当年从不败落创新的气派。
在智象当年的手艺体系中,图像被界说为施行宇宙建模的空间基底。单张图像承载着某刹那间完好的场景、光影、结构与主体信息,它并非稳定的单一智商,而是视频生成、乃至通向原生全模态宇宙模子的要津进口。基于这一前瞻性判断,企业详情了 “以图像为根基,向视频、全模态延迟” 的发展门路。
纵不雅行业花样,头部大厂耐久以谎话语模子为中枢搭建多模态体系。文本动作主流领路中介,围绕其构建的手艺栈、家具生态与交易壁垒仍是树大根深,也让大厂难以透彻推翻现存架构再行布局。而成有时间较短的智象当年莫得历史手艺职守,团队提议全新理念:在多模态发展的新阶段,信号本人即可动作领路载体,文本不再是必需的中间绪论。
现时寰球多模态手艺门路尚未十足不断,行业仍处于门路竞争的窗口期。当巨头受制于熟习手艺体系难以全面矫正时,初创企业凭借轻量化组织、机动的试错空间,依托底层架构创新,反而有契机终了代际层面的手艺跨越。
智象当年的解围,不错解构为三个层面:
第一,在架构层面寻找代际上风,用极限资源作念成中枢业务。
智象当年莫得卷入 DiT 主流赛谈的算力与参数竞赛,而是全力打磨自研的 UiT 原生全模态架构。这条门路前期研发干预大、试错老本高,但一朝跑通,便有望形成结构性的代际上风。据团队走漏,小九·体育世界杯(中国)官方网站在周边的试验数据和野心资源下,其 8B 参数模子已可终了与行业百亿级传统模子对标以至超越的概括发扬,体现出更高的参数效用。
这种对底层架构的极致追求,并未让智象当年堕入 “为创新而创新” 的浞訾栗斯。相背,在工程化落地层面智象当年保合手着高度求实的立场。以视频生成为例,团队弃取 “先图像、后视频” 的念念路:先用图像模子完成手艺考证与快速试错,再将熟习智商迁徙至视频领域。这一策略将试验老本压缩至行业平均的五分之一到十分之一 —— 恰是这种用极限资源作念成中枢业务的生涯贤慧,让一家创业公司在巨头林立的环境中跑出了我方的节拍。
第二,将模子与垂直场景深度耦合,构建别东谈主难以复制的护城河。
智象当年不单是一家模子公司,正如斯前所说,交易化是公司出身之日起就极端关心的问题。经过多年的探索,当今仍是形成 “1+1+3” 的布局:一个 HiDream 模子底座,一个对外输出智商的平台,三个智能体足下场景诀别是面向专科影视团队的影视创作协调智能体「帧赞」,面向电商(额外是跨境商家)批量营销内容坐褥的 HiBurst,以及面向专科社媒创作责任者的 vivago,终明晰模子与家具的最强耦合。
交易营销智能体 HiBurst 已进入 TikTok 官方管事商 Top 5,年产电商营销视频超百万条,秘籍 GMV 超亿元;AI影视创作与协调智能体「帧赞」买通“创意—分镜—成片”全过程,累计制作短漫剧超 5000 分钟,并接入长江电影集团、慈文传媒等影视机构;社媒创作智能体 vivago 近期登上 Product Hunt 日榜第一,秘籍寰球 100 多个国度和地区,管事超 4000 万用户。
智象当年的专科影视视频生成业务,当今已能踏实 one-shot 直出 1-3 分钟的视频,得手率高出 70%。在今天的大抽卡时期,这个数字令东谈主印象潜入。
第三,保合手极致的政策定力与领路升级。
当行业绝大部分玩家还在传统架构上发力时,智象当年勇于 “推倒重来”,押注原生全模态。这种 “身份清零” 的勇气,源自创举团队的两个坚合手:一面是政策定力,一面是领路升级。他们莫得被算力竞赛和参数内卷带偏,弥远治服 “全模态交融才是通往宇宙模子的必经之路”;同期又在每一次手艺迭代中再行谛视旅途、刷新领路。这种稳得住又跟得上的智商,使得公司弥远领有合手续创新的强劲动能。
会写字、懂排版、能分镜
原生全模态进入坐褥考证阶段
这种合手续创新的智商,正缓缓转动为一批可见的政策性效果。HiDream1.5 问鼎寰球雄风榜单,等于生动注脚。
HiDream-O1-Image-1.5 展现出远超 “顺眼图片” 领域的万能图像生成智商。它不再本旨于输出一张考究的静态画面,而是大略清爽复杂排版、渲染多话语翰墨、把控一语气分镜逻辑。
同期,HiDream1.5 的商用模子定位,美艳着原生全模态进入坐褥考证阶段,大略料理实质坐褥中的各类难点。过往不少 AI 图像模子往往无法用于交易场景,尤其是在复杂排版、多主体限制、长文本渲染等场景中,存在短板,而 HiDream1.5 在这个方面终明晰要紧冲突。
HiDream1.5 面向告白营销、品牌遐想、电商视觉、游戏内容、影视分镜、IP 创作等更高条目的交易场景,全面展示了强化的图像质料、翰墨渲染、复杂排版、多主体一致性和视觉叙事智商。
东谈主像照相场景
模子可输出照相级画质,适配奇幻光影、东谈主物特写、双东谈主互动等多种作风。在皮肤质感、衣饰纹理、肢体互动、环境虚化等细节上发扬当然,濒临广角、低机位、室内暖光等复杂构图,也能保证东谈主物比例、空间透视与画面叙事的协调性,可本旨交易东谈主像、品牌视觉、影视分镜等专科需求。

当然时局场景
针对雪山湖泊、沙漠、洞穴等大场景与复杂地貌,模子大略精确把控空间头绪、光影变化与环境氛围,画面具备电影质感与丰富细节,适配旅游宣传、影视认识图、游戏场景遐想、品牌视觉传播等场景。

电商海报场景
可快速匹配不同品类商品的视觉作风,将家具、场景、遮拦元素与营销案牍当然交融。濒临中英文混排、多层级卖点、复杂版式等需求,依旧能保证翰墨可读性与画面完好性,灵验擢升电商上新、告白物料、轻佻种草内容的制作效用。

多宫格与分镜遐想
模子具备一语气叙事清爽智商,在绘本、故事剧本、告白分镜、短视频剧本等多画面创作中,可生成逻辑连贯的内容,同期保合手变装、场景、视觉作风调和,对宫格布局、标题、编号等元素也能合理排布,复旧漫画、影视、锻练类内容的视觉化创作。

HiDream-O1-Image-1.5 的出色发扬,展现出 UiT 门路不仅带来了单图生奏效果的跃升,更在多图一致性、分镜生成、视频首帧乃至长视频生成等复杂任务中展现出更踏实的底层智商。
站在 2026 年的要津节点推断,AI 图像生成的竞争逻辑正在悄然重构。它不再只是是参数规模的数字游戏,也不啻于 “画面好不顺眼” 的审好意思判断 —— 而是进入了一个由架构智商、坐褥效用与责任流价值共同决定的新阶段。
虽然,这远非结尾。现时,寰球多模态手艺门路尚未不断,窗口期仍在。但岂论奈何,这场竞争仍是开释了一个廓清的信号:在 AI 的耐久探索中,底层创新的勇气与落地智商正在冉冉超越单纯的规模,成为更稀缺、更寥落的变量。
不同体量、不同门路的企业同台竞技,终将股东扫数行业向更实用、更高效、更贴合产业需求的处所演进。咱们正站在这场范式改进的序幕 —— 而非高涨。在这场浪潮壮阔的演进中,每一家企业齐在以我方的相貌寻找当年的坐标。而智象当年,果决先行一步。
通过以下接头体验:
HiDream-O1-Image-1.5 :
https://vivago.ai/
https://hiharness.ai/
开源模子HiDream-O1-Image
Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image小九·体育世界杯(中国)官方网站