京东正式开源JoyAI-Image-Edit，引领空间编辑范式突破

2026-04-09 15:45阅读：

http://blog.sina.cn/dpool/blog/u/2219338054

近日，京东探索研究院正式开源多模态基础模型JoyAI-Image-Edit，支持文生图、图像理解以及指令引导的图像编辑。该模型不仅具备像素级精细化编辑能力，更能赋予平面图像真实的'立体感'，是业内首个将空间智能深度融入统一多模态框架的开源模型，在引入空间能力的同时，依然具备强大的通用生成与理解性能。
在公开的Benchmark中，JoyAI-Image-Edit的空间理解和空间编辑能力已达世界一流水平，超过现有开源模型，比肩顶尖闭源模型。
目前，模型已开源，开发者可直接基于其构建空间编辑应用。
京东正式开源JoyAI-Image-Edit，引领空间编辑范式突破

京东正式开源JoyAI-Image-Edit，引领空间编辑范式突破

JoyAI-Image-Edit的空间理解和空间编辑能力已达世界一流水平
破局行业痛点：理解与生成之间的“空间断层”
统一多模态模型是当前学界和产业界共同攻坚的方向，不少头部公司都在尝试将图像理解与生成整合进同一个模型框架。然而，理解与生成的协同在空间维度上存在明显短板。
这种短板在实际编辑中暴露得尤为突出：移动物体导致结构变形、比例失调；调整物体间的位置关系则遮挡层次全部错乱；切换视角时透视几何严重失真；反复微调后画面一致性彻底崩塌。根源在于模型缺乏对三维空间结构的深层理解，理解模块输出的语义信息没有真正'流入'生成模块的几何控制过程，编辑操作只是在像素层面'搬运'，而非在空间层面'推理'。
JoyAI-Image-Edit正是为此而生——从数据构建、任务设计到训练策略全链路注入空间感知，让理解、生成与编辑在统一框架内彼此增强。
三大核心亮点：从架构到场景的全面突破
JoyAI-Image-Edit的技术优势集中体现在三个层面。第一，生成与理解的深度融合。模型采用MLLM–MMDiT统一架构，彻底打破了理解与生成的边界。通过视觉感知

与生成能力的深度协同，其空间理解指标已可比肩行业顶级闭源模型，在公开Benchmark中领跑同规模开源模型。第二，空间编辑的范式突破。这是JoyAI-Image-Edit最具辨识度的能力。它支持三类此前开源模型难以胜任的操作：视角变换——用户可通过自然语言指定相机的偏航角、俯仰角及缩放程度，模型在保持场景几何一致性的前提下生成新视角图像；空间漫游——支持连续的视角移动，生成在空间中逻辑连贯的多视角图像序列，类似于在三维场景中'走动'；物体空间关系操控——在保持场景整体结构稳定的前提下，对特定物体进行位移、缩放等空间变换，同时确保遮挡与光影关系自然合理。第三，多场景的高性能表现。模型同时支持15类通用编辑能力，涵盖替换、删除、添加、风格调整等常用操作，结合空间编辑能力，在长文本渲染、多视角一致性生成等高难度任务中均表现卓越。这些空间编辑能力背后有两大关键技术支撑：一是自研的OpenSpatial数据引擎，实现了空间数据的自动化合成；二是百万级规模的Blender渲染多视角数据集，使用Blender 4.5渲染了约100万组多视角图像，为模型的空间感知能力提供了坚实的数据基础。
京东正式开源JoyAI-Image-Edit，引领空间编辑范式突破

京东正式开源JoyAI-Image-Edit，引领空间编辑范式突破

具身场景，合成空间一致的多角度训练样本
落地场景：从电商到具身智能的广泛想象
JoyAI-Image-Edit的开源，为多个垂直领域打开了新的应用空间。在电商领域，产品通常需要多角度、多场景展示图，传统方式依赖摄影棚实拍或3D建模渲染，成本高、周期长。通过JoyAI-Image-Edit，商家只需一张商品主图即可自动生成不同角度的展示图，商品'放入'不同场景时几何关系依然合理。
京东正式开源JoyAI-Image-Edit，引领空间编辑范式突破

京东正式开源JoyAI-Image-Edit，引领空间编辑范式突破

在具身智能领域，空间理解与生成的闭环能力是构建世界模型的基础。机器人执行导航、抓取等任务时需要对三维空间进行推理，而真实场景数据采集成本极高。JoyAI-Image-Edit可从有限真实图像出发，合成大量空间一致的多视角训练样本，为视觉-语言-动作系统和世界模型提供底层能力支撑。
在3D重建领域，传统流程依赖多视角实拍或激光雷达扫描，对硬件和拍摄条件要求较高。JoyAI-Image-Edit提供了全新路径——用户仅需输入三张图片，即可生成几何一致的多视角图像序列，在电商三维展示、品牌VI生成、数字孪生、工业仿真及文化遗产保护等场景中前景广阔。在建筑设计、游戏与影视领域，设计师可从一张概念图快速探索不同视角效果，无需启动完整三维建模流程，显著提升创意验证效率。这不是一次渐进式的版本更新，而是AI图像编辑从'平面修图'迈向'空间重塑'的范式级跃迁。随着模型全面开源，更多开发者将在此基础上探索空间智能的更多可能。广大开发者可前往HuggingFace或Github获取模型。

举报/Report

我的更多文章

下载客户端阅读体验更佳