招聘 | 实习生 | 多模态生成+视觉生成大模型+可控生成+具身智能方向 | 国家地方共建具身智能机器人创新中心

国家地方共建具身智能机器人创新中心（曾用名：北京人形机器人创新中心、北京具身智能机器人创新中心，以下简称“国创中心”）于2023年11月在北京经济技术开发区成立，是国内首家聚焦于具身智能机器人核心技术、产品研发、应用生态建设的创新中心。国创中心由优必选、京城机电、小米机器人、亦庄机器人等机器人行业领军企事业单位联合组建，汇聚了全球具身智能机器人产业顶尖的科学家和工程师，研发人员占比70%以上。

国创中心聚焦具身智能机器人关键共性技术研发和生态建设，围绕通用机器人母平台“天工”和多能具身智能体平台“开物”两大核心任务开展攻坚，并致力于成为具身智能领域的行业资源组织者、产业发展培育者、落地应用推动者，打造具有全球影响力的具身智能创新策源地和应用示范高地。

2025年4月19日，天工Ultra机器人全程用时约2小时40分冲过2025北京亦庄人形机器人半程马拉松的终点线。

团队介绍

我们专注于具身智能与多模态生成模型的融合创新，探索如何让智能体不仅能理解世界，更能生成符合物理规律与语义指令的多模态内容（图像、视频、动作、3D结构等）。你将参与构建下一代多模态生成大模型，推动其在机器人、仿真环境、交互式内容创作等场景中的落地应用。

代博士，博士毕业电子科技大学，原腾讯AI Lab研究员、同花顺高级算法专家，现为国地共建具身智能机器人创新中心大模型负责人。在人工智能领域深耕多年，拥有丰富的业界和研究经验，已发表三十多篇人工智能顶会论文。

招聘岗位：实习生（国地共建具身智能机器人创新中心（北京亦庄））

研究方向

多模态算法实习生（生成方向）

工作条件

• 与顶尖研究员合作的机会，参与前沿AI项目；

• 充足的计算资源（A100/H100集群），支持大规模实验；

• 开放的学术氛围，鼓励发表顶会论文与开源贡献；

岗位职责

• 负责多模态生成模型的训练与优化，包括图文生成、视频生成、动作生成、3D结构生成等方向；

• 构建高质量生成训练数据（图文对、视频-文本、动作-指令、3D-语言对齐等），设计数据增强与语义对齐策略；

• 探索并优化生成模型结构（如扩散模型、DiT、VDM、VideoDiffusion、3D-aware生成等），提升生成质量与可控性；

• 研究多模态条件下的生成任务（如文本驱动图像/视频/动作生成、图像驱动动作/结构生成等）；

• 与仿真平台、机器人团队协作，将生成模型应用于任务规划、数据增强、交互内容生成等具身智能场景；

• 跟踪生成模型、AIGC、多模态建模等前沿研究，持续推动技术创新与落地。

岗位要求

• 计算机科学、人工智能、机器学习等相关专业硕士及以上学历；

• 熟悉生成模型原理与训练流程，如Diffusion Models、GANs、VAE、Autoregressive Models等；

• 有多模态生成模型训练经验（如Stable Diffusion、ControlNet、VideoCrafter、Emu、DALL·E、SORA-like结构等）；

• 熟练使用PyTorch / DeepSpeed / HuggingFace / Diffusers等训练框架，具备大规模模型训练与调优能力；

• 熟悉视觉生成模型结构（如UNet、DiT、3D-aware生成器），了解文本编码器（如T5、CLIP）与生成模型的融合机制；

• 有多模态数据构造经验，熟悉图文/视频/动作/3D数据的采集、清洗、对齐与格式转换；

• 有优秀的代码能力和团队协作精神，有顶会论文（CVPR/ICCV/NeurIPS/SIGGRAPH等）或开源项目贡献者优先；

• 有具身智能、仿真平台（如Habitat、Isaac Sim、NVIDIA Omniverse）经验者加分。

加分项：

• 熟悉可控生成（如ControlNet、T2I-Adapter、LoRA、Fine-tuning策略）；

• 有视频生成、动作生成、3D资产生成等实际项目经验；

• 参与过多模态生成开源项目（如Stable Diffusion、AnimateDiff、VideoCrafter、Magic3D等）；

• 有生成模型评估与优化经验（如FID、IS、CLIPSIM、人类偏好对齐等）；

• 对AIGC内容创作、虚拟人、交互式生成等应用场景有深入理解。

联系方式:

请发送简历至 vito.dai@x-humanoid.com，邮件主题格式：多模态生成算法实习生 - [姓名]

微信群

内容中包含的图片若涉及版权问题，请及时与我们联系删除

招聘 | 实习生 | 多模态生成+视觉生成大模型+可控生成+具身智能方向 | 国家地方共建具身智能机器人创新中心

评论列表

评论