AI一天,人间一年,短短一晚上,三大重量级厂商都迎来了史诗级的更新:而且每个产品效果都非常炸裂,对于AI领域从业者可谓是又一个春节;
1、Luma 发布了类似 Sora 的文生视频,图生视频产品 Dream Machine;
2、SD 3 模型终于开源,效果赶超 Midjourney 闭源模型;
3、Midjourney 发布“模型个性化”功能,可以根据自己喜好调整MJ算法;



01 

Luma 发布重量级

文生视频产品 Dream Machine

体验地址:https://lumalabs.ai/dream-machine
效果比肩 Sora,而且还免费,现在只需要免费注册就可以使用,通过文案,上传的图片生成想要的内容;
Luma本身是一家聚焦3D生成的公司,此次推出的Dream Machine在效果上完全不输市场成熟的产品,甚至还有领先:
先来看看几个产品的对比:

Runway,Pika,Luma之间的对比
可以看到,在运动轨迹,人物形象的一致性上,大范围肢体运动等几个领域,Luma都展现出来了碾压式的效果;而且变形程度都很低;
最最关键的是:生成速度非常快,一般2分钟内就可以完成120帧的视频生成
在人物形象的处理上也堪称史上最强,对于一些人物运动轨迹的把握非常厉害:

Luma在人物一致性上的处理
我自己也拿着几张图测试了一下,效果非常棒;
自己实测的效果:
提示词:龙在空中吞吐气体
生成效果:最后几帧的处理略显粗糙
提示词:The spacecraft took off, raising dust
生成效果,最后几帧的处理不是很理想。
效果真的很炸裂,你真的应该上手去试试。

02 

SD 3 模型迎来开源时刻,

当前最强 AI 生图工具

模型地址:

https://huggingface.co/stabilityai/stable-diffusion-3-medium
SD 3采用2B参数模型,优化于消费级PC和企业级GPU,擅长处理复杂提示词并生成高质量图像。用户可以通过Stability Platform、Stable Assistant和Stable Artisan试用,并与NVIDIA和AMD合作优化性能。

SD 3的技术优势

1) 多模态扩散变压器架构(MMDiT):
SD 3采用了全新的多模态扩散变压器架构,使其在文本理解和图像生成方面具有更高的准确性和一致性。通过使用独立的权重集来分别处理图像和语言表示,SD 3能够更好地理解复杂的文本提示并生成高质量的图像 。

2)强大的文本生成和排版能力:
与之前的版本相比,SD 3在文本生成和排版方面有了显著提升。基于人类偏好评估的结果显示,SD 3在遵循提示和文本呈现方面表现优于DALL·E 3、Midjourney v6和Ideogram v1 。
3) 模型可扩展性:
SD 3提供了一系列从800M到8B参数不等的模型,用户可以根据具体需求选择最佳的性能与成本平衡点。这种灵活性使得开发者能够在各种硬件配置下运行SD 3,从而进一步降低使用门槛 。
4)安全性和负责任的AI实践:
为了防止不当使用,SD 3增加了多项安全措施,确保模型在各类应用中都能负责任地使用

这次同时更新了一些强大的功能:

  • 照片写实主义:克服了手部和面部伪像问题,提供高质量图像,无需复杂操作。

  • 提示遵循:理解空间关系、构图、动作和风格等复杂提示。

  • 排版:在DiT架构下,实现无伪影和拼写错误的文本生成。

  • 高效资源利用:低VRAM占用,适合标准消费级GPU运行。

  • 微调:擅长吸收小数据集中的细微差别,适合定制化。

SD 3可以精确的通过文字修改视频里的各种指定内容;
当然,如果想快速体验,又不想部署到本地的同学,可以通过下面链接直接Copy一份到Colab中,按步骤一步一步来就行。

不用下载,云端运行:(需要Pro版本)

https://colab.research.google.com/drive/1pcr1otfG5hs5N7IqpwZdxcj4EbbYF7ot

03 

Midjourney 发布“模型个性化”功能

Midjourney 最近发布了一项令人兴奋的新功能——模型个性化。这项功能旨在根据用户的个人偏好对生成的图像进行微调,填补提示中未明确的细节部分。
如果您在 MJ 网站上对图像进行了评分并且有足够的数据(点赞你喜欢的图片),则可以使用 --p 参数将您的偏好应用于图像,而不是依赖一般的训练数据。(要求200张以上的喜欢)

通过--P 参数来实现个性化模型的应用;

功能特点

1. 个性化调整:用户可以通过对图像的评分来捕捉个人偏好。这些偏好会被模型用来填充提示中未指定的元素,从而生成更符合用户期望的图像。在内部测试中,95%的参与者认为个性化版本显著优于标准版本。
2. 优先提示:虽然模型会参考用户偏好,但明确的提示内容会被优先处理。这样可以确保个性化只影响未指定的细节部分,不会干扰用户明确指示的内容。
3. 未来发展:Midjourney 还计划在今年年底前发布视频模型,并有可能在此之前发布3D模型。这些即将到来的功能将进一步扩展Midjourney的应用范围 。
4. 实用性:新的个性化功能使用户能够更灵活地创建定制化的图像风格,提升了图像生成的多样性和质量。无论是艺术创作、商业设计,还是个人项目,这一功能都将带来极大的便利和创作自由度。



更多阅读
苹果终于发布 AI 功能!苹果 AI,和谷歌、微软有什么不一样?
黄仁勋深度访谈:十年时间,我是怎么带领 2.8 万人超越苹果的?
从 ImageNet 到 AlexNet,李飞飞万字自述人工智能诞生的关键进程
硅谷创业教父 Paul Graham 两万字长文:普通人如何成就一番大事?
转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除