- 简介生成式人工智能(GenAI)在理解世界知识和从各种模态的人类语言中生成内容方面取得了重大进展,例如文本到文本的大型语言模型、文本到图像的稳定扩散以及文本到视频的Sora。本文研究了GenAI进行文本到模型生成的能力,以了解GenAI是否能够理解嵌入在AI自身参数中的超级层面知识。具体而言,我们研究了一个实际场景,称为“一次训练适用于所有个性化”,旨在使用文本提示为不同的终端用户和任务生成个性化模型。受神经网络扩散的最近出现的启发,我们提出了Tina,一种文本条件的神经网络扩散,用于“一次训练适用于所有个性化”。Tina利用一个扩散变压器模型,该模型以使用CLIP模型嵌入的任务描述为条件。尽管存在巨大数量的潜在个性化任务(例如$1.73\times10^{13}$),但通过我们的设计,Tina即使在小数据集(约1000)上进行训练,也表现出了显著的内部分布和外部分布的泛化能力。我们进一步验证了Tina是否以及如何理解世界知识,通过分析其在零样本/少样本图像提示、不同数量的个性化类别、自然语言描述提示和预测未见实体等方面的能力。
- 图表
- 解决问题论文旨在研究Generative AI在text-to-model生成方面的能力,特别是train-once-for-all个性化模型生成。
- 关键思路论文提出了一种基于Tina的text-conditioned neural network diffusion方法,通过对任务描述进行嵌入来生成个性化模型。Tina在小数据集上也能表现出很好的泛化性能。
- 其它亮点论文使用了CLIP模型来嵌入任务描述,实现了个性化模型的生成。实验结果表明,Tina在小数据集上也能表现出很好的泛化性能。论文还分析了Tina对零样本/少样本图像提示的理解能力,以及对自然语言描述和预测未知实体的能力。
- 最近相关研究包括text-to-text large language models、text-to-image stable diffusion和text-to-video Sora等。
沙发等你来抢
去评论
评论
沙发等你来抢