关于周刊
多模态话题 视觉话题 自然语言话题 工具方面 代码学习方面 观点方面 热点博客方面
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:翟珂 吴新刚)
关于周刊订阅
告诉大家一个好消息,《预训练周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:
方式一:
扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”。
方式二:
1,注册智源社区账号
2,点击周刊界面左上角的作者栏部分“预训练周刊”(如下图),进入“预训练周刊”主页。
3,点击“关注TA”(如下图)
4,您已经完成《预训练周刊》订阅啦,以后智源社区自动向您推送最新版的《预训练周刊》!
【多模态研究】
标题:谷歌等 | RT-1: Robotics Transformer for Real-World Control at Scale(RT-1: 用于真实世界大规模控制的机器人Transformer)
作者:Anthony Brohan, Noah Brown等
简介:本文介绍了机器人大模型。大模型的预训练和微调范式在各种下游任务和小样本问题上的效果已经在众多领域得到证明,但在机器人领域仍有待证明,由于难以收集真实世界的机器人数据,模型的泛化能力尤为关键。本文认为通用机器人模型成功的关键,在于开放式的任务诊断训练,和能够吸收不同机器人数据的高容量架构。本文提出了机器人Transformer RT-1,它可以吸收大量数据,并推广到新任务、环境、物体和其他机器人形态。RT1基于transformer解码器架构构建,将图像和任务描述作为输入,经过ImageNet预训练的EfficientNet-B3模型和语言模型指令编码后,直接输出代表动作的11个变量的离散化表征。最后作者在对不同实验中验证了该模型在执行真实世界任务时的数据吸收能力、泛化能力,能够以97%的成功率执行700多条指令,也可以成功地吸收来自模拟和其他机器人形态的异质数据。
论文下载:https://arxiv.org/pdf/2212.06817.pdf
【NLP研究】
标题:加州大学、AllenAI、微软 | Successive Prompting for Decomposing Complex Questions(复杂问题的连续提示)
作者:Dheeru Dua, Shivanshu Gupta, Sameer Singh,等
简介:本文研究:连续提示~将一个复杂的任务迭代地分解成一个简单的任务,解决它,然后重复这个过程,直到得到最终的解决方案。连续提示将分解复杂问题的监督与回答简单问题的监督解耦,允许我们:(1) 在每个推理步骤中有多个机会查询上下文中的示例 ;(2) 将问题分解与问题回答分开学习,包括使用合成数据,(3) 使用定制(微调)组件进行推理步骤大型 LM 表现不佳的地方。中间监督通常是手动编写的,收集起来可能很昂贵。作者介绍了一种生成合成数据集的方法,该数据集可用于引导模型分解和回答中间问题的能力。与具有相同监督的最先进模型相比,作者最好的模型(具有连续提示)在 DROP 数据集的少数版本上实现了约 5% 的绝对 F1 改进。
论文下载:https://arxiv.org/pdf/2212.04092.pdf
标题:北卡罗来纳大学、微软 | Unifying Vision, Text, and Layout for Universal Document Processing(为通用文档处理统一视觉、文本和布局)
作者:Zineng Tang , Ziyi Yang , Guoxin Wang ,等
简介:本文提出了通用文档处理 (UDOP)作为基础文档 AI 模型。UDOP统一了文本、图像和布局模式以及各种任务格式,包括文档理解和生成。UDOP 利用文本内容和文档图像之间的空间相关性,以一种统一的表示形式对图像、文本和布局模态进行建模。借助新颖的 Vision-Text-Layout Transformer,UDOP 将预训练和多域下游任务统一到基于提示的序列生成方案中。UDOP 使用创新的自监督目标和多样化的标记数据在大规模未标记文档语料库上进行了预训练。UDOP 还学习通过遮罩图像重建从文本和布局模态生成文档图像。据作者所知:这是文档 AI 领域首次一个模型同时实现高质量的神经文档编辑和内容定制。作者的方法在不同数据领域的 9 项文档 AI 任务(例如文档理解和 QA)上获得了SOTA效果,UDOP 在文档理解基准 (DUE) 的排行榜上排名第一。
论文下载:https://arxiv.org/pdf/2212.02623.pdf
标题:法国国家信息与自动化研究所 | PØDA: Prompt-driven Zero-shot Domain Adaptation(PØDA:提示驱动的零样本域自适应)
作者:Mohammad Fahes、Tuan-Hung Vu、Andrei Bursuc、等
简介:本文研究基于CLIP模型强大的零样本能力、利用Prompt进行领域自适应。域适应已在计算机视觉中得到广泛研究,但仍然需要在训练时访问目标图像,这在某些情况下可能很棘手,尤其是对于长尾样本。在本文中,作者提出了“提示驱动的零样本域适应”任务,作者仅使用目标域的一般文本描述(即提示)来调整在源域上训练的模型。首先,作者利用预训练的对比视觉语言模型 (CLIP) 来优化源特征的仿射变换,使它们更接近目标文本嵌入,同时保留它们的内容和语义。其次,作者表明增强特征可用于执行语义分割的零样本域自适应。实验表明:对于当前的下游任务,作者的方法在多个数据集上明显优于基于 CLIP 的风格迁移基线。作者的提示驱动方法在某些数据集上的表现甚至优于一次性无监督域适应,并在其他数据集上给出了可比的结果。
论文下载:https://arxiv.org/pdf/2212.03241.pdf
【CV研究】
标题:罗格斯大学、字节跳动、PlayformAI公司 | Diffusion Guided Domain Adaptation of Image Generators(图像生成器的扩散引导域自适应)
作者:Kunpeng Song, Ligong Han, Bingchen Liu,等
简介:本文研究扩散模型实现域自适应的新方法。能否将文本到图像扩散模型用作训练目标,让 GAN 生成器适应另一个领域?在本文中,作者展示了无分类器指导可以用作判别器,并使生成器能够从大规模文本到图像扩散模型中提取知识。生成器可以有效地转移到文本提示指示的新域中,而无需访问目标域中的真实样本。作者通过大量实验证明了作者方法的有效性和可控性。尽管没有经过训练来最小化 CLIP 损失,但作者的模型在短Prompt提示上获得了同样高的 CLIP 分数和显着降低的 FID,并且在长而复杂的提示上在定性和定量上都优于基线。据作者所知:作者所提出的方法是首次尝试将大规模预训练扩散模型和蒸馏采样结合起来用于文本驱动的图像生成器域自适应,并提供了以前无法实现的质量。此外,作者已将作者的工作扩展到基于 3D 风格的生成器和 DreamBooth 指南。
论文下载:https://arxiv.org/pdf/2212.04473.pdf
标题:智利天主教大学、阿卜杜拉科技大学、比萨大学等 | PIVOT: Prompting for Video Continual Learning(PIVOT:提示视频持续学习)
作者:Andrés Villa, Juan León Alcázar, Motasem Alfarra,等
简介:本文研究视频数据的持续学习问题。由于数据可用性、存储配额、隐私法规和昂贵的注释过程,让最新的机器学习pipeline受到限制。这些限制使得维护在不断增长的注释集上训练的大规模模型:变得困难或不可能。持续学习直接解决了这个问题,其最终目标是设计一种方法,使神经网络有效地学习新(未见)类的相关模式,而不会显着改变其在先前学习的模式上的表现。作者提出了 PIVOT:一种利用图像域中预训练模型的广泛知识的新方法,从而减少了可训练参数的数量和相关的遗忘。不同于以往的方法,作者的方法是第一种有效使用Prompt提示机制进行持续学习而无需任何域内预训练的方法。作者的实验表明:PIVOT 在 ActivityNet的Task 20任务上将SOTA方法提高了 27%。
论文下载:https://arxiv.org/pdf/2212.04842.pdf
标题:上海人工智能实验室、南京大学、香港大学联合8家机构 | InternVideo: General Video Foundation Models via Generative and Discriminative Learning(通过生成和判别学习的通用视频基础模型)
作者:Yi Wang, Kunchang Li, Yizhuo Li, 等
简介:本文研究通用且训练效率高的视频基础模型。基础模型最近在计算机视觉的各种下游任务中显示出出色的性能。然而,大多数现有的视觉基础模型只关注图像级的预训练和适应,这对于动态和复杂的视频级理解任务是有限的。为了填补这一空白,作者提出了通用视频基础模型 InternVideo——利用了生成式和判别式自监督视频学习。具体来说,InternVideo 有效地探索了掩蔽视频建模和视频语言对比学习作为预训练目标,并以可学习的方式选择性地协调这两个互补框架的视频表示,以促进各种视频应用。InternVideo 在来自广泛任务的 39 个视频数据集上实现了SOTA性能,包括视频动作识别/检测、视频语言对齐和开放世界视频应用程序。特别是,作者的方法可以在具有挑战性的 Kinetics-400 和 Something-Something V2 基准测试中分别获得 91.1% 和 77.2% 的 top-1 准确率。
论文下载:https://arxiv.org/pdf/2212.03191.pdf
源码下载:https://github.com/OpenGVLab/InternVideo
【工具资源】
标题:腾讯 | TAVS:用于多模态场景分割的整体广告视频数据集
作者:Jie Jiang, Zhimin Li, Jiangfeng Xiong, 等
简介:近年来,公共基准测试极大地推进了时间视频分割和分类。然而,此类研究仍然主要关注人类行为,未能从整体角度描述视频。此外,以往的研究往往过于关注视觉信息,而忽略了视频的多模态特性。为了填补这一空白,作者在广告领域构建了腾讯“广告视频分割”~(TAVS) 数据集,将多模态视频分析提升到一个新的水平。TAVS从“呈现形式”、“地点”和“风格”三个独立的角度描述视频,包含丰富的视频、音频和文本等多模态信息。TAVS 在语义方面按层次组织,用于综合时间视频分割,具有用于多标签分类的三个级别类别,例如,“地点”-“工作地点”-“办公室”。因此,由于其多模态信息、类别的整体视图和层次粒度,TAVS 有别于以往的时间分割数据集。它包括 12,000 个视频、82 个类别、33,900 个片段、121,100 个镜头和 168,500 个标签。与 TAVS 一起,作者还提出了一个强大的多模式视频分割基线和多标签类别预测。
论文下载:https://arxiv.org/pdf/2212.04700.pdf
标题:韩国科学技术院、NAVER公司 | DialogCC: Large-Scale Multi-Modal Dialogue Dataset(DialogCC:大规模多模态对话数据集)
作者:Young-Jun Lee , Byungsoo Ko , Han-Gyu Kim , 等
简介:由于在即时消息中共享图像是一个关键因素,因此人们对学习图像-文本多模式对话模型进行了积极的研究。然而,训练一个泛化良好的多模态对话模型具有挑战性,因为现有的多模态对话数据集包含少量数据、有限的主题以及每个对话的图像种类有限。在本文中,作者提出了一种多模态对话数据集创建流程,该流程涉及基于 CLIP 相似性将大规模图像与对话进行匹配。使用这个自动管道,作者提出了一个大规模的多模态对话数据集 DialogCC,它涵盖了不同的现实世界主题和每个对话的不同图像。广泛的实验表明:使用作者的数据集训练多模态对话模型可以提高泛化性能。此外,使用作者的数据集训练的现有模型在图像和文本检索任务上实现了最先进的性能。
论文下载:https://arxiv.org/pdf/2212.04119.pdf
标题:斯坦福 | PubMedGPT 2.7B:医学语言大模型
作者:Percy Liang等
简介:本文介绍了斯坦福大学基础模型研究中心(CRFM)正在研发的一系列领域特定大模型之一,PubMedGPT 2.7B,一种专门针对生物医学摘要和论文进行训练的新语言模型。 这种 GPT 风格的模型可以在各种生物医学 NLP 任务上取得出色的成绩,包括在 MedQA 生物医学问答任务上达到 50.3% 准确率的新水平。作为自回归语言模型,PubMedGPT 2.7B 也具备自然语言生成能力。使用这个模型的主要方式是为下游的问题回答任务进行微调,同时不建议在领域外的生产环境中使用这个模型来生成自然语言,无论是否经过微调。 作者希望推动生物医学 NLP 应用程序的开发以及负责任地训练和利用特定领域语言模型的最佳实践。 作者希望从训练这种生物医学模型中吸取的经验可以应用于其他领域,例如法律或金融。
工具地址:https://huggingface.co/stanford-crfm/pubmedgpt
【代码学习】
标题:OpenAI | TikToken:更快的分词器
简介:近期OpenAI开源了其模型自用的BPE分词器, 性能是目前应用比较广泛的HuggingFace Tokenizer的3-6倍,可方便通过pip安装,简单案例如下。
import tiktoken
enc = tiktoken.get_encoding("gpt2")
assert enc.decode(enc.encode("hello world")) == "hello world"
代码地址:https://github.com/openai/tiktoken
标题:OpenAI |Ada2:统一嵌入模型
简介:近期OpenAI发布了其统一语言嵌入Ada2,其能力更强,性价比更高,而且使用更简单,用于以单一模型替换文本搜索、文本相似性和代码搜索的五个不同独立模型,在大多数任务中都超过了以前最强的模型Davinci,而价格却低了99.8%,其可用作广泛的语言表征,目前该嵌入可通过OpenAI的官方API调用,代码如下:
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)
代码地址:https://beta.openai.com/docs/guides/embeddings
【热点博客】
标题:Huggingface | RLHF:人类反馈的强化学习与ChatGPT
作者:Nathan Lambert,Louis Castricato等
简介:本文浅析了ChatGPT背后的RLHF的基本原理,即使用强化学习的方法,利用人类反馈信号直接优化语言模型。RLHF的训练过程可以分解为三个核心步骤:预训练语言模型,收集数据并训练奖励模型,通过强化学习微调语言模型。其中预训练语言模型使用经典的预训练语言模型即可,没有定论哪种最好。奖励模型会学习语言模型生成的数据的人工标注排序信息。在微调步骤中策略定义为语言模型,动作空间定义为词表所有token在所有输出位置的排列组合,奖励函数则定义为已经训好的奖励模型和策略层面的约束。总体流程简述为,从富集数据集采样prompt输入预训练模型和当前模型中,用奖励模型对两个模型打分,以KL散度定义奖励反映文本生成质量的变化,并通过PPO更新模型参数。作者强调了RLHF的流程还有很多值得改进的地方,其中:改进 RL 优化器显得尤为重要。PPO 是一种基于信赖域优化的相对较旧的RL算法,但没有其他更好的算法来优化 RLHF 了。
博客链接:https://huggingface.co/blog/rlhf
【观点分享】
标题:伦敦帝国学院 | 谈谈大型语言模型
作者:Murray Shanahan
简介:本文讨论了在chatGPT背景下,大型语言模型目前需要关注的问题。由于人工智能的快速发展,人类已经进入了一个技术和哲学以有趣方式碰撞的时代。大型语言模型正处于这个碰撞的中心位置。大型语言模型越是善于模仿人类语言,我们越容易受到拟人主义的影响,把嵌入其中的系统看得比实际情况更像人类。在描述这些系统时,人们自然倾向于使用带有哲学意味的术语,例如"知道"、"相信"和"认为",从而扩大了这种趋势。为了缓解这种趋势,本文提倡反复退后一步,需要关注大模型以及它们所构成的系统是如何实际工作的。这其中的关键就是避免把语言模型人格化,并使用准确的语言。作者希望在人工智能领域和公共领域的讨论中能够出现更多哲学上的细微差别。
论文下载:https://arxiv.org/pdf/2212.03551.pdf
欢迎加入预训练社群
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
-
学习前沿知识、求解疑难困惑
-
分享经验心得、展示风貌才华
-
参与专属活动、结识研究伙伴
请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢