【多模态研究】
标题:智源等 | AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities(AltCLIP:改变CLIP中的语言编码器以扩展语言能力)
作者:Chen Zhongzhi, Liu Guang等
简介:日前,智源研究院大模型研究团队开源最新双语 AltDiffusion 模型,为中文世界带来专业级 AI 文图创作的强劲动力:支持精细长中文 Prompts 高级创作;无需文化转译,从原汁原味中国话直达形神兼备中国画;而且在绘画水平上达到低门槛中英对齐原版 Stable Diffusion 级的震撼视效,可以说是讲中文的世界级 AI 绘画高手。创新模型 AltCLIP 为这一工作的基石,为原 CLIP 模型补齐更强的跨语言三大能力。本文从OpenAI发布的预训练的多模态表示模型CLIP开始,用预训练的多语言文本编码器XLM-R替换了它的文本编码器,并通过一个由教师学习和对比学习组成的两阶段训练模式来调整语言和图像表示。本文模型在包括ImageNet-CN、Flicker30k-CN和COCO-CN在内的一系列任务上创造了新的最先进的性能与CLIP非常接近的表现,这表明人们可以简单地改变CLIP中的文本编码器。
论文下载:https://arxiv.org/pdf/2211.06679.pdf
代码链接:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltDiffusion
阅读详情
标题:UC伯克利 | InstructPix2Pix: Learning to Follow Image Editing Instructions (InstructPix2Pix:学习根据指示编辑图像)
作者:Tim Brooks, Aleksander Holynski, Alexei A. Efros
简介:本文研究图像的语言指令生成。为了获得训练数据,该研究将两个大型预训练模型,语言模型 (GPT-3) 和文本到图像生成模型 (Stable Diffusion) 结合起来,生成图像编辑示例的大型成对训练数据集。研究者在这个大型数据集上训练了新模型 InstructPix2Pix,并在推理时泛化到真实图像和用户编写的指令。InstructPix2Pix 是一个条件扩散模型,给定一个输入图像和一个编辑图像的文本指令,它就能生成编辑后的图像。该模型直接在前向传播中执行图像编辑,不需要任何额外的示例图像、输入 / 输出图像的完整描述或每个示例的微调,因此该模型仅需几秒就能快速编辑图像。尽管 InstructPix2Pix 完全是在合成示例,即 GPT-3 生成的文本描述和 Stable Diffusion 生成的图像上进行训练的,但该模型实现了对任意真实图像和人类编写文本的零样本泛化。该模型支持直观的图像编辑,包括替换对象、更改图像风格等等。
论文下载:https://arxiv.org/pdf/2211.09800.pdf
阅读详情
【NLP研究】
标题:IBM | Zero-Shot Dynamic Quantization for Transformer Inference (Transformer推理的零样本动态量化)
作者:Yousef El-Kurdi, Jerry Quinn, Avirup Sil
简介:本文研究动态调整量化限幅以保持合理精度的基于统计的鲁棒算法。本文引入了一种新的运行时动态方法、用于显著减少与将BERT类模型量化为八位整数相关的精度损失。现有的量化模型的方法要么修改训练过程,要么需要额外的校准步骤来调整参数,这也需要选定的保持数据集。作者的方法允许在不需要这些调整的情况下利用量化。作者给出了多个NLP任务的结果,证明了该技术的有用性。
论文下载:https://arxiv.org/pdf/2211.09744.pdf
阅读详情
标题:清华大学、上海人工智能实验室等|A Universal Discriminator for Zero-Shot Generalization(零样本生成的通用鉴别器)
作者:Haike Xu, Zongyu Lin, Jing Zhou,等
简介:本文提出以通用鉴别器来挑战零样本生成方法。生成模型已经成为大规模预训练和零样本泛化的主要方法。在这项工作中,作者通过证明在大量NLP任务中歧视性方法的表现明显优于生成性方法来挑战这一惯例。从技术上讲,作者训练单个鉴别器来预测文本样本是否来自真实的数据分布(类似于GAN)。由于许多NLP任务可以公式化为从多个选项中进行选择,因此作者使用该鉴别器来预测具有最高概率的选项。这种简单的公式在T0基准上实现了最先进的零样本结果,在不同尺度上分别比T0高16.0%、7.8%和11.5%。在微调设置中,作者的方法在广泛的NLP任务上也取得了新的SOTA结果、同时只有先前方法的1/4参数。同时,作者的方法只需要最小的Prompt提示努力,这在很大程度上提高了健壮性、对现实应用程序至关重要。
论文下载:https://arxiv.org/pdf/2211.08099.pdf
阅读详情
标题:德里理工大学、美国sciteAI等 | Measuring Reliability of Large Language Models through Semantic Consistency (通过语义一致性度量大型语言模型的可靠性)
作者:Harsh Raj, Domenic Rosati, Subhabrata Majumdar
简介:本文提出以语义一致性框架来评估NLG大模型的可靠性。虽然大型预训练语言模型(PLM)在许多自然语言任务上表现出令人难以置信的流畅性和性能,但最近的研究表明:性能良好的PLM对输入到它们的Prompt提示非常敏感。即使Prompt提示在语义上相同,语言模型也可能给出非常不同的答案。在考虑安全可靠的PLM部署时,研究者希望其输出在具有相同含义或传达相同意图的提示下保持一致。虽然一些工作已经研究了最先进的PLM如何满足这一需求,但它们仅限于评估单词或多词答案的词汇平等性,而不涉及生成文本序列的一致性。为了理解在文本生成设置下PLM的一致性,作者开发了一种语义一致性度量、以对开放式文本输出进行比较。实验表明:作者提出的度量比体现词汇一致性的传统度量更为一致、并且在更高程度上与人类对输出一致性的评估相关。
论文下载:https://arxiv.org/pdf/2211.05853.pdf
阅读详情
标题:多伦多大学等 | Large Language Models Are Human-Level Prompt Engineers (大语言模型是人类水平的提示工程师)
作者:Yongchao Zhou, Andrei Ioan Muresanu等
简介:本文展示了使用语言模型自动生成和选择指令的算法。基于提示的下游任务的性能在很大程度上取决于用于引导模型的提示的质量,而大多数有效的提示都是由人类手工制作的。受经典程序合成和人类提示工程方法的启发,本文提出了自动提示工程师(APE)来自动生成和选择指令。本文将指令视为程序,通过搜索由语言模型提出的指令候选池进行优化,以使选定的打分函数最大化,这其中使用了迭代蒙特卡洛搜索方法,通过提出语义相似指令变体来改进最佳候选指令。为了评估所选指令的质量,本文评估了另一个LLM在使用所选指令之后的零样本性能。本文进行了广泛的定性和定量分析来探索APE的性能。最终表明APE设计的提示可以用于引导模型的真实性和信息性,也可以通过简单地将其添加到标准的语境学习提示中来提高少量的学习性能。
论文下载:https://arxiv.org/pdf/2211.01910.pdf
阅读详情
【CV研究】
标题:谷歌|An Empirical Study on Clustering Pretrained Embeddings: Is Deep Strictly Better?(聚类预训练嵌入的实证研究:深度更好吗?)
作者:Tyler R. Scott、Ting Liu、Michael C. Mozer等
简介:本文针对聚类预训练嵌入进行了大规模实证研究。最近对人脸识别嵌入聚类的研究,有:无监督的、浅层的、基于启发式的方法、表现不佳的监督、深度、归纳等众多方法。虽然报告的改进确实令人印象深刻,但实验主要限于人脸数据集,其中聚类嵌入具有高度辨别力或按类别很好地分离,并且实验方法似乎有利于深度方法。本文对三个数据集的17种聚类方法进行了大规模的实证研究,并获得了多个可靠的发现。值得注意的是,深度方法对于具有更多不确定性的嵌入来说出奇地脆弱,它们与基于启发式的浅层方法匹配甚至表现更差。当嵌入具有高度辨别力时,深度方法确实优于基线,与过去的结果一致,但是方法之间的差距比之前研究报道的要小得多。
论文下载:https://arxiv.org/pdf/2211.05183.pdf
阅读详情
【生命科学研究】
标题:华中科大、微软等 | Incorporating Pre-training Paradigm for Antibody Sequence-Structure Co-design (华中科大、微软等 | 融入预训练范式的抗体序列-结构共设计)
作者:Kaiyuan Gao, Tie-Yan Liu等
简介:本文介绍了将抗体预训练模型、蛋白图神经网络模型融合进行抗体设计的工作。基于深度学习的计算抗体设计可以从数据中自动挖掘出抗体信息并与人类经验互补。然而,这些计算方法严重依赖高质量的抗体结构数据,而这些数据是相当有限的。此外,互补决定区(CDR)是抗体中决定特异性和结合亲和力的关键部分,它是高度可变的很难预测。因此,数据限制问题进一步提高了抗体生成的难度。对此,大量的抗体序列数据可以帮助建立预训练模型并减轻对结构数据的依赖。本文中将预训练范式纳入抗原特异性抗体设计模型,基于序列数据预训练的抗体语言模型,以此进行基于表位的抗体序列和结构一次性生成,以避免来自自回归方式的影响。本文的方法在不同的任务上都取得了比基线更好的性能。
论文下载:https://doi.org/10.1101/2022.11.14.516404
阅读详情
【观点分享】
标题:微软T-ULRv6:引领基础模型向多语言“大一统”迈进
作者:微软亚研院
简介:微软通用语言表示模型再创新佳绩。最新的 T-ULRv6 在谷歌 XTREME 和 GLUE 排行榜上摘得双榜冠军,证明了单个多语言模型可以同时在英语和多语言理解任务上达到 SOTA 性能。这也是多语言理解模型首次在两个排行榜上同时夺魁,力压专用于英语或专用于多语言任务的模型,从而有助于消除“多语言诅咒”。基于“XY-LENT”的 T-ULRv6 XXL 模型是微软图灵团队和微软亚洲研究院通力合作的成果,其平均分比 XTREME 排行榜目前位居第二的模型高出0.5分,在 GLUE 排行榜上也占据首位。
阅读详情
标题:PLM 是做题家吗?一文速览预训练语言模型数学推理能力新进展
作者:人大 | 张北辰
简介:本文讨论了预训练语言模型是否可以准确地理解数值含义、数学知识、推理逻辑这个问题并介绍了多个关键技术。思维链(CoT)指示例提示模型以一步步显式生成思维链的方式来回答推理相关的问题,改进包括半结构化数据、自动示例构建和添加判别器;基于代码标注的微调方法包括数据集构建、多任务学习微调和数据增强;数学领域 PLM指在数学网页和论文上基于PaLM训练的模型Minerva、数值推理指解耦操作符和操作数的ELASTIC模型,改进包括推理中利用简单数字作为anchor以回避语言模型对于大范围数值理解的弱项、自动定理证明指通过自然语言对形式语言的解析,改进包括分步和完整证明的新任务形式以及in-context learning 的方式提示模型生成形式语言草稿。总之:大模型结合 in-context learning和形式语言可能是未来的数学推理能力研究趋势。
阅读详情
标题:NLP中embedding的再一点思考:世界上本没什么prompt,有的只是加权平均
作者:常鸿宇
简介:本文以诙谐幽默的方式,讲述了词向量、备受嫌弃的NSP、Span Bert、PURE、prompt以及transformer的一些观点。NSP任务可以对整个句子的信息起到表征的作用,但是对于很多下游任务的应用场景,效果并不理想。Span Bert的试图用一段span前后的两个token,去回复mask的部分的思路可借鉴与更大层次的表征。PURE模型中建立的特殊token和嵌入则是Span的中相邻token和相对位置编码的纯净化表达,也可视为更大层次编码。Prompt有效的原因在于prompt模板提供了若干额外的token作为“锚点”,使得“锚点”token可以与原文中的token进行有效地交互,并表征一定的信息。Transformer中FFN是加权平均,自注意力也是加权平均,这就代表着:整个模型就是在利用每个token的特征,通过加权平均的方式,来表示其他token的特征。而span、prompt则是权重的调整,权重落在句子中最重要的那些token的token即具备句子或更大层次表征能力。
阅读详情
【研究资讯】
标题:智源AltDiffusion升级|支持中英西法日韩阿俄意等9种语言
简介:近日,智源研究院发布了中英双语图像生成模型 AltDiffusion,满足专业级中文AI文图创作需求。时隔不到一周,团队推出重要升级版 AltDiffusion-m9,全面支持中、英、西、法、日、韩、阿、俄、意等九种不同语言的文图生成任务。目前,代码及模型皆全部开源到 FlagAI 大模型开源项目中,供全球开发者试用。
甫一开源,模型即收到热烈关注, Hugging Face 的 CEO Clement Delangue,AK ( Ahsen Khaliq ) ,Stability.ai 公司 CEO Emad Mostaque 等纷纷点赞转发。
阅读详情
【行业动态】
标题:大模型创企Descript融资5000万美元,OpenAI领投
简介:Descript 是由前 Groupon 首席执行官安德鲁·梅森 (Andrew Mason) 于 2017 年创立的音频和视频编辑平台,在由 OpenAI Startup Fund 领投的 C 轮融资中筹集了 5000 万美元,OpenAI 及其合作伙伴(包括微软)正在通过这一部分投资早期阶段公司。Mason 表示,这反映了 OpenAI 对 Descript 人工智能功能未来的信心。在完成本次融资之后,该公司累计筹集了 1 亿美元。播客编辑工具 Descript 新版增加了超过 30 款全新的视觉和 AI 功能,从而让编辑视频像编辑文档 / 幻灯片一样轻松。
阅读详情
标题:上线仅两天,AI大模型写论文网站光速下架
简介:几天前,Meta AI 联合 Papers with Code 发布了大型科学语言模型 Galactica,该模型的一大特点就是解放双手,代笔帮你写论文。不止生成论文,Galactica 也可以生成词条的百科查询、对所提问题作出知识性的回答,除了文本生成外,Galactica 还可以执行涉及化学公式和蛋白质序列的多模态任务。然而现在该模型使用地址已经不能进行输入。原因可能为大量争议,包括:“它的回答都是错误或有偏见的,但听起来是正确和权威的”,“语言模型应该是整理合成语言的,而不是生成知识”,“大型语言模型混淆数学和科学知识有点可怕”等等,另外来自纽约大学计算机科学系的学者们也测试了 Galactica 模型的生成结果,发现 Galactica 答非所问。
阅读详情
评论
沙发等你来抢