本文梳理了2021年,全球最值得关注TOP10预训练工作,按时间顺序梳理。
第十
日期:10月24日
作者:谷歌
模型名称:SimVLM
标题:谷歌发布最新看图说话模型,可实现零样本学习,多类型任务也能直接上手
简介:谷歌新推出了弱监督看图说话模型SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。从文字描述图像到回答图片相关问题,模型无需微调也能样样精通。对于一般的视觉语言预训练(VLP)模型,训练数据集中要求包含大量精准标签。而模型的任务迁移,则需要针对特定任务重新进行数据集的标签标注。总结下来,就是标注数据集不仅耗时耗力,还不能多任务通用。能不能开发出一种又简单又万能的VLP模型呢?谷歌新开发的这款模型使用了弱监督学习进行模型训练,通过利用大量的弱对齐图像-文本对进行建模,简化了VLP的训练流程,大大降低了训练的复杂性。SimVLM使用前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用,从而能够更好地实现零样本学习泛化效果。
Hub地址:https://hub.baai.ac.cn/view/10939
第九
日期:11月23日
作者:微软Ze Liu等
模型名称:Swin Transformer
标题:Swin Transformer V2:扩大容量和分辨率
简介:本文提出一种图像应用的预训练技术。作者提出了缩放Swin Transformer的技术,能够训练多达30亿个参数并使其图像分辨率高达1,536×1,536。通过扩大规模容量和分辨率,Swin Transformer在四个代表性视觉基准上创下新记录:在ImageNet-V2图像分类上的84.0%top-1准确率,COCO对象检测上的box/mask的63.1/54.4mAP,ADE20K语义分割59.9mIoU,Kinetics-400视频动作分类86.8%的top-1准确率。作者通过使用Swin Transformer作为案例研究来说明:1)后归一化技术和缩放余弦注意方法,以提高大型视觉模型的稳定性;2)对数间隔连续位置偏置技术有效地将在低分辨率图像和窗口中预先训练的模型传输到更高分辨率的对应模型。使用这些技术和自我监督的预训练,作者成功地训练了一个强大的30亿Swin Transformer模型并有效传递到涉及高分辨率图像的各种视觉任务,在各项基准测试中达到最先进的精度。
Hub地址:https://hub.baai.ac.cn/view/12078
第八
日期:9月22日
作者:rct AI
模型名称:BERT-X、CPM-X、CPM-2-X
标题:rct.ai训练出理解、生成的综合模型:BERT-X、CPM-X、CPM-2-X
简介:自谷歌、OpenAI、智源发布中文领域超大规模预训练语言模型BERT、GPT-3、“悟道2.0”以来,中文领域同类模型的训练进展备受关注。rct.AI用1张A100训练96小时,训练88万步,得到4.95亿参数的BERT-X模型。BERT-X模型的参数规模达到4.95亿,是BERT-Large的1.5倍,模型层数36层,是目前中国最大中文预训练理解模型。rct.ai基于用4张A100训练142小时,训练31万步得到29亿参数的CPM-X模型。CPM-X模型的参数规模达到29亿,是CPM的1.1倍,模型层数36层,是CPM的1.25倍,是目前中国最大的中文预训练生成模型。rct.ai用2张A100训练60小时,训练20万步得到CPM-2-X模型。CPM-2-X模型是改进的中文预训练模型,其参数规模达到29亿,是CPM-2的1/4;模型层数12层,是CPM-2的1/4。
Hub地址:https://hub.baai.ac.cn/view/10184
第七
日期:8月17日
作者:清华、智源唐杰等
模型名称:悟道·文溯
标题:用于蛋白建模的大规模预训练语言模型
简介:本文展示了悟道·文溯的30亿参数蛋白预训练模型。蛋白质几乎与所有生命过程都有联系,分析蛋白质序列的生物结构和特性对探索生命以及疾病检测和药物发现至关重要。经过数百万年的进化,进化信息被编码在蛋白质序列中,受自然语言和蛋白质序列之间的相似性的启发,本文使用30亿参数的语言模型对进化规模的蛋白质序列进行预训练建模,将蛋白质生物学信息进行编码表示。模型在5个标识符级和序列级的下游任务中都获得了明显的改进,表明本文的大规模模型能够准确地从进化规模的单个序列预训练中捕捉到进化信息。
Hub地址:https://hub.baai.ac.cn/view/9273
第六
日期:7月5日
作者:华南理工、西湖大学、腾讯
模型名称:StackRec
标题:100层序列推荐模型也能被加速训练!这篇顶会论文带你探索Very Deep RS模型
简介:众所周知:现有的序列推荐算法大多采用浅层的神经网络结构。中科院先进所、腾讯、华南理工近日合作发表在信息检索领域顶会SIGIR2021上的一篇论文,发现通过对残差块结构进行微小的修改,序列推荐模型能够使用更深的网络结构以进一步提升精准度,即:推荐模型也能够像计算机视觉领域的模型那样拥有100层以上的深度并获得最优性能。在此基础上,论文提出一个高效且通用的框架StackRec来加速深度序列推荐模型的训练,并应用到多种实际的推荐场景。
Hub地址:https://hub.baai.ac.cn/view/8770
第五
日期:7月18日
作者:中国科学院自动化所徐波等
模型名称:图文音三模态/OPT-Omni-Perception
标题:中科院自动化所基于MindSpore推出全球首个图文音三模态预训练模型
简介:日前,中国科学院自动化所基于全场景AI计算框架MindSpore训练完成全球首个图文音三模态预训练模型,该模型同时具备跨模态理解与跨模态生成能力,标志着预训练模型工作获得突破性进展。其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,然后通过多头自注意力机制进行通过解码器分别生成文本、图像和语音。三模态预训练模型的提出:将改变当前单一模型对应单一任务的人工智研发范式,三模态图文音的统一语义表达将大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答,语音识别和合成,人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值!
Hub地址:https://hub.baai.ac.cn/view/8896
第四
日期:4月25日
作者:华为田奇、循环智能杨植麟等
模型名称:盘古/pangu
标题:瞄准GPT-3落地难题,首个千亿中文大模型「盘古」问世,专攻企业级应用
简介:在最近的 CLUE 榜单上,「盘古」在总榜、阅读理解排行榜和分类任务排行榜上都位列第一,总榜得分比第二名高出一个百分点。这是业界首个千亿参数的中文大模型,拥有 1100 亿密集参数,由循环智能(Recurrent AI)和华为云联合开发,鹏城实验室提供算力支持。为了训练这个模型,田奇(华为云人工智能首席科技家)与杨植麟(循环智能联合创始人)联合带领的研究团队花了近半年的时间,给模型喂了 40TB 的行业文本数据和超过 400 万小时的行业语音数据。对此田奇评论道,盘古 NLP 大模型可以实现一个 AI 大模型在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,让 AI 开发由作坊式转变为工业化开发的新模式。大模型成为一种基础设施类型的存在。杨植麟表示,「盘古」有望成为一个通用 API,开启一种新的商业模式。在这种模式中,开发者可以基于通用 API,结合业务场景,灵活高效地定制行业应用,解锁更多此前想象不到的场景。
Hub地址:https://hub.baai.ac.cn/view/7999
第三
日期:4月4日
作者:百度
模型名称:文心ERNIE2.0
标题:盘点NLP预训练「兵器谱」,哪件才是你的最爱
简介:要说自然语言处理领域当今最fashion的“神兵”,恐怕非预训练语言模型莫属。2018年BERT横空出世,那真可谓是打开了NLP新世界的大门。且在这条预训练+微调的修行之路上,各路高手那叫一个百花齐放,各领风骚。你看XLNet才把 BERT从榜单之巅拉下马,那厢 RoBERTa便进一步“榨干”BERT 性能,重归榜首。其实,还不仅仅是西方选手轮番登台,文心ERNIE等东方身影也不乏精彩表现。
Hub地址:https://hub.baai.ac.cn/view/7434
第二
日期:4月19日
作者:阿里达摩院永春等
模型名称:PLUG
标题:270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG
简介:经历「大炼模型」后,人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注。今日,阿里达摩院发布了 270 亿参数、1TB + 训练数据的全球最大中文预训练语言模型 PLUG,并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录,刚刚在最权威的中文语言模型榜单 CLUE 上拿到了分类领域第一。本文从预训练模型发展现状、技术路线、技术细节和生成示例角度详细描述了PLUG模型。
Hub地址:https://hub.baai.ac.cn/view/7715
第一
日期:3月20日
作者:清华大学刘知远等
模型名称:CPM悟道·文源
标题:中国AI研究新突破:智源「悟道1.0」发布
简介:智源研究院发布超大规模智能模型“悟道1.0”。“悟道1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,取得了多项国际领先的AI技术突破,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,勇闯通用智能发展前沿,构建我国人工智能应用基础设施。同时,与龙头企业共同研发工业级示范性应用,加快大规模智能模型应用生态建设。
Hub地址:https://hub.baai.ac.cn/view/7096
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢