OpenAI研究员Lilian Weng最新博客:Transformer解读2.0版
Transformers 加速了自然语言处理(NLP)任务的新技术和模型的发展。但现在它被大量应用于处理计算机视觉任务。Lilian Weng现为OpenAI应用人工智能研究负责人,主要从事机器学习、深度学习和网络科学研究。硕士就读于北京大学信息系统与计算机科学系,她对2020年的帖子进行了章节的层次结构的重组,Transformer科普贴2.0教程地址:
资讯
白羽中
2023-01-29 13:44 分享
264 0 0
ICLR 2023 投稿 | 在线低秩矩阵补全
采用先探索-再提交(ETC)方法,提出一种称为OCTAL的在线低秩矩阵补全的新算法。通过利用奖励矩阵的低秩结构和基于用户的真实潜表示进行聚类,本文研究基于M个用户、N个项目和T轮的在线低秩矩阵补全问题。会得到一个从低秩用户-项目偏好矩阵采样的(噪声)奖励,本文目标是设计一个具有(T)亚线性遗憾和对M和N近乎最佳依赖的方法。
机器学习论文
苦行僧
2023-01-29 13:01 分享
148 0 0
ICLR 2023 投稿 | 双谱神经网络
用于学习对紧凑换元组动作不变的表示。证明 BNN 可同时从数据的对称性中学习群、其不可还原表示和相应的完整不变图,用于紧凑换元组的鲁棒和可解释的表示学习,其表示对信号定义空间上的紧凑换元群动作是不变的。一种完整分析定义的群不变性——其保留了所有的信号结构。本文证明了BNN能单纯从数据中隐含的对称性同时学习群、其不可还原表示和相应的完全不变图。本文工作确立了双谱系神经网络是一个强大的计算基元,
机器学习论文
苦行僧
2023-01-29 12:52 分享
135 0 0
NeurIPS 2022|DeepMind:大模型背后的ICL可能与数据分布密切相关
传统的文本语言模型倾向于两阶段的训练模式,到底是训练阶段中的哪些方面导致了这种上下文学习呢?作者也进一步研究了ICL与传统权重学习之间的关系,同时提出了一种折中方案使模型能够同时具备这两种学习模式的优势,作者强调了模型架构对ICL的决定性作用。基于Transformer的架构设计天然契合ICL的优化环境,这也是Transformer相比传统递归模型的优势体现。
大模型
小门神
2023-01-29 12:49 分享
131 0 0
斯坦福团队推出DetectGPT,学生用AI写论文要犯难了
GPT-3、PaLM 和 ChatGPT 等大型语言模型(LLM)已经被证明能够针对各种各样的用户查询做出非常流畅的响应,的有关科学、数学、历史和当前事件以及社会趋势等复杂问题的回答。但这些生成文本的清晰、自然仍然使得 LLM 在某些情况下被用来替代人力,特别是在学生论文写作和新闻撰写方面。使得教师无法准确地评估学生的学习情况;往往存在大量的事实性错误。
机器学习
小门神
2023-01-29 12:44 分享
123 0 0
思维链微调Fine-tune-CoT方法:大型语言模型教小模型一步一步推理
基于 promp 的思维链方法的主要缺点是它需要依赖于拥有数十亿参数的巨大语言模型(Wei et al,该方法旨在利用非常大的语言模型的思维链推理能力来指导小模型解决复杂任务。虽然已经有人尝试用规定好的推理步骤对小模型进行微调来解决这个问题,这种扩展方法通过为每个训练样本生成多个推理方案来最大限度地提高对思维链进行微调的教学效果。
机器学习论文
白羽中
2023-01-29 12:32 分享
109 0 0
直播
查看更多
热门榜单
  • 活动合作
  • 微信社群
社区指南 电话:(010) 6893 3383 © 2022 北京智源人工智能研究院 ICP备案号:京ICP备19012194号