[Call for Papers] The 2nd BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus

2024年04月09日
  • 简介
    去年成功举办了BabyLM挑战赛后,比赛将于2024/2025年再次举办。挑战的总体目标仍然相同,但是一些比赛规则将有所不同。今年比赛的重大变化如下:首先,我们将松散的赛道替换为纸质赛道,这允许(例如)非基于模型的提交、新颖的认知启发式基准或分析技术。其次,我们放宽了有关预训练数据的规定,现在允许参赛者构建自己的数据集,只要他们保持在100M词或10M词的预算范围内。第三,我们引入了一个多模态的视觉语言赛道,并将发布一个50%纯文本和50%图像文本多模态数据的语料库作为LM模型训练的起点。本次征文的目的是为今年的挑战赛提供规则,更详细地解释这些规则变化及其基本原理,给出今年比赛的时间表,并回答去年挑战赛中经常问到的问题。
  • 图表
  • 解决问题
    BabyLM Challenge的2024/2025年度竞赛规则的变化和目标。
  • 关键思路
    本次比赛将替换松散的竞赛赛道,并放宽了预训练数据的规则,允许参赛者构建自己的数据集,同时引入了一个多模态的视觉和语言竞赛赛道。
  • 其它亮点
    本次比赛旨在鼓励非模型基础的提交、认知启发式基准测试和分析技术。同时放宽预训练数据的规则,允许参赛者构建自己的数据集。引入了一个多模态的视觉和语言竞赛赛道。
  • 相关研究
    与该论文相关的其他研究可能包括自然语言处理、计算机视觉和深度学习领域的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论