此前,来自谷歌的研究者已经开发过智能自动填充插件来自动填充电子表格列中缺失的值,但是构建的这些工具并不支持公式编写。
在 ICML 2021 发表的论文《 SPREADSHEETCODER: Formula Prediction from Semi-structured Context 》中,来自谷歌的研究者提出了一种新模型,该模型基于目标单元格周围丰富的上下文自动生成公式。
论文地址:http://proceedings.mlr.press/v139/chen21m/chen21m.pdf
该模型使用编码器 - 解码器架构,可以灵活地在编码器中嵌入多种类型的上下文信息(例如包含在相邻行、列、表头等中的信息),解码器可根据这些信息生成所需的公式。在论文中,研究者在由谷歌员工创建和分享的电子表格数据库上训练模型。他们将 46k 个带公式的谷歌表格(Google Sheets)中的 42k 个用于训练,2.3k 用于验证,1.7k 用于测试。结果表明,该模型实现了 42.5% 的完整公式(full-formula)准确率和 57.4% 的公式草图(formula-sketech)准确率,这两个准确率很高,并在初始用户研究中非常有用。
公式预测模型总体架构
研究者表示,未来会有几个令人兴奋的研究方向,包括设计新的模型架构来合并更多表格结构,以及扩展模型以支持电子表格中 bug 检测和自动图表创建等更多应用。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢