Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

2024年03月14日
  • 简介
    使用视觉语言模型(VLMs)在Web开发中提出了一种有前途的策略,可以提高效率并解决无代码解决方案的难题:通过提供UI的截图或草图,VLM可以生成重现它的代码,例如在HTML等语言中。尽管VLM在各种任务上取得了进展,但将截图转换为相应的HTML的具体挑战却受到了极少的探索。我们认为,这主要是由于缺乏合适的、高质量的数据集所致。这项工作介绍了WebSight,一个合成数据集,由200万个HTML代码和它们对应的截图组成。我们在数据集上微调了基础VLM,并展示了将网页截图转换为功能性HTML代码的能力。为了加速这一领域的研究,我们开源了WebSight。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决将网页截图转换为对应HTML代码的问题,以提高Web开发效率和无代码解决方案的可行性。然而,由于缺乏高质量的数据集,这个特定的挑战一直没有得到充分探索。
  • 关键思路
    论文介绍了一个由200万个HTML代码和对应截图组成的合成数据集WebSight,并在该数据集上对基础VLM进行微调,以实现将网页截图转换为功能性HTML代码的效果。
  • 其它亮点
    该论文的亮点包括:引入了一个新的合成数据集WebSight;成功地将VLM应用于将网页截图转换为HTML代码的任务;通过开源WebSight数据集,加速了该领域的研究进展。
  • 相关研究
    最近的相关研究包括:1)使用GAN生成网页布局的研究;2)使用VQA模型生成网页布局的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问