Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

简介

使用视觉语言模型（VLMs）在Web开发中提出了一种有前途的策略，可以提高效率并解决无代码解决方案的难题：通过提供UI的截图或草图，VLM可以生成重现它的代码，例如在HTML等语言中。尽管VLM在各种任务上取得了进展，但将截图转换为相应的HTML的具体挑战却受到了极少的探索。我们认为，这主要是由于缺乏合适的、高质量的数据集所致。这项工作介绍了WebSight，一个合成数据集，由200万个HTML代码和它们对应的截图组成。我们在数据集上微调了基础VLM，并展示了将网页截图转换为功能性HTML代码的能力。为了加速这一领域的研究，我们开源了WebSight。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决将网页截图转换为对应HTML代码的问题，以提高Web开发效率和无代码解决方案的可行性。然而，由于缺乏高质量的数据集，这个特定的挑战一直没有得到充分探索。
关键思路

论文介绍了一个由200万个HTML代码和对应截图组成的合成数据集WebSight，并在该数据集上对基础VLM进行微调，以实现将网页截图转换为功能性HTML代码的效果。
其它亮点

该论文的亮点包括：引入了一个新的合成数据集WebSight；成功地将VLM应用于将网页截图转换为HTML代码的任务；通过开源WebSight数据集，加速了该领域的研究进展。
相关研究

最近的相关研究包括：1）使用GAN生成网页布局的研究；2）使用VQA模型生成网页布局的研究。

Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

提问交流

提问交流