RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models

向作者提问

NEW

简介

我们介绍了RealitySummary，一种混合现实阅读助手，可以使用按需文本提取、摘要和增强来增强任何印刷或数字文档。虽然增强阅读工具承诺通过叠加数字内容增强物理阅读体验，但以前的系统通常需要预处理文档，这限制了它们的普适性和实际应用场景。在本文中，我们通过利用大型语言模型，探索按需文档增强。为了了解适用于各种文档的通用技术，我们首先进行了一个探索性设计研究，确定了五类文档增强（摘要、增强、导航、比较和提取）。基于此，我们开发了一个概念验证系统，可以使用Google Cloud OCR和GPT-4自动提取和摘要文本，然后使用Microsoft Hololens 2和Apple Vision Pro在文档周围嵌入信息。我们展示了六个特定文档增强的实时示例：1）摘要，2）比较表，3）时间轴，4）关键词列表，5）摘要高亮显示，6）信息卡。来自可用性研究（N=12）和野外研究（N=11）的结果凸显了按需MR文档增强的潜在优势和未来研究的机会。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过混合现实技术和大型语言模型，提供可定制的文档增强功能，以提高阅读体验。此前的增强阅读工具通常需要预处理的文档，限制了其通用性和实际应用情况。
关键思路

通过结合Google Cloud OCR和GPT-4，以及Microsoft Hololens 2和Apple Vision Pro等技术，开发了一个能够自动提取和总结文本，并在文档周围嵌入信息的系统。论文还探讨了文档增强的五种类型：摘要、增强、导航、比较和提取。
其它亮点

论文提出的RealitySummary系统能够实时提供六种文档增强功能，包括摘要、比较表、时间轴、关键词列表、摘要高亮和信息卡。研究还进行了可用性研究和野外研究，结果显示了MR文档增强的潜在优势和未来研究的机会。
相关研究

与该论文相关的研究包括先前的增强阅读工具和使用大型语言模型的文本摘要和总结技术。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问