爬取任意网页并提取正文,然后根据正文内容回答你的问题

ChatWeb可以爬取任意网页并提取正文,生成概要,然后根据正文内容回答你的问题。 目前是个原理展示的Demo,还没有细分逻辑。 基于gpt3.5的chatAPI和embeddingAPI,配合向量数据库。

GitHub: https://github.com/SkywalkerDarren/chatWeb

基本类似于现有的ChatPDF,自动化客服AI等项目的原理。

  1. 爬取网页
  2. 提取正文
  3. 对于每一段落,使用gpt3.5的embeddingAPI生成向量
  4. 每一段落的向量和全文向量做计算,生成概要
  5. 将向量和文本对应关系存入向量数据库
  6. 对于用户输入,生成向量
  7. 使用向量数据库进行最近邻搜索,返回最相似的文本列表
  8. 使用gpt3.5的chatAPI,设计prompt,使其基于最相似的文本列表进行回答

先把大量文本中提取相关内容,再进行回答,最终可以达到类似突破token限制的效果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除