EmpathyEar: An Open-source Avatar Multimodal Empathetic Chatbot

2024年06月21日
  • 简介
    本文介绍了 EmpathyEar,这是一款开源的、基于头像的多模态共情聊天机器人,填补了传统的仅支持文本的共情回应生成(ERG)系统的空白。EmpathyEar 利用了大型语言模型的进展,结合多模态编码器和生成器,支持用户以任意文本、声音和视觉的组合进行输入,并生成多模态的共情回应,为用户提供的不仅是文本回复,还有具有说话脸部和同步语音的数字头像。系统进行了一系列情感感知的指令调整,以实现全面的情感理解和生成能力。通过这种方式,EmpathyEar 为用户提供了更深层次的情感共鸣,密切模拟了类人的共情。该系统为下一代情感智能铺平了道路,并开源了代码以供公众访问。
  • 作者讲解
  • 图表
  • 解决问题
    本文介绍了EmpathyEar,一个基于开源、头像的多模态共情聊天机器人,旨在填补传统文本式共情响应生成系统的空白。该系统利用大型语言模型的进展,结合多模态编码器和生成器,支持用户以任意文本、声音和视觉的组合进行输入,并生成多模态共情响应,为用户提供不仅是文本响应,还有带有说话脸部表情的数字化头像。通过一系列的情感感知调整,实现了全面的情感理解和生成能力。这样,EmpathyEar为用户提供了更深层次的情感共鸣,接近人类般的共情。该系统为下一代情感智能铺平了道路,代码已开源。
  • 关键思路
    EmpathyEar是一个基于开源、头像的多模态共情聊天机器人,利用大型语言模型的进展,结合多模态编码器和生成器,支持用户以任意文本、声音和视觉的组合进行输入,并生成多模态共情响应。
  • 其它亮点
    EmpathyEar支持多模态输入和生成,提供数字化头像和说话脸部表情的响应。通过一系列的情感感知调整,实现了全面的情感理解和生成能力。代码已开源。
  • 相关研究
    最近的相关研究包括:1. Affective Computing in Virtual Agents and Robots: A Review and Prospect (IEEE Transactions on Cognitive and Developmental Systems, 2020); 2. Multimodal Emotion Recognition in the Wild Challenge at EmoReact 2019 (ACM International Conference on Multimodal Interaction, 2019); 3. Emotion Recognition using Facial Landmarks, Python, DLib and OpenCV (arXiv, 2018).
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问