EmpathyEar: An Open-source Avatar Multimodal Empathetic Chatbot

向作者提问

NEW

简介

本文介绍了 EmpathyEar，这是一款开源的、基于头像的多模态共情聊天机器人，填补了传统的仅支持文本的共情回应生成（ERG）系统的空白。EmpathyEar 利用了大型语言模型的进展，结合多模态编码器和生成器，支持用户以任意文本、声音和视觉的组合进行输入，并生成多模态的共情回应，为用户提供的不仅是文本回复，还有具有说话脸部和同步语音的数字头像。系统进行了一系列情感感知的指令调整，以实现全面的情感理解和生成能力。通过这种方式，EmpathyEar 为用户提供了更深层次的情感共鸣，密切模拟了类人的共情。该系统为下一代情感智能铺平了道路，并开源了代码以供公众访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文介绍了EmpathyEar，一个基于开源、头像的多模态共情聊天机器人，旨在填补传统文本式共情响应生成系统的空白。该系统利用大型语言模型的进展，结合多模态编码器和生成器，支持用户以任意文本、声音和视觉的组合进行输入，并生成多模态共情响应，为用户提供不仅是文本响应，还有带有说话脸部表情的数字化头像。通过一系列的情感感知调整，实现了全面的情感理解和生成能力。这样，EmpathyEar为用户提供了更深层次的情感共鸣，接近人类般的共情。该系统为下一代情感智能铺平了道路，代码已开源。
关键思路

EmpathyEar是一个基于开源、头像的多模态共情聊天机器人，利用大型语言模型的进展，结合多模态编码器和生成器，支持用户以任意文本、声音和视觉的组合进行输入，并生成多模态共情响应。
其它亮点

EmpathyEar支持多模态输入和生成，提供数字化头像和说话脸部表情的响应。通过一系列的情感感知调整，实现了全面的情感理解和生成能力。代码已开源。
相关研究

最近的相关研究包括：1. Affective Computing in Virtual Agents and Robots: A Review and Prospect (IEEE Transactions on Cognitive and Developmental Systems, 2020); 2. Multimodal Emotion Recognition in the Wild Challenge at EmoReact 2019 (ACM International Conference on Multimodal Interaction, 2019); 3. Emotion Recognition using Facial Landmarks, Python, DLib and OpenCV (arXiv, 2018).

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问