GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians

2024年06月21日
  • 简介
    最近机器学习的进展极大地改进了从基因表达数据集中识别与疾病相关的基因的能力。然而,这些过程通常需要广泛的专业知识和手动劳动,限制了它们的可扩展性。基于大型语言模型(LLM)的代理已经显示出自动化这些任务的潜力,因为它们具有越来越强的问题解决能力。为了支持这些方法的评估和开发,我们引入了GenoTEX,这是一个基准数据集,用于自动探索基因表达数据,涉及数据集选择、预处理和统计分析的任务。GenoTEX提供了注释代码和结果,用于解决各种基因识别问题,以遵循计算基因组学的标准完整分析流程。这些注释由人类生物信息学家策划,他们仔细分析数据集以确保准确性和可靠性。为了提供这些任务的基线,我们提出了GenoAgents,这是一个基于LLM的代理团队,设计有上下文感知规划、迭代纠正和领域专家咨询,以协同探索基因数据集。我们对GenoAgents的实验证明了LLM方法在基因组数据分析中的潜力,而错误分析则突出了未来改进的挑战和领域。我们提出GenoTEX作为基准和增强AI驱动的基因组数据分析方法的有希望的资源。我们将我们的基准公开在\url{https://github.com/Liu-Hy/GenoTex}上。
  • 作者讲解
  • 图表
  • 解决问题
    GenoTEX论文试图解决的问题是什么?
  • 关键思路
    GenoTEX论文的关键思路是什么?
  • 其它亮点
    GenoTEX提供了一个基准数据集和LLM智能代理GenoAgents用于基于基因表达数据的自动探索。GenoAgents采用上下文感知规划、迭代校正和领域专家咨询等技术,实现了一系列基因识别问题的自动化解决方案。论文还提出了一些值得关注的实验结果和展望。
  • 相关研究
    最近在这个领域中,还有哪些相关的研究被进行?
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问