NEMO-4-PAYPAL: Leveraging NVIDIA's Nemo Framework for empowering PayPal's Commerce Agent

2025年12月25日
  • 简介
    我们介绍了PayPal商务智能代理(Commerce Agent)的开发与优化过程,该代理由NEMO-4-PAYPAL驱动,是一种旨在彻底改变PayPal平台上代理式商业(agentic commerce)的多智能体系统。通过与NVIDIA的战略合作,我们采用NeMo框架对大语言模型进行微调,以提升智能体的整体性能。具体而言,我们通过将基础模型替换为经过微调的Nemotron小型语言模型(SLM),对搜索与发现代理(Search and Discovery agent)进行了优化。 我们基于llama3.1-nemotron-nano-8B-v1架构开展了全面实验,采用LoRA方法训练模型,并系统性地对学习率、优化器(Adam、AdamW)、余弦退火调度策略以及LoRA秩等超参数进行了调优扫描。我们的主要贡献包括:(1)首次将NVIDIA的NeMo框架应用于面向电商场景的智能体优化;(2)提出针对检索类电商任务的大语言模型微调策略;(3)在保持智能体质量的前提下,显著降低了响应延迟和运行成本;(4)构建了一套可扩展的多智能体系统优化框架,适用于生产环境中的电子商务应用。实验结果表明,经过微调的Nemotron小型语言模型有效解决了检索模块的关键性能瓶颈——该模块原本占整个智能体响应时间的50%以上——同时保持甚至提升了系统的整体性能表现。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决PayPal Commerce Agent中检索组件性能瓶颈的问题,特别是检索任务占总响应时间超过50%的延迟问题。该问题在当前的商业智能代理系统中普遍存在,但针对支付和电商场景进行专门优化仍属较新领域。
  • 关键思路
    采用NVIDIA NeMo框架对Nemotron小型语言模型(SLM)进行LoRA微调,替代原有基础模型以优化搜索与发现代理。关键创新在于将LLM微调策略应用于以检索为核心的商业任务,并结合轻量级架构实现低延迟、低成本的高性能表现,是首个将NeMo框架用于电商代理系统优化的工作。
  • 其它亮点
    使用llama3.1-nemotron-nano-8B-v1架构进行系统性超参数调优,涵盖学习率、优化器(Adam/AdamW)、余弦退火调度和LoRA秩;实验设计严谨,聚焦于实际生产环境中多代理系统的可扩展性;显著降低检索模块延迟并控制成本,同时保持整体代理质量;提出了一个可在真实电商平台部署的可扩展多代理优化框架;未提及公开数据集或开源代码,但工业级应用背景增强了实用性价值。未来可深入研究多模态输入支持、动态LoRA适配及跨代理协同学习机制。
  • 相关研究
    1. Scaling Down to Scale Up: A Guide to Smaller Language Models for Efficient Inference 2. LoRA: Low-Rank Adaptation of Large Language Models 3. NeMo Framework: A Toolkit for Conversational AI and Beyond 4. Multi-Agent Systems in E-Commerce: Challenges and Opportunities 5. Efficient Fine-Tuning of Transformer Models for Retrieval Tasks
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问