以数据驱动的科学发现需要经历文献检索、提出假设和数据分析的反复循环过程。尽管在能够自动化开展科学研究的人工智能代理方面已取得显著进展,但现有各类系统均受限于其在失去连贯性之前所能执行的操作数量,从而限制了它们发现成果的深度。本文提出了Kosmos,一种实现数据驱动科学发现自动化的AI科学家。给定一个开放性的研究目标和一个数据集后,Kosmos可连续运行长达12小时,执行多轮并行的数据分析、文献检索和假设生成,最终将发现成果整合成科学报告。与以往系统不同,Kosmos采用一种结构化的世界模型,使数据分析代理和文献检索代理之间能够共享信息。该世界模型使Kosmos能够在超过200次的代理推演过程中始终保持连贯性,每次运行平均共执行约42,000行代码,并阅读1,500篇论文。Kosmos报告中的每一项陈述均通过代码或原始文献加以引用,确保其推理过程可追溯。独立科学家评估发现,Kosmos报告中79.4%的陈述是准确的;合作研究人员表示,单次包含20个循环的Kosmos运行平均相当于他们自身六个月的研究工作量。此外,合作者指出,Kosmos产生的有价值科学发现的数量随运行循环次数呈线性增长(实验最多验证至20个循环)。我们重点介绍了Kosmos在代谢组学、材料科学、神经科学和统计遗传学等领域取得的七项科学发现:其中三项独立重现了Kosmos运行时并未接触过的预印本或未发表手稿中的研究成果,另外四项则为科学文献作出了全新的贡献。