「人工智能,特别是生成式人工智能,具有改变医疗保健的潜力」。
这是希波克拉底人工智能的销售口号,它今天从隐形中脱颖而出,背后有高达5000万美元的种子融资,估值为“三位数百万”。这批由General Catalyst和Andreessen Horowitz共同领导,是对Hippocratic技术的巨大信任投票,Hippocratic技术是专门为医疗保健应用调整的文本生成模型。
官网地址:https://www.hippocraticai.com
希波克拉底——从通用催化剂中孵化出来——由一群医生、医院管理人员、医疗保险专业人士和来自约翰·霍普金斯大学、斯坦福大学、谷歌和英伟达等组织的人工智能研究人员创立。在2010年联合创始人兼首席执行官Munjal Shah将他以前的公司购物比较网站Like.com出售给谷歌后,他在接下来的十年中大部分时间都在建设希波克拉底。希波克拉底人工智能是新的最先进的(SOTA)模式,在114项医疗保健检查和认证中的105项上优于GPT-4。
Shah在接受TechCrunch的电子邮件采访时表示:“Hippocratic创建了第一个专门为医疗保健设计的以安全为重点的大型语言模型(LLM)。“公司的使命是开发最安全的人工智能通用智能,以大幅改善医疗保健的可及性和健康结果。”
从历史上看,医疗保健领域的人工智能取得了喜忧参半的成功。
由英国国家卫生局支持的人工智能初创公司Babylon Health发现自己因声称其疾病诊断技术可以比医生表现得更好而受到反复审查。在技术问题导致主要客户伙伴关系恶化后,IBM被迫出售其专注于人工智能的沃森健康部门。在其他地方,OpenAI的GPT-3,GPT-4的前身,敦促至少一名用户自杀。
Shah强调,希波克拉底并不专注于诊断。相反,他说,这项面向消费者的技术旨在用于用例,如解释福利和账单,提供饮食建议和药物提醒,回答术前问题,让患者入职,并提供表明没有问题的“阴性”测试结果。
鉴于像OpenAI的ChatGPT这样的糟糕的饮食相关建议,饮食建议用例让我停顿了一下。但Shah声称,希波克拉底的人工智能在100多项医疗保健认证方面优于包括GPT-4和Claude在内的领先语言模型,包括NCLEX-RN护理、美国泌尿委员会考试和注册营养师考试。
Shah说:“语言模型必须是安全的。”“这就是为什么我们正在建立一个专注于安全的模型,与医疗保健专业人员进行认证,并与行业密切合作......这将有助于确保数据保留和隐私政策与医疗保健行业的现行规范保持一致。”
Shah说,希波克拉底旨在实现这一目标的方式之一是比竞争对手的技术更好地“检测语气”和“沟通同理心”——部分是通过“建立”良好的床边方式(即难以捉摸的“人情”)。他提出,即使在严峻的情况下,床边的态度——特别是让患者抱有希望感的互动——可以而且确实会影响健康结果。
为了评估床边的态度,希波克拉底设计了一个基准来测试人文主义迹象的模型,如果你愿意的话——比如“表现出同理心”和“对病人的生活产生个人兴趣”。(当然,单个测试是否能准确捕获有细微差别的科目,这是有争议的。)不出所料,从来源说,希波克拉底模型在希波克拉底测试的所有模型类别中得分最高,包括GPT-4。
但是语言模型真的能取代医护人员吗?希波克拉底提出了这个问题,认为其模型是在医疗专业人员的监督下训练的,因此能力很强。
Shah说:“我们只会发布每个角色——营养师、计费代理、遗传顾问等——一旦今天在现实生活中真正担任这个角色的人同意模型已经准备就绪。”“在疫情期间,大多数卫生系统的劳动力成本上涨了30%,但收入没有。因此,该国的大多数卫生系统都在陷入财务困境。语言模型可以通过以更具成本效益的方式填补目前大量的空缺来帮助他们降低成本。”
我不确定医疗保健从业人员是否会同意——特别是考虑到希波克拉底模式在上述一些认证上的得分很低。据希波克拉底称,该模型在认证专业编码器考试中获得了71%的分数,该考试涵盖了医疗账单和编码知识,在医院安全培训合规性测验中获得了72.7%。
还有潜在的偏见问题。偏见困扰着医疗保健行业,这些影响渗透到受过有偏见的医疗记录、研究和研究训练的模型。例如,2019年的一项研究发现,许多医院正在使用一种算法来决定哪些患者需要护理,治疗黑人患者的敏感性低于白人患者。
无论如何,人们希望希波克拉底表明其模型并非万无一失。在医疗保健等领域,自动化偏见或人们信任人工智能而不是其他来源的倾向,即使它们是正确的,也显然会带来高风险。
这些细节是希波克拉底尚未确定的众多细节之一。该公司没有公布其合作伙伴或客户的细节,而是更愿意继续关注资金。该模型目前甚至不可用——也没有关于它训练了哪些数据,或者未来可能训练了什么数据的信息。(希波克拉底只会说它将使用“去标识化”数据进行模型训练。)
如果等待太久,希波克拉底可能会落后于Truveta和Latent等竞争对手——其中一些具有重大的资源优势。例如,谷歌最近开始预览Med-PaLM 2,它声称这是第一个在数十个医学考试问题上以专家水平执行的语言模型。与希波克拉底的模型一样,医疗专业人员对Med-PaLM 2进行了准确、安全地回答医疗问题的能力进行了评估。
但General Catalyst的董事总经理Hemant Taneja没有表示担忧。
他通过电子邮件表示:“Munjal和我孵化这家公司时认为,医疗保健需要专门为医疗保健应用程序构建自己的语言模型——一种公平、无偏见、安全和有益于社会的语言模型。”“我们着手创建一个高完整性的人工智能应用程序,该应用程序采用'健康'的数据饮食,并包括一种培训方法,旨在将医学专家对每项专业任务的广泛人类反馈结合起来。在医疗保健领域,我们根本负担不起“快速移动和破坏东西”。
Shah说,5000万美元的种子部分的大部分将用于投资人才、计算数据和伙伴关系。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢