新智元报道  

编辑:编辑部
【新智元导读】深夜,谷歌忽然放出复仇杀器。Bard、Duet AI,如今都成了历史的尘埃。Gemini既是模型,也是产品,谷歌推向全世界的AI,在今夜正式统一。

爆料成真了,谷歌的Gemini大杀器果然在昨天晚上炸了出来。

就在刚刚,谷歌正式官宣,Bard更名为Gemini。

从此,谷歌进入Gemini时代的新篇章。

与此同时,迄今为止最强的Gemini Ultra所加持的聊天机器人Gemini Advanced也在今天正式开放,所有人皆可访问。

从此,所有人都可以在谷歌办公全家桶中用到最强大模型Gemini了!

当然,这个最强机器人并不是免费的,需要月付20美金,所幸前2个月可以免费使用。
要知道,ChatGPT每个月的收费就是20美元,谷歌此举是直接和OpenAI打擂台了。
此次谷歌不仅推出了大模型面向C端的APP,还将内部的多个产品接入大模型中。这样,谷歌的大模型就离公众又近了一步。
采取保守策略的谷歌,在去年一年被微软和OpenAI的重重险招打得找不着北,但最近的谷歌已经越来越大胆,誓要在产品和生态上攻城略地,扳回一局。

Gemini,进入谷歌全家桶

以前,或许你会为谷歌千千万万产品的名字感到困惑。
但未来谈及谷歌的AI时,它们会汇合成同一个名字——Gemini。
Gemini既是模型名,也是产品名。既是聊天助手,又是聊天机器人,还是搜索引擎。
Bard聊天机器人、安卓Gemini应用程序、Google Workspace中的所有Duet AI功能,通通都整合到了Gemini品牌中。
在谷歌邮箱中,你能让它帮忙总结关于学校最近的邮件。
在Gemini APP中,它能帮你根据照片写描述、发帖。
而迄今最强大模型Gemini Ultra 1.0,更是强到发指。

每月20刀!Gemini开始收费了

属于Bard的时代,已经不再了。
得到「地表最强」的模型Gemini Ultra加持后,Gemini Advanced注定要成为最受欢迎的聊天机器人。
谷歌博客介绍,借助Ultra 1.0模型,Gemini Advanced在完成复杂任务方面,性能暴涨。
比如,对于编程、逻辑推理、遵循复杂指令,以及参与创意项目的协作,胜任力近乎完美。
除此之外,Gemini Advanced不仅可以开启更长、更详细的对话,还能更好地理解此前提出问题的上下文。
Gemini Advanced能做的,或许并不比ChatGPT差。
它可以成为你的个人导师,为你量身订制分布教学、样本测验,或者讨论话题。
面对更复杂的编码难题时,它能助你一臂之力,提供反馈意见,并帮你评估不同的编程方法。
它甚至,可以为那些「数字内容创作者」从构思到实现,通过生成新内容、分析最新趋势,以及寻找增长受众的新方法
当然了,正如此前爆料所称,Gemini Advanced将开启收费模式:
价格为每月19.99美元,并提供两个月的免费试用。
这是谷歌全新的Google One AI高级订阅计划的一部分。
计划主要是为用户,提供Google AI最好、最顶尖的技术,同时包括Google One Premium存储空间优势,比如2TB的存储空间。
此外,AI Premium用户不久很快就能够在Gmail、Docs、Slides、Sheets等产品中使用Gemini(以前称为Duet AI)。
谷歌表示,Gemini Advanced初代版本已展示出强大的AI推理能力,未来还将持续优化。
目前,Gemini Advanced现已在150多个国家和地区提供英语服务,之后会逐步扩展到更多语言。
需要明确的是,Bard的全新升级可以理解为,是一次纯粹的「品牌」重塑,背后的模型本身并未改变。
早在去年12月初,劈柴就宣布了,Bard背后的大模型从PaLM 2迭代为Gemini。
而这次,谷歌给聊天机器人的更名,更是将微软、OpenAI视为强大的竞争对手。

AI助手Gemini装进手机

此外,在手机端侧用上大模型、聊天机器人Gemini,也是谷歌布局中的一步大棋。
同在今天,谷歌为Gemini和Gemini Advanced聊天机器人,分别引入了全新的安卓应用,以及iOS上的谷歌应用。
以后,拿起手机只需呼唤一声「Gemini」。
不论你身处何处,都可以通过通过输入、语音、甚至是图片寻求建议。
比如,出行的半路爆胎,你可以拍一张照片,问问Gemini如何处理棘手的难题。
又或者,你想举办一个晚餐party,却不知如何设计,找Gemini制作个性化图片,定制流程,准没错!
在谷歌看来:
这标志着我们正构建一个真正的AI助手的重要起点 —— 一个既能进行对话、支持多种交互方式又实用的助手。

Gemini安卓版上线

Gemini在安卓手机上也能下载了。
除了这种方式,你还可以选择使用Gemini,替代原来的Google Assistant,成为手机的默认语音助手。
然后你可以通过长按电源键、在手机上滑动屏幕到角落,或者说「hi Google」,激活Gemini。
这将为我们开启一个全新的手机体验,可以轻松访问Gemini,并获得与当前屏幕内容相关的帮助。
举个栗子,随手拍一张小清新风格的照片,然后让Gemini生成描述。
立刻,它生成了多个可用的描述供你选择,「多肉植物和点心」、「桌面静物」、「沙漠气息」.....
又或者拍一张狗狗照片,然后可以让Gemini为Baxter创建一个可爱的社交标题。
此外,通过Gemini应用,你还可以使用许多Google Assistant的语音功能,比如设置计时器、拨打电话和控制智能家居设备等等,

iOS版也来了

在iOS设备上,谷歌将在未来几周通过Google App提供访问。
只需点击Gemini切换按钮,即可开启对话。
它可以激发你的创意,创建定制图片,撰写社交媒体帖子,甚至在Google App中策划一场约会之夜。
许多网友已经迫不及待,剁手20刀体验最新的Gemini Advanced。
「还是有些失望的」。

84页超长技术报告更新

随着Gemini Ultra的正式上线,谷歌也同步更新了Gemini 1.0的技术报告。

论文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
在完成大规模预训练后,模型还需要通过后训练(post-training),即在已有的预训练模型基础上进一步训练,来拓展自己的能力(比如在编程和多语言处理领域)并增加更多的功能。

指令跟随

对于LLM来说,精准地执行用户的指令是一项基础能力。为此,谷歌采用了一种非常细致的方法来评估模型对每条指令的遵循程度。
具体评价标准有两个:
1. 每条指令的准确率(评估集中遵循的子指令百分比)
2. 完整响应的准确率(评估集中所有子指令都被遵循的指令百分比)
结果如表14所示,Gemini Advanced(Ultra)在每条指令的准确率上达到了接近90%的平均水平,相比Gemini和经过后训练的PaLM 2模型有显著的提升。
不过,Gemini Advanced(Ultra)在完全满足所有指令方面还有进一步的提升空间——准确率只有约54%。

多模态视觉

通过多模态后训练,Gemini原生的多模态能力也得到了进一步加强,从而显著提升了模型在各种实用场景中的应用能力。
其中,得益于监督微调(SFT)带来的指令跟随能力的提升,Gemini Vision模型的输出风格也更加贴近标准答案,并且成功地在多个测试集上(如InfographicVQA、AI2D、VQAv2)实现了性能的提升。

代码

虽然基础模型在编程基准测试中表现得已经非常出色,但后训练数据还是显著提升了代码的质量和正确性。
而这也凸显了高质量示例数据和反馈数据对编程应用的重要性。其中,Gemini采用的是人工和自动生成的混合数据。
SxS得分显示,Gemini(Pro版本)在使用了更新的后训练策略后,性能显著优于基于PaLM 2的旧版Bard。而Gemini Advanced(Ultra版本)在此基础上进一步提升了性能。

老牌科技巨头的最后一搏


谷歌如此全力以赴并不奇怪,OpenAI、Anthropic、Perplexity等强大的对手,都在虎视眈眈,蚕食着这家老牌科技公司的市场。
去年Gemini发布的测试中,Gemini驱动的Bard性能很强,几乎和GPT-4相当,但速度明显较慢。
现在,谷歌急需证明自己能够跟上行业的步伐。两个难点在于:它既要打造一款引人注目的消费产品,又要试图说服开发者在Gemini上构建应用,而非OpenAI的模型。
在谷歌的历史上,集全公司之力押注同一件事的情况,只有寥寥数次。比如,曾经的Google Pllus。
但这一次,谷歌似乎在使出洪荒之力,致力于成为一家AI公司。
万物皆可Gemini,会是谷歌撕开困境,给OpenAI猛力一击的开始吗?
参考资料:
https://blog.google/products/gemini/bard-gemini-advanced-app/




内容中包含的图片若涉及版权问题,请及时与我们联系删除