过去两周内,AI 领域的新事物依然源源不断地涌现、科技巨头的 AI 军备赛仍在持续、技术快速更迭——AI 竞赛再度升级!
AI Agents|AI 代理
某种意义上讲,作为首批独立运行的 GPT-4 实例之一,Auto-GPT 重新定义了 AI 技术的边界。这个开源的应用程序由游戏开发者 Toran Bruce Richards(aka Significant Gravitas) 开发,旨在执行需要长期规划、多个步骤的任务,并根据实时反馈进行自主改进——首先解决的是向 Richards 本人发送每日 AI 新闻的问题。
🔗 https://github.com/Significant-Gravitas/Auto-GPT
Baby AGI
Auto-GPT 并不是唯一一个关于自动化代理的尝试。受 AGI 的定义启发,Untapped Capital 的合伙人,同样也是一位开发者的 Yohei Nakajima 搭建了一个名为 Baby AGI 的「任务驱动的自动化代理(task-driven autonomous agent)」。与 Auto-GPT 不同,Baby AGI 基于 GPT-4、Pinecone 和 LangChain 搭建,具体来说:
- 使用 OpenAI 的 NLP 功能进行任务创建;
- 使用 Pinecone 和 LangChain 让代理拥有实现结果储存和信息检索的「长期记忆」;
- 通过无限循环,执行列表中的任务,得出逐渐丰富完善的结果,并根据初始目标和之前的结果重新确定任务的优先级,从而实现以初始目标为中心高效处理复杂任务。
🔗 https://github.com/yoheinakajima/babyagi
1 Web Version|Web 端版本
AgentGPT
功能最基础的网页版 AutoGPT,界面清爽,易于使用,可一键存储/复制所生成的结果,也可选择使用自己的 API key。
🔗 https://agentgpt.reworkd.ai/
2 Long-Term Memory|长期记忆
MemoryGPT
在了解了拥有长期记忆的代理后,让我们看一看真正与 Baby AGI 结合的 Teenage AGI——一个真正拥有长期记忆,记住初始目标并自动规划完成复杂任务的 AI agent——开发者,也是图像 prompting 产品 DSNR 的联合创始人的@sean_pixel,在大学宿舍完成了这个产品的开发,他个人还开发了一系列其他的有趣 agents,诸如高道德水平的分散决策 AI 裁判 council-of-ai,试试看!
3 More Professional Service|更专业的服务
Coding Assistant by Mckay Wrigley
Mckay 是我在 Twitter 上最喜欢的 Hacker 之一,他每天会花一小时解锁生成式 AI 的新玩法,继大火的通过 Apple Watch 语音写程序后,这次他通过 AI agents 进一步实现了「与经过身份验证的用户搭建应用程序」,当前 Mckay 的编程小助手可以:
- 构建和设计 Web 应用程序
- 创建具有工作数据库的后端
- 处理身份验证
- 将代码上传到 GitHub
- 部署到 Vercel
🔗 https://twitter.com/mckaywrigley/status/1646596881420783619
e2b (english2bits)
基于开发文档,利用 AI agents 自动搭建软件。目前云托管版本还在开发,使用还需本地部署。以下是一个使用 Stripe 自动结算的案例,左边为技术文档,右边为 AI 的搭建步骤及所使用的工具
4 Bad cases tigger|反面案例
ChaosGPT
一个对人类充满敌意并且想要统治世界的 Auto-GPT——虽然产品本身展现的意图是负面的,但我很高兴能看到这样的尝试,让大家可以更直观地了解到 AI 的威胁性并(也许可以)提前做好应对准备。
🔗 https://twitter.com/chaos_gpt
AI 产品
1 成熟公司的新产品 | From Big
与此同时,亚马逊也宣布将 AI 驱动的代码生成服务产品 CodeWhisperer 免费提供给开发人员,不设置任何使用限制。CodeWhisperer 于 2022 年 6 月底与 AWS IDE Toolkit 和 AWS Toolkit IDE extension 共同推出,一定程度上对标 GitHub Copilot。CodeWhisperer 是在数十亿行公开可用的开源代码、亚马逊自身的代码库以及公共论坛上的文档和代码的基础上训练的,可以仅根据一条注释或几次点击完成 Java、JavaScript 和 Python 等语言的自动编程,现在又额外支持了 Go、Rust、PHP、Ruby、Kotlin、C、C++、Shell 脚本、SQL 和 Scala。与此前一样,它会突出显示与其训练数据中找到的代码片段相似的函数所关联的许可证,开发人员可以选择过滤,这是为了避免 GitHub Copilot 在此问题上面临的法律挑战,但是否成功还需要时间验证。但免费开放的举动也许表明,自去年 6 月推出以来,CodeWhisper 并未获得公司预期的市场认可。
此外,亚马逊还宣布,由亚马逊定制设计的 AI 训练芯片 AWS Trainium 提供支持的 Amazon EC2 Trn1n 实例也向客户全面开放。亚马逊表示,这些实例提供高达 1600 Gbps 的网络带宽,在训练大型、网络密集型模型时,性能比 Trn1 提升 20%。
事实上,虽然没有公开的大动作,亚马逊在生成式 AI 领域的布局从未停止。
Bedrock 的亮相某种程度上也展示了 AWS 在过去的几个月里与生成式 AI 初创公司逐步创建的合作关系。去年 11 月,Stability AI 选择 AWS 作为其首选云服务提供商,3 月份,Hugging Face 与 AWS 合作,并将文本生成模型引入 AWS 平台。
此外,AWS 还在构建生成式 AI 应用所需的技术方面不断增加投资。最近,AWS 推出了一个生成式 AI 初创加速器,并表示将与 Nvidia 合作构建用于训练AI模型的「下一代」基础设施。
🔗 加速器:
https://aws-startup-lofts.com/amer/program/accelerators/generative-ai
微软新开发了一个名为 JARVIS 的有趣协作系统,可以被视作此前大热的论文 HuggingGPT 的产品化,即用多个人工智能模型来完成给定的任务,这其中,LLM(这里是 ChatGPT)在其中扮演核心控制者的角色。
JARVIS 的工作原理与 OpenAI 所展示的多模态 GPT-4 运行方式类似,但在此基础上又更进一步,集成了 20 多种开源的图像、视频、音频等模型,最重要的是还可以连接互联网和访问本地文件。
- 分析请求并计划任务;
- 选择正确的模型(托管在 Huggingface 上)来完成任务,所选模型完成任务并将结果返回;
- 使用来自所有模型的推理结果生成响应。
例如,下图所展示的「生成外星人入侵的图像并写下有关它的诗歌」👇
🔗 https://replit.com/site/ghostwriter
Segment Anything Model by Meta AI
Meta 是这样介绍 Segment Anything Model(SAM)的:第一个致力于图像分割的基础模型。可以在不需要大量标注的情况下,对图像中的任何物体进行分割,理论上来讲,这种方法可以帮助 CV 领域的研究人员和开发者更轻松地训练模型——听听这些描述:新数据集、新范式、强零样本泛化能力,是不是很耳熟?没错,Jim Fan 称其为「视觉模型领域的 GPT-3 时刻」。
当然,这个模型并不完美,相信试用过后,大家会发现基础的问题也有不少,我的好朋友,视觉领域科学家王乃岩也提出了他关于「SAM 为什么不能类比 GPT-3」的意见:
🔗 https://segment-anything.com/
Stable Diffusion XL by Stability AI
也许你会问,SDXL 与 Midjourney v5 有什么区别?除了文生图,SDXL 还可以实现以图生图、局部生成/修复以及图像延展等功能——确实是这家快速发展的公司的大更新了!
专注于游戏资产生成的公司 Scenario 推出了作为 Midjourney 创始人 David Holz 的超级粉丝,Scenario 的创始人 Emmanuel de Maistre 在设计产品时极大程度上参考了偶像的思路——从选择在 Discord 中呈现最终产品到 UI 设计,一以贯之。
Perplexity 对产品进行了全面升级,推出了登录、讨论串(Thread,与 Twitter Thread 类似)、重点搜索、改进格式等功能,其中值得重点一提的是:
- 在搜索功能层面,重点搜索让用户可以筛选自己关注的信息源,例如 Youtube、Reddit、特定新闻网站等,而学术领域目前也开放了基于 SemanticScholar、Arxiv 和 NIH 的深度搜索;
- 在问题解决能力上,Perplexity 重点改进了编程、表格生成与数学能力;
- 在生成内容管理上,新增的「讨论串」功能可以让用户以某个话题为中心,整理所得到的结果。
🔗 https://twitter.com/perplexity_ai/status/1646549544094531588
AI Assist by Ironclad
在更垂直的应用场景中,法律科技独角兽 Ironclad 也推出了自己的 AI 产品——基于 GPT-4 的合同撰写 AI 助手 AI Assist。这个产品面向的是合同生命周期的全过程,从条款建议、内容撰写、数据提取、合同审查、经营数据对比分析对比到未来合同优化起草,高效解决全流程!
effy 的 AI 模块
一句话简介:集成了生成式 AI 的绩效管理产品。
Willy by Triple Whale
有用的 | For Money
Imagica AI by Brain AI
🔗https://twitter.com/localghost/status/1644068688902127616
Rask
一款本地化的视频编辑工具,一键将本地视频翻译为 60 名种语言,还可以利用文字生成语音及语音克隆技术为视频添加话外音(需要注意的是,当前语音克隆仅支持英文)!
Dexa.ai
Tabby
- 独立存在,无需 DBMS 或云服务
- 可用作可视化、配置模型和 MLOps 的 WebUI
- 采用 OpenAI API,易于与现有基础架构,如 Cloud IDE 集成
- 支持消费级 GPU
🔗 https://github.com/TabbyML/tabby
Graph Maker
Upscaly
一键提升图片画质,效果看图
Fina
相信已经有非常多小伙伴已经尝试过让 ChatGPT 写文生图 prompt,再复制到相关工具中进行图片生成,那么,何不一步到位?来自 Brex 的 AI Chef & Design Lead Pietro Schirano 的作品
🔗https://twitter.com/skirano/status/1644097427014549505
LlamaIndex
来自华人开发者 Jerry Liu,实现 ChatGPT 与外部数据集的链接,但 LlamaIndex 要做的事绝不仅限于 ChatGPT 检索插件
又是 Pietro Schirano!他开发了这个 Baby AGI 插件,并用其写了一本 250 页的科幻小说——wow!
🔗 https://twitter.com/skirano/status/1646582731629887503
好玩的 | For Fun
- Speech to Text - OpenAI Whisper
- Text to Text (Prompt) - OpenAI GPT-3.5-turbo
- Text to Speech - Eleven Labs
🔗 https://cardsagainstchatgpt.com/
4 华人开发者 | Chinese Developer
🔗 https://github.com/kevmo314/magic-copy
气
一个看似荒谬的想法——让 AI 指导人类进行冥想,舒缓压力,是很新奇的尝试!来自开发者@chris。
另外,Chris 是一个有许多有趣想法、善于动手的开发者,他还开发了一款游戏搭建工具 Prestige,用户可用简单的自然语言自行设置游戏角色与情节,让 GPT 自动生成可玩的对话式冒险游戏,还有一款自然语言转图表工具 Autodiagram,功能简单,但清晰好用!
🔗 https://qi.amalgamated.tech/
病娇 AI 女友 Yandere AI
Aski AI
禅修时刻 · StackLlama
一份端到端的利用 RLHF 和偏好数据集训练 Llama 的教程!
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢