9月 24 日,字节跳动的豆包大模型发布多款新品——视频生成、音乐生成以及同声传译大模型。
字节的视频生成模型首次亮相,这也意味着,在快手之后,国内的两大短视频巨头都进入了AI视频生成赛道。
发布会上还公布了豆包大模型的最新数据,截至9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5,000万张,此外,豆包目前日均处理语音85万小时。
目前,豆包大模型已涵盖大语言模型、视觉大模型、语音大模型三大品类发布了13个大模型。此外,豆包通用模型Pro升级,初始TPM支持800k、上下文窗口达到256k。

点击关注,每天更新深度 AI 行业洞察
01
视频生成:
多主体交互,一致性多镜头生成
PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型,同时支持文生视频和图生视频,能够一次性生成长达10秒的视频片段。
精准语义理解,多主体交互
提示词:一名中国男子端起咖啡喝了一口, 一名女子走到了他身后
再来看另一个例子。
运镜是视频语言的关键之一。豆包视频生成模型可以让视频在主体的大动态与镜头中炫酷切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头话语言能力,灵活控制视角,带来真实世界的体验。
提示词:一名亚洲男子带着护目镜游泳,身后是另一名穿潜水服的男子
提示词:一位女性喝了一口咖啡,然后端着咖啡,带着伞走了出去
提示词:一个女孩儿从汽车上下来,远处是夕阳
提示词:一名外国男子在冲浪,对着镜头竖起大拇指
支持多种风格比例
02
音乐生成:
实现气口转换,支持图片成曲
豆包音乐模型实现了音乐生成通用框架,从词曲唱三个方面生成高质量音乐。
用户首先输入Prompt就可以得到一段歌词,然后在10余种不同风格的音乐和情绪表达中选择进一步创作出歌曲,再基于豆包语音能力,生成可以媲美真人演唱效果的声音,可以实现气口、真假音转换技巧的模拟。
目前,开发者可以通过火山方舟使用豆包音乐模型API,用户也可以直接通过豆包App和海绵音乐App创作音乐。
03
同声传译:
边听边译,跨语言同音色翻译
在实时翻译方面,豆包同声传译模型可以做到边说边译,且在办公、法律、教育等场景接近甚至超越人类同传水平,还能支持跨语言同音色翻译。
更多阅读
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢