在 2024 年 Google I/O 大会上,Alphabet Inc 公司推出了几种可帮助完成不同任务的新型 AI 模型,并对现有模型进行了一些改进。其最新发布的 AI 模型包括 Veo 和 Imagen 3,它们旨在帮助生成视频和图像。
谷歌表示,Veo 可以生成 1080p 分辨率、不同电影和视觉风格的视频,时长超过一分钟。多模式人工智能可以捕捉音调,甚至可以渲染长提示中的细节,捕捉场景的基调,理解自然语言和视觉语义。
Veo 还熟悉“风景航拍”和“延时摄影”等术语,让用户可以更好地控制 Veo 生成的内容,并且可以轻松创建以逼真的方式移动的人物、动物和物体的视频。Veo 似乎领先于同行,因为 OpenAI 的文本转视频模型 Sora 只能生成长达 60 秒的高分辨率视频。
谷歌还表示,他们正在邀请创作者和电影制作人尝试和试用新模式。Veo 可供少数使用 VideoFX 的创作者使用,但一些功能也将在未来某个时候提供给 YouTube Shorts 创作者。
该公司还发布了 Imagen 3,这是文本转图像生成器的更新版本。与之前的版本相比,Imagen 3 能够生成逼真的图像,而且伪影更少。谷歌表示,它也是有史以来最好的文本渲染模型,更新后的版本还可以帮助生成基于文本的内容,如个性化的生日信息和演示文稿中的标题幻灯片。它目前在 ImageFX 中作为私人预览版供创作者使用,很快就会出现在 Vertex AI 中。
谷歌在官方发布中表示:“Imagen 3 能够更好地理解自然语言、提示背后的意图,并整合较长提示中的小细节。这些额外的细节有助于 Imagen 3 掌握各种风格。这也是我们迄今为止渲染文本的最佳模型,这对图像生成模型来说一直是一个挑战。”
谷歌还表示,它一直在与音乐家、词曲作者和制作人合作,包括 Wyclef Jean 和 Marc Rebillet,以开发像 Lyria 这样的生成音乐技术。此外,谷歌的音乐 AI Sandbox 还提供了创作和转换音乐的工具。该公司表示,其努力,尤其是与 YouTube 的合作,展示了人工智能在音乐创作方面的潜力。