谷歌推出Veo和Imagen3全新AI驱动的生成媒体模型

在 2024 年 Google I/O 大会上，Alphabet Inc 公司推出了几种可帮助完成不同任务的新型 AI 模型，并对现有模型进行了一些改进。其最新发布的 AI 模型包括 Veo 和 Imagen 3，它们旨在帮助生成视频和图像。

谷歌表示，Veo 可以生成 1080p 分辨率、不同电影和视觉风格的视频，时长超过一分钟。多模式人工智能可以捕捉音调，甚至可以渲染长提示中的细节，捕捉场景的基调，理解自然语言和视觉语义。

Veo 还熟悉“风景航拍”和“延时摄影”等术语，让用户可以更好地控制 Veo 生成的内容，并且可以轻松创建以逼真的方式移动的人物、动物和物体的视频。Veo 似乎领先于同行，因为 OpenAI 的文本转视频模型 Sora 只能生成长达 60 秒的高分辨率视频。

谷歌还表示，他们正在邀请创作者和电影制作人尝试和试用新模式。Veo 可供少数使用 VideoFX 的创作者使用，但一些功能也将在未来某个时候提供给 YouTube Shorts 创作者。

该公司还发布了 Imagen 3，这是文本转图像生成器的更新版本。与之前的版本相比，Imagen 3 能够生成逼真的图像，而且伪影更少。谷歌表示，它也是有史以来最好的文本渲染模型，更新后的版本还可以帮助生成基于文本的内容，如个性化的生日信息和演示文稿中的标题幻灯片。它目前在 ImageFX 中作为私人预览版供创作者使用，很快就会出现在 Vertex AI 中。

谷歌在官方发布中表示：“Imagen 3 能够更好地理解自然语言、提示背后的意图，并整合较长提示中的小细节。这些额外的细节有助于 Imagen 3 掌握各种风格。这也是我们迄今为止渲染文本的最佳模型，这对图像生成模型来说一直是一个挑战。”

谷歌还表示，它一直在与音乐家、词曲作者和制作人合作，包括 Wyclef Jean 和 Marc Rebillet，以开发像 Lyria 这样的生成音乐技术。此外，谷歌的音乐 AI Sandbox 还提供了创作和转换音乐的工具。该公司表示，其努力，尤其是与 YouTube 的合作，展示了人工智能在音乐创作方面的潜力。

猜你喜欢

最新文章