官方微信
登录
注册
搜索
搜索
文章
帖子
用户
免费发布信息
首页
Portal
新闻资讯
论坛
BBS
分类信息
房源中心
租房
跳蚤市场
活动
新闻
加国
大多
美国
环球
经济
时政
娱乐
地产
信息
房源
新盘
家庭旅馆
跳蚤市场
拼车
折扣
机票邮轮
生活服务
社区
城事杂谈
旅游天地
大多生活
房产楼市
北美股票
房东信息
税务理财
健康锻炼
交友征婚
法律求助
加国新闻
大多新闻
美国新闻
环球新闻
经济观察
时政频道
财经资讯
娱乐八卦
生活百态
史海钩沉
健康养生
国际体坛
城事杂谈
大多生活
旅游天地
房产聚焦
税务理财
北美股票
子女教育
房东信息
健康锻炼
移民留学
体育娱乐
婚姻生活
宠物乐园
我爱我家
流行时尚
交友征婚
法律求助
便民信息
黄页
机票邮轮
求职招聘
换汇交易
拼车中心
商家折扣
二手车
非诚勿扰
周边游
扫一扫,关注我们
我的空间
我的消息
我的收藏
我的好友
我的相册
我的道具
帐号设置
退出登录
加国新闻
大多新闻
美国新闻
环球新闻
经济观察
时政频道
财经资讯
娱乐八卦
生活百态
史海钩沉
健康养生
国际体坛
城事杂谈
大多生活
旅游天地
房产聚焦
税务理财
北美股票
子女教育
房东信息
健康锻炼
移民留学
体育娱乐
婚姻生活
宠物乐园
我爱我家
流行时尚
交友征婚
法律求助
便民信息
黄页
机票邮轮
求职招聘
换汇交易
拼车中心
商家折扣
二手车
非诚勿扰
周边游
加国同城
›
首页
›
科技
›
查看内容
Sora团队受访:Sora就是太强了,所以不让普通人用(组图)
2024-4-18 22:59
|
发布者:
青青草
|
查看:
9
|
评论:0
|
来自: 新硅NewGeek
摘要:
前两天外媒对Sora核心团队做了次专访,看了下原视频,约等于什么都没说,场面神似发改委马科长讲话。用网友的话来说,就像镜头外有一个律师拿着枪对着这帮人。Sora已经发布快一个月了,刚发布时Sora惊为 ...
前两天外媒对Sora核心团队做了次专访,看了下原视频,约等于什么都没说,场面神似发改委马科长讲话。
用网友的话来说,就像镜头外有一个律师拿着枪对着这帮人。
Sora已经发布快一个月了,刚发布时Sora惊为天人,带给人们无限遐想,甚至有不少人表示AGI就要来了。 然而,目前为止只有少数人用上了Sora,再好的东西用不上,久而久之人们也就失去了兴趣。 就在人们把Sora翻得底朝天,该聊的都聊完了,好像实在没活了,OpenAI派了几个人出来接受一下采访。
16分钟的专访里,Sora的核心团队成员说了很多内容,但都是一些已知的内容,没有什么新的,信息好像还不如Sora的技术文档多。 来看看外国人是怎么打太极的。 这次访谈的三位Sora核心成员分别是Bill Peebles、Tim Brooks和Aditya Ramesh。 首先是大家最关心的问题,我们什么时候可以用到Sora? “别急,普通人短期内还用不上。” Sora成员表示,Sora目前尚未向公众开放,也没有具体的时间表。OpenAI正在收集用户反馈的阶段,希望进一步聊天人们如何使用Sora,有哪些安全工作要做。
既然用不了,那么探究一下,Sora是如何实现的。 Sora团队说:Sora是一个视频生成模型,其工作原理是分析大量视频数据并学会生成视频。具体工作方法融合了扩散模型(如DALL-E)和大型语言模型(如GPT系列)的技术。架构上Sora类似于介于两者之间,训练方式类似于DALL-E,但在结构上更像GPT。 结构上更像GPT这一点在Sora刚出现的时候就有不少人分析过,这也算Sora的一大技术特点。 接下来,是同样让人好奇的,Sora的训练数据到底来自于哪里? 在官方发布的Sora生成视频中,无论是咖啡杯中的海盗船,还是东京街头行走的女性,都在表示Sora似乎理解了许多世界的物理规律。 之前不少民间说法讨论,Sora极有可能在数据集中添加了用UE5生成的文本、视频当作合成数据。
面对这样的问题,Sora成员Tim Brooks没有明确回应,打了一个太极,表示不方便说得太细,但是他透露,大体上使用的是公开数据和OpenAI被授权使用的数据,并分享了一个“技术创新”。 以往,不论是图像还是视频生成模型,通常会以非常固定的尺寸进行训练,比如只有一个分辨率的视频。 在Sora的训练中,他们将各种各样的图片和视频,不管是高宽比、长短、高清还是低清,都分割成了一小块一小块。研究人员可以根据输入视频的大小,训练模型认识不同数量的小块,这也让Sora能更灵活地学习各种数据,并生成出不同分辨率和尺寸的内容。 这一技术在Sora技术文档里也有提过,就是所谓的patch。 大语言模型建模时把文本拆成了以token为最小单位,而视频大模型中的token就是patch。
这一技术并不是OpenAI创造的,当OpenAI宣布使用了该技术时还引起了讨论,为什么OpenAI能就能通过别人的技术造出好的AI产品出来。 主持又问到:你觉得Sora擅长做什么?哪些方面还有所欠缺?比如我看到有个视频里一只手竟然长了六个手指。
Sora团队先扬后抑的表示到,Sora擅长写实类视频,并且可以生成1分钟时长的视频,很强。但仍然存在一些问题,比如手部细节(所有AI的噩梦)摄像机轨迹、物理现象变化等。 除此之外,Sora团队还介绍了一些其他酷炫的功能,比如通过除prompt之外,用视频合成的方式生成视频。这实现了在完全不同主题和场景构成的视频之间无缝过渡。 在OpenAI的Tiktok上就有无人机变成蝴蝶在斗兽场转化的珊瑚礁中飞翔的视频。 无论在技术还是体验上,都与原先的视频生成模型完全不同。Aditya Ramesh更是表示,他们做的事情,就是先模拟自然,再超越自然! 目前为止,OpenAI在Tiktok上的AI生成视频都使用了配音,而不是AI无缝生成声音。Sora团队表示,AI声音暂时不是他们考虑的事情,当务之急还是在于视频生成,让它实现更长的时间,更好的画质和频率。 但不知道随着Pika Sound Effects功能的发布,Sora加上声音是否指日可待。
被主持人问到,Sora下一步发展方向时。Sora成员Tim Brooks表示,在真正发布之前,Sora还有两方面的工作要完成: 首先是获得更多用户的反馈,了解Sora如何给人们带来价值。比如有用户希望对生成的视频有更多精细、直接的控制,而不单单是prompts。 另一方面,Sora安全工作需要加强,OpenAI会全面考虑可能带来的各种影响。目前,正在训练应用于视频的溯源分类器,实现识别视频是否由AI生成,并且为每个Sora生成的视频都打上了水印。
此外,Sora团队表示,AI生成视频也带来了许多机遇,它可以大幅降低从创意到成片的成本,一个人拍一部电影完全有可能实现。 更令他们激动的是,随着AI新工具的出现,会有人创造出全新的东西,不断推进创造力的边界,将不可能变成可能。 但打住,这只是科学家们美好的幻想。毕竟对于普通人来说,离真正使用上Sora都要等上挺长一段时间。
而且,Sora成员透露。AI通过从视频数据中学习,将不仅仅在视频创作方面发挥作用。像GPT这样的模型,虽然很聪明,但如果它们无法像我们一样“看到”这个世界,那么它们就会缺失一些信息。类似Sora的模型正在解决这一问题。 这是证实AGI要来了吗? 最后主持人问了一个有意思的问题,Sora生成一个视频需要多长时间? “取决于各种情况,但你可以离开,去喝杯咖啡,然后回来它还在处理中,反正就是很久。” 以上就是Sora团队的采访内容,简单总结一下就是:Sora很厉害,可以看到世界,正因如此,我们还不能让普通人很快就用到,还有很多安全工作要做。 Umm,没活可以咬打火机,没必要硬上的。
路过
雷人
握手
鲜花
鸡蛋
分享
邀请
上一篇:
日本首款私营火箭SpaceOne首飞失败,发射数秒后爆炸(图)
下一篇:
见证历史!人类宇航新纪元!马斯克星舰成功发射(组图)
最新评论
评论
相关分类
新闻资讯
分类信息
地产
健康
活动
移民
历史
军事
生活
科技
就业
旅游
文化
测试
图文热点
出抽油烟机
今天起!多伦多High Park樱花全部盛放!全
热门推荐
出抽油烟机
56张搞笑动图:姑娘,你这枸杞有一斤了,补
53张搞笑动图:怎么上去的,你能再飞一次吗
54张搞笑动图:六分岔口的路你看过吗?还有
56张搞笑动图:同事和我说,自己逮到了鳄鱼
53张搞笑动图:背面看,以为是孩子,结果是
联系客服
关注微信
返回顶部
点击联系客服
在线时间:8:30-17:00
电子邮件
kefu@58.ca
扫一扫,关注我们
下载APP客户端