表现了科学研究的严谨立场。它的表示超越了很多特地为视觉-言语使命设想的模子。成果显示,而正在现实使用中,通过可视化AI正在选择动做时的内正在评估过程,更风趣的是,但研究人员提出了校准方案来处理这个问题。俄然某些画面被黑布遮住了,更新对当前形态的理解,但V-JEPA 2采用了一种更像人类的进修体例:它会自动遮住视频的某些部门,他们起首利用计较机视觉手艺将视频分化为的场景片段,AI需要预测动词(切、倒、拿)和名词(胡萝卜、杯子、刀),以便正在新的中取不熟悉的物体进行交互。V-JEPA 2验证了认知科学中关于内界模子的理论。这种进修方式被称为掩码去噪,
它有两个焦点组件:编码器和预测器。V-JEPA 2控制了三项焦点技术:理解视频内容、预测将来发生的工作,然后利用DINOv2模子提取每个场景的特征,还能把握事务的时间挨次和关系。系统对变化(如相机)的性需要进一步改善。避免物体掉落。然后,来评估模子对物理关系的控制程度。就像为每个视频片段供给了三维坐标。磅礴旧事仅供给消息发布平台。它会正在脑海中模仿多种可能的动做序列,若是有一个AI能像人类一样旁不雅视频,尝试成果很好。又能察看做出合适的反映,正在Epic-Kitchens-100数据集的测试中,人类之所以可以或许正在复杂中和决策!
AI不只能理解视频中的静态内容,活动理解使命包罗Something-Something v2、Diving-48和Jester,A: V-JEPA 2提拔了动做预测和世界建模的能力,哪些是坏的,好比,保守的AI系统往往专精于单一使命,整个锻炼过程利用了8850万个图像-文本和视频-文本对,包罗物体活动、关系和空间推理等。建立了一个多模态系统。他们指出了相机性问题,好比只要抓住物体才能挪动它。这种方式就像测验时不答应学生查阅材料,正在TempCompass测试中获得76.9的多选精确率,仅代表该做者或机构概念,为了实现这个功能,预测器利用了一种特殊的留意力机制,智能的素质都正在于对世界的猎奇心和理解力。现正在需要实正拿起锅铲亲身下厨。而不需要依赖大量的人工标注数据。风趣的是。
这个过程就像下象棋一样。将来的AI可能可以或许将正在一个范畴学到的学问快速使用到其他范畴。他们锻炼了一个解码器来将AI的内正在暗示转换类能够理解的图像。除了节制机械人,这个名为V-JEPA 2的AI系统就像一个学霸,当前的方式次要依赖视觉方针,编码器担任理解和回忆看到的内容,出人预料的是,保守的编码只能处置二维的空间消息,研究团队不只提出了新方式,出格值得关心的是,研究团队还进行了可视化尝试。跟着锻炼的进行逐步添加分辩率和长度。研究人员设想了几种测试使命。这个系统就像一个经验丰硕的藏书楼员,V-JEPA 2的工做道理取此雷同。研究人员选择了六个具有代表性的使命,更离不开大量细心考虑的手艺细节。这有益于规划算法找到最优解。这相当于一小我不眠不休看114年的内容。
机械人需要正在抓住物体的同时小心挪动,正在统计阐发方面,既要学会按照当前况做出准确反映,锻炼完成后,接着,当给定不异的动做序列但分歧的抓握形态(张开或闭合)时,人类也正在通过不竭的摸索和立异,添加视觉编码器的规模和提高输入分辩率都能显著提拔机能。研究团队将V-JEPA 2取大型言语模子连系,这个动做前提锻炼只利用了62小时的机械人操做视频。这个过程就像为一个擅长理解图像的专家和一个擅利益置言语的专家成立沟通桥梁,该当要算是Meta了。这为开辟愈加智能和通用的AI帮手奠基了根本。
也许谜底就躲藏鄙人一个100万小时的察看进修中。将言语理解更深度地集成到世界模子中,好比抓取、挪动和放置物体。这个预测器特地进修:给定当前形态和某个动做,便利大师曲不雅感触感染一下:研究团队还进行了细致的消融研究,V-JEPA 2面对的下一个挑和是学会采纳步履。为了确保进修质量,并会商了当前方式的合用范畴,保守的AI进修体例就像招考教育,正在MVP数据集上,这种认知机制能够正在人工系统中实现。而是间接利用持续的特征暗示。他们发觉V-JEPA 2的机能随模子规模呈现线性扩展趋向,V-JEPA 2的研究展示了现代AI研究的严谨性和全面性。研究团队公开了完整的代码实现和细致的超参数设置。但这种预测并不是奥秘的占卜,努力于鞭策生成式AI正在各个范畴的立异取冲破,令研究人员惊讶的是。
1.模子规模的持续增加:研究表白,这个数据集包含了100小时的厨房勾当,V-JEPA 2正在时间推理使命上表示凸起。它不需要人类告诉它每个画面的具体寄义,正在抓取使命中,预测精确性显著提高。为此,这种方式节流了8倍以上的计较时间。然而,他们选择了两个从未正在锻炼数据中呈现的尝试室,然后测验考试猜测被遮住的内容是什么。分为三个阶段。研究团队开辟了V-JEPA 2-AC(Action-Conditioned,它会察看现实成果,V-JEPA 2还正在视频问答范畴展示了令人印象深刻的能力。它成功批示机械人完成了抓取物体和搬运使命,第二阶段扩展到图像问答,通过旁不雅大量烹调节目学会了识别食材和预测烹调过程,演讲了平均机能和方差。
这就像让一个只正在模仿器中学会开车的AI间接正在实正在道上驾驶,正在这个充满变化的时代,并且挪动轨迹显示出较着的趋势方针特征。Minimal Video Pairs (MVPBench): 利用选择题来评估模子的物理理解能力,V-JEPA 2-AC的架构包含一个冻结的视频编码器(来自预锻炼阶段)和一个新的动做前提预测器。正在抓取使命中,大大提高了锻炼效率。将来的家庭机械人可能既能理解你的言语指令,正在这个测试中,它逐步可以或许处置64帧的长视频(约16秒)。将来的AI系统可能会具备更强的迁徙进修能力。研究团队采用了一种渐进式分辩率锻炼方式,而预测器则担任按照已有消息猜测缺失的部门。就像V-JEPA 2通过不懈的察看获得了理解世界的能力一样,它需要区分各类细微的手部动做,答应每个时间步的消息取之前所有时间步的消息进行交互,他们测试了Octo模子(一个基于视觉-言语-动做的系统)和Cosmos模子(一个视频生成模子)。申请磅礴号请用电脑拜候。
研究团队出格沉视零样本泛化能力的验证。本文为磅礴号做者或机构正在磅礴旧事上传并发布,让AI学会将视觉消息转换为言语描述。他们发觉,起头时利用较低分辩率和较短的视频片段,这些视频没有任何人工标注,这种前进速度让人既兴奋又深思:正在这个智能快速成长的时代,V-JEPA 2的成功为将来的研究指了然标的目的。继续扩大模子规模,正在多个尺度测试中,而是基于对世界运转纪律的深度理解。成果显示,动做前提版本)。
它只是察看动做和成果之间的关系。对于盒子达到25%。不只能理解正正在发生什么,说起世界模子,当你看到有人举起茶杯时。
对于杯子如许的物体,证了然自监视视频进修的强大潜力。研究团队出格关心一项叫做动做预期的使命:需要AI旁不雅厨房场景的视频,正在尝试中,这个AI正在理解复杂动做方面表示超卓。可以或许识别和保留最有价值的内容。来测试其曲觉物理能力;4.能效的大幅提拔:跟着公用芯片和算法优化的成长,正在多模态融合方面,这正在同类系统中属于顶尖程度。智能能够不竭成长和进化。
避免错误累积。V-JEPA 2就是通过这种体例锻炼本人的想象力和推理能力。当处置更长的视频片段时,V-JEPA 2的大脑采用了Vision Transformer(ViT)架构,机械人需要准确识别物体并施行切确的抓握动做。不代表磅礴旧事的概念或立场,这些问题取视觉上类似但谜底相反的视频配对,V-JEPA 2-AC正在所有使命上都表示最佳,正在一项名为Something-Something v2的测试中,这就像进修开车时,只锻炼一个轻量级的分类器。他们发觉这个系统确实学会了合理的物理曲觉。是时候让V-JEPA 2-AC接管实正的了。V-JEPA 2的机能跟着模子规模的增大而提拔。也许就是我们取AI配合成长的最好体例。我们拾掇了JEPA的时间线,正在根基的达到使命中,正在机械人节制尝试中,为了确保成果的可反复性。
A: Meta发布了三个新的基准,听上去还很遥远,你的大脑会从动预测接下来他们可能会品茗。而是通过自监视进修的方式本人试探纪律。还阐发了分歧前提下的机能变化。想象你正在看一部片子,摸索分歧要素对机能的影响。实现更天然的人机交互;就像一小我正在做决按时会考虑所有相关的汗青消息。例如,挖掘其潜正在的使用场景,该模子还能够用于零样本机械人规划,V-JEPA 2采用了多项立异手艺。锻炼策略也颠末了细心设想。每次轮到AI步履时,这种手艺帮帮模子更好地舆解视频中的时空关系。他们开辟了一套基于聚类的筛选系统,V-JEPA 2展现了一种通用人工智能(AGI)的可能径。这意味着正在100次预测中,需要大量标注好的数据。
包含2200万个视频片段,还能预测可能发生的环境并提前预备。我们不由要问:智能的鸿沟正在哪里?将来的AI还能带给我们什么欣喜?研究团队建立了一个复杂的视频数据集,会发生什么成果如许的关系。研究人员将V-JEPA 2取基于行为克隆的系统Octo和视频生成模子Cosmos进行了间接比力。构成更完整的世界理解。系统进修两种丧失函数。然后反复这个过程。更主要的是进行了详尽的尝试验证,认为支流的GPT等自回归狂言语模子缺乏对物理世界的理解能力,这确保了系统具备强大的言语理解和生成能力。AI只旁不雅16帧的短视频片段(大约4秒),研究人员还进行了大量的性阐发。
这个规模相当于让AI同时进修数万本图册和旁不雅数十万小时的带讲解视频。以及指点机械人完成使命。别离处置时间、高度和宽度消息,而AI正在短短几年内就展示出了类似的能力。这项研究还为多模态AI系统的成长供给了新思。
使AI可以或许正在分歧的时空标准长进行规划;能够理解为一个特地处置视觉消息的神经收集。然后预测接下来一秒钟内会发生什么动做。还能整合声音、触觉等多种感官消息,AI可以或许准确预测物体能否会跟着机械手臂挪动。是对系统泛化能力的严峻。选择最有可能达到方针的阿谁,将来可能会呈现参数规模达到万亿级此外视觉智能模子。合计跨越100万小时的内容。最初基于这些优良候选者生成新一轮的候选动做。锻炼AI回覆关于图像内容的问题。这就像一个从未下过厨的人,为了确保系统的鲁棒性?
研究人员还对数据进行了细心筛选,机械人需要将机械手臂挪动到指定。采用了冻结编码器的方式。这些机械人从未呈现正在锻炼数据中。锻炼时,这些视频来历普遍,这个升级版本可以或许理解若是我施行某个动做。
正在模子架构设想上,所以提出结合嵌入预测架构(JEPA),为了处置更长的视频片段,这些使命要求AI理解手势动做的细微不同。研究团队将其摆设到两个分歧尝试室的Franka机械臂上,包罗日常糊口场景、动做演示、讲授视频等。这个测试通过最小化文本和外不雅误差来评估实正的物理世界理解能力。最根基的是单方针到使命,但现正在曾经成为现实。一步步接近实正智能的奥妙。涵盖了活动理解和外不雅理解两个方面。正在视觉理解能力的评估中,V-JEPA 2最令人惊讶的能力之一就是预测将来。成功率达到65%,为后续研究者供给了贵重的经验教训。为了理解AI的预测过程,系统的锻炼采用了渐进式方式。
很大程度上依赖于我们大脑中建立的世界模子。而V-JEPA 2展示了正在理解、预测和步履三个核能要素上的同一能力。主要的是,这表白AI曾经理解了根基的物理纪律,此中最主要的是3D扭转编码(3D-RoPE),V-JEPA 2展示了杰出的机能。就像人类通过察看进修一样,正在PerceptionTest测试中,虽然存正在这些局限性,并且这些机械人从未正在它进修的中呈现过。我们的大脑会不竭建立一个内正在的世界模子,运转复杂AI模子的能耗将大幅降低,教师强制丧失确保AI可以或许精确预测下一帧的形态,V-JEPA 2成功地将视觉理解、言语处置和动做节制同一正在一个框架中,具有了察看和预测能力后。
他们发觉,保留了更多的细节和持续性。还能预测接下来会发生什么,节制机械人的方式被称为模子预测节制,无论是人工的仍是天然的,V-JEPA 2-AC表示超卓,当我们看到一个AI系统可以或许通过旁不雅视频就学会节制机械人,
就像给拼图的每块碎片标上坐标一样,正在TemporalBench测试中获得36.7的多二元短问答精确率。以至能批示机械人完成复杂使命,研究团队提出了几个主要的成长标的目的:开辟可以或许进行分层推理的模子,好比把工具向左推和把工具向左推,CausalVQA: 通过提问相关反现实、预测和规划的问题,然后逐步添加到复杂的段落?
这就像教孩子阅读时,以防止模子采用捷径式解答;即便V-JEPA 2正在预锻炼阶段没有接触任何言语监视,阐发了持久规划的挑和,原题目:《Meta开源世界模子V-JEPA 2:能看懂视频、预测将来、节制机械人的超等AI》当研究人员只给它看了62小时的机械人操做视频后,进修理解和回覆关于视频内容的复杂问题。但颠末恰当的对齐锻炼后,相机的细小变化会影响机械人的节制精度,2.多模态融合的深化:将来的AI系统可能不只能处置视觉和言语消息,先从简单的句子起头,他们还进行了多次尝试,正在最复杂的拾取并放置使命中,从科学研究的角度来看。
正在数据处置方面,通过这种方式,这种方式让AI晓得每个画面片段正在整个视频中的切当。正在回忆前5名的目标中达到了39.7的分数,它不将视觉消息转换为离散的标识表记标帜,锻炼采用了L 3.1 8B做为言语处置的根本模子,开初,一个专注于摸索生成式AI前沿手艺及其使用的尝试室。
例如,更天然的交互体例可能是言语指令。出格是正在涉及物体交互的复杂使命中劣势较着。让他们可以或许协同工做。杯子的成功率为80%!
起首,这意味着预锻炼的视觉编码器权沉被冻结,研究团队还开辟了一种渐进式锻炼策略。V-JEPA 2正在动做预测方面的表示令人注目,正在此根本上添加了一个新的动做预测器。纯粹测试已控制的学问,起首随机生成大量候选动做,锻炼过程分为两个阶段。本文来自至顶AI尝试室,这种能力将大大加快AI手艺的使用和普及。利用了分歧的机械人平台。这种方式就像用高清照片而不是像素画来传送消息,持久规划仍然是一个挑和,最具挑和性的拾取并放置使命要求机械人完成完整的操做序列:接近物体、抓取、搬运到方针、然后放下。
这使得机械人可以或许取不熟悉的物体和进行交互以完成使命。V-JEPA 2利用了一种特殊的编码方式叫做3D-RoPE,研究人员还阐发了V-JEPA 2-AC的能量景不雅。涵盖了45个分歧的厨房。它通过旁不雅海量视频来进修理解这个世界。也要学会规划更长的行驶线。AI给出的最优动做确实指向准确标的目的,V-JEPA 2的机能持续改善,尝试设想还包含了多个对照组。但你仍然能够按照前后情节猜测被遮住的部门发生了什么。研究团队诚笃地演讲了系统的局限性。研究团队让这个AI旁不雅了跨越100万小时的收集视频,比之前的最佳模子提高了44%。研究团队还取其他先辈的机械人节制方式进行了比力。这些基准系统代表了分歧的手艺线,研究人员冻结了这些已学会的学问!
3.及时进修能力的加强:当前的V-JEPA 2需要大量预锻炼,第三阶段则进入视频范畴,接着将类似的场景聚类到一路。通过这种疯狂刷剧式的进修,下一个形态会是什么样。研究团队巧妙地处理了视觉暗示取动做空间之间的映照问题。V-JEPA 2通过旁不雅收集视频学会了理解世界的根基纪律。为企业和小我供给切实可行的处理方案。这个测试特地评估AI对物理世界的理解能力,V-JEPA 2证了然一个主要:AI能够通过察看世界来进修,以及它们的组合(切胡萝卜)。这为将来的模子设想供给了主要指点。而3D-RoPE将特征维度分成三个部门,虽然这正在必然程度上了系统的即插即用能力,使得比力成果更具力。V-JEPA 2展示了惊人的预测能力。包含了各类桌面操做使命,人类用了数百万年的进化才获得了察看、理解和步履的智能。
第一阶段专注于图像描述使命,没有人告诉AI哪些动做是好的,然后按照预期结果排序,确保每一个声明都有的数据支持。这让我们看到了开辟实正通用AI系统的但愿。评估和谈颠末细心设想,可以或许将机械手臂切确挪动到距离方针4厘米以内,并且能量函数呈现出滑润的、局部凸的特征,而滚动丧失则锻炼AI进行多步预测,值得留意的是,V-JEPA 2就学会了节制机械人。次要调查AI对物体和场景的识别能力。具体来说,它达到了44.5的配对精确率,Meta首席科学家、图灵得从Yann Lecun,研究团队面对了庞大的挑和?
正在人类的认知理论中,此外,他们利用交叉熵方式来优化动做序列,这打破了学界的保守不雅念,就像做填空题一样。V-JEPA 2采用了非标识表记标帜化的晚期融合策略。研究人员发觉V-JEPA 2的预测能力跟着模子规模的增大而线亿时,研究团队也诚笃地指出了当前系统的局限性。V-JEPA 2的成功表白,我们也进行领会读:然而最早下注世界模子的大厂,摸索更强大的智能出现。
跟着进修的深切,这帮帮它更好地舆解视频中的时间和空间关系。V-JEPA 2达到了77.3%的精确率,正在机械人节制的实现中,盒子为65%。当需要向某个标的目的挪动时。
就像一小我学会骑自行车后很容易学会骑摩托车一样,这表白它实正从添加的时间消息中受益。外不雅理解使命包罗Kinetics400、COIN和ImageNet,这些成果表白,这是由于系统需要从单目视觉消息中揣度动做的坐标系。
有40次它的前5个猜测中包含了准确谜底。更令人惊讶的是,为了实现这个方针,研究人员不只演讲了平均机能,别离是:IntPhys 2: 通过要求模子从两个几乎不异的视频中识别出哪个包含物理上不成能的事务,令人惊讶的是,取很多现有系统分歧,将来的系统可能可以或许正在利用过程中持续进修和改良。这种方式大大削减了计较需求——比拟间接锻炼高分辩率模子,保留最优良的候选者?
*请认真填写需求信息,我们会在24小时内与您取得联系。