萧箫 发自 凹非寺
【资料图】
量子位 | 公众号 QbitAI
无需文字标签,完全自监督的Meta视觉大模型来了!
小扎亲自官宣,发布即收获大量关注度——
在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫DINOv2的视觉大模型均取得了非常不错的效果。
甚至有超过当前最好的开源视觉模型OpenCLIP之势。
虽然此前Meta就发布过自监督学习视觉大模型DINO,不过这次AI识别图像特征的能力显然更进一步,准确分割出了视频中的主体:
可别以为DINOv2通过自监督学会的只有图片分割。事实上,它已经能根据不同类别、不同场景下的照片,准确识别出同种物体(狗)的头部、身体和四肢长在哪:
换而言之,DINOv2自己学会了找图像特征。
目前Meta官方不仅已经放出了开源代码,而且还给了网页版Demo试玩。有网友内涵:
什么叫开源,LLaMA,SAM,DINOv2这才叫开源!
一起来看看,DINOv2的效果究竟如何。
准确识别不同画风的同种物体
事实上,DINOv2是基于上一代DINOv1打造的视觉大模型。
这个模型参数量是10亿级,也仍然是视觉Transformer架构(ViT),但与DINO不太一样的是,这次DINOv2在数据集上经过了精心挑选。
具体来说,DINOv2构建了一个数据筛选pipeline,将内容相似的图片精心筛选出来,同时排除掉相同的图片:
最终呈现给DINOv2的训练数据图片虽然没有文字标签,但这些图片的特征确实是相似的。
采用这类数据训练出来的视觉模型,效果如何?
这是DINOv2在8个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。
可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。
实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2也能准确识别它们的特征,并分到相似的列表中。
如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:
而且从PCA(主成分分析)图像效果来看,DINOv2不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。
换而言之,DINOv2能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。
目前DINOv2已经放出Demo,我们也试了试它的实际效果。
Demo直接可玩
官网已经开放语义分割、图像检索和深度估计三大功能的试玩。
据Meta介绍,这几个任务中,DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。
我们先来看看深度估计的效果。
值得一提的是,在效果更好的情况下,DINOv2运行的速度也比iBOT更快,相同硬件下只需三分之一的内存,运行速度就能比DINOv2快上2倍多。
这是Meta论文中与OpenCLIP在实际例子上的比较效果:
我们用这张猛男版新宝岛试一下,看起来还不错,即使是高糊图片也能比较好地估计出深度:
接下来是语义分割的效果,这里也先给出Meta论文中的数据对比情况:
这里也给出OpenCLIP和DINOv2的对比,中间的图片是OpenCLIP的效果,右边是DINOv2分割的效果:
我们也用一张办公室的图片试了一下,看起来DINOv2还是能比较准确地分割人体、物体的,但在细节上会有一些噪点:
最后是图片检索。
官网上给出的图片效果还是挺不错的,输入铁塔照片,可以生成不少含铁塔的相似艺术图片:
这里我们也试了试,输入一张华强买瓜,给出来的艺术图片大多数与西瓜有关:
那么,这样的自监督视觉大模型可以用在哪里?
从Meta给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:
除此之外,如同扎克伯格所说,DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:
可以被用于制作更具沉浸感的元宇宙。
嗯,看来Meta的元宇宙路线还将继续…
标签:
萧箫发自凹非寺量子位|公众号QbitAI无需文字标签,完全自监督的Meta视觉大模型来了!小扎亲自官宣,发布即收获大量关注度——在语义分割、...
交易商品牌 产地交货地最新报价正辛烷 含量:99%南京东德化工科技有限公司沙索江苏省 南京市17000元 吨
【2023年4月19日,上海】第20届上海国际汽车工业展览会在国家会展中心(上海)开幕,个性化定制汽车品牌超境汽车震撼亮相,携手长城炮重磅发布
预告中国煤炭工业协会定于2023年5月17-18日召开煤炭行业质量提升与标准化发展大会,总结近年来煤炭行业质量提升与标准化工作进展,提出下阶段
沪深交易所2023年04月18日公布的交易公开信息显示,西藏天路因成为当日跌幅偏离值达7%的证券而登上龙虎榜。
格隆汇港股全天表现低迷,恒生科技指数跌1 21%,恒指、国指分别跌0 63%和0 75%。南下资金全日净流入37 39亿
小区双公园环绕,坐拥城市绿肺,奢享双水岸生态栖居。本期《冀房有约》第67期直播将带领各位网友走进邯郸碧桂园翡翠郡项目,全景式、沉浸式体
今年一季度中国经济运行情况发布后,有国内外金融机构经济学家指出,今年一季度,中国宏观经济发展呈现出诸多亮点,包括消费反弹、服务业和基
1、风声雨声读书声声声入耳风声雨声读书声声声入耳歌声琴声音乐声声声开怀大事小事大家事事事烦恼风声雨声读书声声声入耳风声雨声读书声声声入
□自2023年4月17日24时起,国内汽油、柴油价格每吨分别提高550元和525元。本次调价是今年最大的一次幅度上调。□目前来看,多个产油国出台额外
据三星社区CameraHead近日所发帖子确认,GalaxyS22系列手机将不会获得GalaxyS23系列的360度音频录制和ExpertRAW中的5000万 1亿像素高分辨率拍
1、调料有粗盐、细盐、高度数白酒(如56度二锅头)、花椒、八角、老姜、桂皮、陈皮。2、调料的种类和用
近日,江苏省文化和旅游厅公布了2023年度江苏省“最美公共文化空间”打造对象名单及优秀群众文化团队培育对象名单,苏州新增18处“最美公共...
4月18日,据上海久事大鲨鱼官方微博:上海男篮发布公告,宣布对阵深圳马可波罗的比赛因故取消。已经购票的观众无需任何操作,
去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。据报道,ChatGPT在开放试用的
目前宝马全新i7M70xDrive车型已在海外市场首发亮相,新车计划将于今年下半年上市开售,也可视其为i7高性能顶级旗舰车型。同时,新车也有望在今
根据此前爆料的消息,iPhone15Pro的一大看点是升级固态按键,不过新的爆料称,iPhone15Pro将无缘固态按键了。据知名苹果分析师郭明錤消息,iPh
角羁小小未多知,但识堆盘果实奇。星女机边榴粲粲,炎官繖底柿累累。绿皱紫壳如拳栗,玉液金肌似碗梨。愿得仙翁千岁寿,长分馀颗及孙儿。—...
江歌妈妈诉网暴者案一审宣判:被告人被判二年三个月,人民政协网是由人民政协报社主办,全方位报道国内外重大新闻和各级统战、政协工作最新动态
1 公告基本信息基金名称广发睿合混合型证券投资基金基金简称广发睿合混合基金主代码014734基金管理人名称广发基金管理有限公司公告依据《广发
1、1)首先是对材料进行检验,杜绝不合格材料进入拌合现场;(2)严格控制配合比,每天进行2次碎石含水量分析,以便确定拌合
南安市气象台发布雷电黄色预警【Ⅲ级 较重】【2023-04-18】
门头沟区下清水村,俯瞰清水花谷。资料图片 新京报记者王颖摄早晨天刚亮,65岁的王进军就起了床。洗漱完毕,走出屋外,他
中钢网其他新闻资讯频道提供钢材行业其他新闻资讯,中钢网-免保证金、免手续费、零风险、零成本钢材现货交易平台,买卖钢材,就上中钢网。
中国建筑(601668)4月17日晚间披露年报,2022年实现营业收入20550 52亿元,同比增长8 6%;净利润509 5亿元,同比下降1 2%;基本每股收
第一时间提供各大券商研究所报告,最大程度减少个人投资者与机构之间信息上的差异,使个人投资者更早的了解到上市公司基本面变化。
近日,甘肃酒泉经济技术开发区消防救援大队开展了全民国家安全教育日普法宣传活动,积极营造人人关心、关注消防的良好氛围。消防宣传人员走进
投资者可以在交易所互动平台上通过提问方式了解部分公司更及时(每月10日、20日、月末)的股东户数信息。证券时报•数据宝统
光谷试点营商新政打造生物医药产业先行区---湖北日报讯(记者刘畅、通讯员宋茂远)“没想到现在许可检查这么方便,线上就可以完成。”4月17...
杭州一夜市。新京报贝壳财经记者覃澈摄夜幕降临,华灯初上,杭州一家夜市随着人流涌入逐渐热闹起来。街道两旁的摊位上各地特色美食满是诱惑,
Copyright © 2015-2022 北冰洋服装网版权所有 备案号:沪ICP备2020036824号-3 联系邮箱:562 66 29@qq.com