77百科网
当前位置: 首页 生活百科

imagenet测试的错误率(ImageNet验证集6标签错的)

时间:2023-08-01 作者: 小编 阅读量: 2 栏目名: 生活百科

MIT、Amazon的一项研究表明,ImageNet等十个主流机器学习数据集的测试集平均错误率高达3.4%。标签错误可能是由于未遵循该数据集的相关说明和手写歧义引起的。ImageNetImageNet数据集是机器学习研究中最常用的数据集之一。20news20Newsgroups数据集是由发布到Usenet新闻组的文章的集合,一共涉及20种话题。研究者指出一些标签错误是因为标签混乱、人为错误以及音频检测差异造成的。

机器之心报道

编辑:张倩、小舟

把老虎标成猴子,把青蛙标成猫,把码头标成纸巾……MIT、Amazon 的一项研究表明,ImageNet 等十个主流机器学习数据集的测试集平均错误率高达 3.4%。

我们平时用的机器学习数据集存在各种各样的错误,这是一个大家都已经发现并接受的事实。为了提高模型准确率,有些学者已经开始着手研究这些数据集中的错误,但他们的研究主要集中在训练集,没有人系统研究过机器学习测试集的误差。

众所周知,测试集是我们拿来衡量机器学习模型性能的基准。如果测试集错误百出,我们得到的性能数据也会存在很大偏差。

在一篇新论文中,麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。

论文链接:https://arxiv.org/pdf/2103.14749.pdf

下图 1 显示了各数据集中存在的错误示例:

为了向所有人展示这些错误,帮助改进数据集,研究者还做了一个专门的归类网站。

网站地址:https://labelerrors.com/

该网站列出的错误主要包括三种类型。第一种是标错的图像,如码头被标记成纸巾。

第二种是被标错的文本情感倾向,如亚马逊的商品评价本来是消极的,但被标成积极的。

第三种是被标错的 YouTube 视频的音频,如爱莉安娜 · 格兰德的高音片段被标记成口哨。

论文作者在研究中发现了一个有趣的现象:ResNet-18 这类比较简单的模型错误率要低于 ResNet-50 这种更为复杂的模型,这取决于不相关数据(噪声)的普遍性。因此,作者建议,如果你的数据集标签错误率高达 10%,你可以考虑使用较为简单的模型。

为了方便大家复现论文结果并在自己的数据集中找到标签错误,研究者还在 GitHub 上开源了他们用到的 Python 包(cleanlab)。

项目地址:https://github.com/cgnorthcutt/cleanlab

参与调查的十大数据集

下表一显示了研究者本次调查的十个数据集以及它们的测试集错误率。

以下是这些数据集的详细信息,从它们的标注过程我们看出标签出错的一些可能原因:

MNIST

MNIST 数据集是是美国国家标准与技术研究院收集整理的大型手写数字数据库,最早是在 1998 年 Yan Lecun 的论文中提出的。该数据集包含了 0-9 共 10 类手写数字图片,每张图片都做了尺寸归一化,都是 28x28 大小的灰度图。该数据集的 ground-truth 标签是通过将数字与任务的指令相匹配来确定的,以便于复制一组特定的数字。标签错误可能是由于未遵循该数据集的相关说明和手写歧义引起的。

CIFAR-10 和 CIFAR-100 数据集

CIFAR-10 和 CIFAR-100 数据集分别由 10 类和 100 类 32 × 32 图像组成。这两个数据集通过在互联网上搜索类别标签来收集图像。人工标记时通过过滤掉标签错误的图像,来选择与类别标签匹配的图像。标记器仅根据图像中最突出的一个实例来赋予标签,其中允许该实例有部分遮挡。

Caltech-256

Caltech-256 数据集是一种包含图像和类别的数据集,其中的图像是从图像搜索引擎中抓取的,人工标记时将图像评定为 good、bad 和 not applicable,从数据集中过滤掉遮挡过度、混乱,以及非物体类别示例的图像。

ImageNet

ImageNet 数据集是机器学习研究中最常用的数据集之一。该数据集通过在几个图像搜索引擎上查询 WordNet 同义词集(synset)中的单词来抓取图像。这些图像由 Amazon Mechanical Turk 的工作人员标记,他们要检查这些图像是否包含特定同义词集中的对象,过滤掉对象混乱、遮挡过度的图像,并确保数据集的图像多样性。

QuickDraw

QuickDraw 涂鸦数据集是一个包含 5000 万张图画的集合,分成了 345 个类别,这些图画都来自于 Quick, Draw! 游戏的玩家。这些图像带有一些元数据标注,包括玩家被要求绘画的内容等。该数据集可能存在图像不完整、标签不匹配等情况。

20news

20 Newsgroups 数据集是由发布到 Usenet 新闻组的文章的集合,一共涉及 20 种话题。该数据集常被用于对文本分类和聚类图像模型进行基准测试。其中每个样本的标签是最初发布的新闻组(例如 misc.forsale),该标签可以在数据收集过程中获得。

IMDB

IMDB 大型影评数据集是情感分类数据集,用于二元情感分类。其中的标签是由用户的评价决定的:满分 10 分,分数≤ 4 被视为否定,分数≥ 7 被视为肯定。

评价中表示这是一部值得看的作品,但 IMDB 数据集给出的标签是负面的。

Amazon Reviews

Amazon Reviews 数据集是来自亚马逊客户的文本评价和 5 星级评级的集合,通常被用于基准情感分析模型。

AudioSet

AudioSet 数据集包含 632 类音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频),被称为声音版 ImageNet。研究者指出一些标签错误是因为标签混乱、人为错误以及音频检测差异造成的。

如果测试集错误太多,大模型未必好用

在估计了各个测试集的错误率之后,研究者利用 ImageNet 和 CIFAR-10 作为案例研究了测试集标签错误对基准稳定性造成的影响。

虽然这些基准测试数据中存在很多错误标签,但研究者发现,在移除或修正这些错误之后,基准中的模型相对排名并没有受到影响。但他们也发现,这些基准结果是不稳定的:与参数较少的模型(如 ResNet-18)相比,容量较大的模型(如 NasNet)在预测结果中更加能够反映这些系统性标签错误的分布,而且这种效应随着测试标签错误普遍性的增加而变得更加明显。

这不是传统的过拟合。更大的模型能够更好地泛化至测试数据中给定的噪声标签,但这是有问题的,因为在标签修正之后的测试数据上进行评估时,这些模型给出的预测结果比不上那些容量较小的模型。

在存在大量标注错误的现实世界数据集中,小容量模型可能比大容量模型更有用。举个例子,从基于原始给定标签的测试准确率来看,NasNet 似乎要优于 ResNet-18,但如果用标签修正之后的测试集进行测试,NasNet 的准确率其实比不上 ResNet-18。由于后者在现实中更为重要,在这种情况下,我们在现实中部署的也应该是 ResNet-18,而不是 NasNet。

为了评估流行预训练模型的基准如何变化,研究者随机并递增地删除正确标记样本,每次删除一个,直到只剩下一组原始的被错误标记的测试数据(标签得到纠正)。借助这种方法,他们只删除了 6% 的正确标记测试样本就让 ResNet-18 的表现超越了 ResNet-50。

该研究表明,如果着手纠正测试集中的标签错误或在数据集噪声较多时使用较小 / 较简单的模型,ML 从业者可能会从中受益。当然,你首先要确定你的数据集噪声是不是真的有那么大,判断方法可以在论文中找到。

参考链接:https://www.csail.mit.edu/news/major-ml-datasets-have-tens-thousands-errors

    推荐阅读
  • 增肌健身你需要掌握的几个原则(盲目撸铁不可取)

    因为肌肉的生长,身体的修复都离不开蛋白质提供能量支撑。建议,每天每公斤体重要补充1.5-2g蛋白,我们可以从高蛋白食物中获取蛋白质,比如鸡胸肉、鱼肉、蛋类、奶制品、虾肉中获取,多个时间段补充才能提升营养的吸收率,食物要保持清蒸水煮的低油盐烹饪,才能避免食物热量飙升哦!

  • 武威雷台汉墓的具体内容(武威磨咀子汉墓群)

    在磨咀子汉墓群出土的文物中最为有价值且精美的就是于1959年秋在磨咀子第十八号墓出土的鸠杖和《王杖十简》。磨咀子遗址早在2013年被确立为国家级文物保护单位。有着这样丰富独特的历史,使得河西走廊上的重镇武威拥有与众不同的吸引力。在这些出土的文物中,最为神秘的是一件造型独特状似肠胃的管状“布袋”。因此,“布袋”的用途成为一个至今未解的谜团。

  • 你还知道有哪些八字成语(八字成语你都懂得了吗)

    [中国赞]生生灯火,明暗无辄,下面我们就来聊聊关于你还知道有哪些八字成语?你还知道有哪些八字成语[中国赞]生生灯火,明暗无辄释义:人生就像灯火一样,忽明忽暗没有规律,喻指你我之间的缘分如灯火一般,总是在你明我暗之间错过。[中国赞]繁星落城,漫若浮光释义:天空中繁多的星星,落到城池上,淹没整个城市,好像是漂浮着的光芒一样。

  • 怪物猎人世界冰原接不了活动任务(怪物猎人世界冰原开启不了剧情)

    部分玩家近日反应自己点活动任务会出现错误,今天我们带来了怪物猎人世界冰原找不到任务数据解决方法,一起来看看究竟是什么原因导致的吧。怪物猎人世界冰原找不到任务数据解决方法问题症状:点活动任务,显示错误代码400-mw1,并找不到任务数据。加速器开了关关了开,就是不好使,其他任务都能接,还能联网,就是接不了活动任务。如果热点不行,就热点再挂加速器。有的加速器可以设置加速模式的,你可以换一个模式。

  • 维生素e怎么做面膜(怎样用维生素e做面膜)

    跟着小编一起来看一看吧!维生素e怎么做面膜DIY配方:天然维生素E+酸奶+蜂蜜+柠檬汁。取酸奶二匙、蜂蜜半匙、柠檬汁半匙,与来益天然维生素E调成糊状。敷面15分钟后,用温水洗净,注意最好不要用过烫或过冷的水。此法能将毛细孔里的污垢彻底清除,滋养美白,令肌肤光彩照人。

  • 出生1天的兔子怎么养(出生1天的兔子如何养)

    在幼兔的饲养过程中,也需要做好保暖,窝内应该存放一些稻草,和一些棉被,做好保暖措施。当外界温度低于5摄氏度的时侯,需要在产箱内加入一些垫子或是灯照,来补充热能。幼兔出生8天以后,需要减少窝内的垫草和毛发,一定要将小兔子的兔窝进行消毒灭菌,小兔子出生时候很容易遭受到病原菌的侵袭,导致生病的情况增多。

  • 多喝水的十个注意事项(不要再叫我多喝水啦)

    多喝水的十个注意事项“多喝水”本身没有坏处,过量喝水才有坏处。所以说,很多人不存在“多喝水”的习惯,反而是大部分人饮水量少、饮水不规律。举个例子,我们的皮肤无时不刻都处于蒸发水分的状态,尤其是夏季高温天气中,为帮助身体散热,人体通过皮肤蒸发的水分会变多,还有跑步、健身等运动之后流很多汗使得身体水分骤减,这些情况都需要注意及时补充流失水分,多喝水。

  • 炸酥肉小技巧(炸酥肉有哪些技巧)

    我们一起去了解并探讨一下这个问题吧!炸酥肉小技巧猪肥瘦肉500g,鸡蛋1个,花椒面适量,红薯粉适量,面粉适量,啤酒适量,料酒适量,盐适量。将买回来的猪肉清洗干净,切成条状吃起来比较方便拿,猪肉的选择方面,最好的是臀尖肉,肥瘦相宜,也可以选择五花肉或者里脊肉,如果喜欢吃瘦些的就可以选择瘦肉也是可以的。接着把猪肉条放进去,让猪肉均匀裹上调好的粉糊,这时候不要急着炸,让猪肉腌制半个小时,这样会更加入味。

  • 美国互联网最新动态(新型互联网骗局在美国出现)

    而当警方持枪登门调查时,受惊的赫林心脏病突发,不幸离世。巴瑞斯最终被判处20年监禁。对于这种最新网络犯罪套路,美国执法部门和各科技公司已经展开调查。据了解,美国执法部门出示的紧急征调类文件通常用于绑架、自杀、谋杀等危情,往往没有法院签字授权,因此更容易伪造。此外,害死美国公民赫林的嫌疑人当中也包括一名英国少年,因年龄原因无法引渡到美国。

  • 酸菜叶子腌制方法(怎样腌制酸菜叶子)

    酸菜叶子腌制方法取2到3颗芥菜用手将它们的叶子都掰开来清洗,中间的芥菜心直接放入水中清洗就可以了。等到芥菜叶子被晒软了之后加入适量的食用盐揉搓下,将芥菜和食用盐搅拌均匀之后放到一旁腌制大约半个小时左右的。取一个干净的坛子或者是玻璃罐子,用水清洗干净之后擦干水分,将腌制好的芥菜全部放入坛子中。再向坛子里倒入适量淘米水,没过芥菜叶子。