77百科网
当前位置: 首页 生活百科

imagenet测试的错误率(ImageNet验证集6标签错的)

时间:2023-08-01 作者: 小编 阅读量: 1 栏目名: 生活百科

MIT、Amazon的一项研究表明,ImageNet等十个主流机器学习数据集的测试集平均错误率高达3.4%。标签错误可能是由于未遵循该数据集的相关说明和手写歧义引起的。ImageNetImageNet数据集是机器学习研究中最常用的数据集之一。20news20Newsgroups数据集是由发布到Usenet新闻组的文章的集合,一共涉及20种话题。研究者指出一些标签错误是因为标签混乱、人为错误以及音频检测差异造成的。

机器之心报道

编辑:张倩、小舟

把老虎标成猴子,把青蛙标成猫,把码头标成纸巾……MIT、Amazon 的一项研究表明,ImageNet 等十个主流机器学习数据集的测试集平均错误率高达 3.4%。

我们平时用的机器学习数据集存在各种各样的错误,这是一个大家都已经发现并接受的事实。为了提高模型准确率,有些学者已经开始着手研究这些数据集中的错误,但他们的研究主要集中在训练集,没有人系统研究过机器学习测试集的误差。

众所周知,测试集是我们拿来衡量机器学习模型性能的基准。如果测试集错误百出,我们得到的性能数据也会存在很大偏差。

在一篇新论文中,麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。

论文链接:https://arxiv.org/pdf/2103.14749.pdf

下图 1 显示了各数据集中存在的错误示例:

为了向所有人展示这些错误,帮助改进数据集,研究者还做了一个专门的归类网站。

网站地址:https://labelerrors.com/

该网站列出的错误主要包括三种类型。第一种是标错的图像,如码头被标记成纸巾。

第二种是被标错的文本情感倾向,如亚马逊的商品评价本来是消极的,但被标成积极的。

第三种是被标错的 YouTube 视频的音频,如爱莉安娜 · 格兰德的高音片段被标记成口哨。

论文作者在研究中发现了一个有趣的现象:ResNet-18 这类比较简单的模型错误率要低于 ResNet-50 这种更为复杂的模型,这取决于不相关数据(噪声)的普遍性。因此,作者建议,如果你的数据集标签错误率高达 10%,你可以考虑使用较为简单的模型。

为了方便大家复现论文结果并在自己的数据集中找到标签错误,研究者还在 GitHub 上开源了他们用到的 Python 包(cleanlab)。

项目地址:https://github.com/cgnorthcutt/cleanlab

参与调查的十大数据集

下表一显示了研究者本次调查的十个数据集以及它们的测试集错误率。

以下是这些数据集的详细信息,从它们的标注过程我们看出标签出错的一些可能原因:

MNIST

MNIST 数据集是是美国国家标准与技术研究院收集整理的大型手写数字数据库,最早是在 1998 年 Yan Lecun 的论文中提出的。该数据集包含了 0-9 共 10 类手写数字图片,每张图片都做了尺寸归一化,都是 28x28 大小的灰度图。该数据集的 ground-truth 标签是通过将数字与任务的指令相匹配来确定的,以便于复制一组特定的数字。标签错误可能是由于未遵循该数据集的相关说明和手写歧义引起的。

CIFAR-10 和 CIFAR-100 数据集

CIFAR-10 和 CIFAR-100 数据集分别由 10 类和 100 类 32 × 32 图像组成。这两个数据集通过在互联网上搜索类别标签来收集图像。人工标记时通过过滤掉标签错误的图像,来选择与类别标签匹配的图像。标记器仅根据图像中最突出的一个实例来赋予标签,其中允许该实例有部分遮挡。

Caltech-256

Caltech-256 数据集是一种包含图像和类别的数据集,其中的图像是从图像搜索引擎中抓取的,人工标记时将图像评定为 good、bad 和 not applicable,从数据集中过滤掉遮挡过度、混乱,以及非物体类别示例的图像。

ImageNet

ImageNet 数据集是机器学习研究中最常用的数据集之一。该数据集通过在几个图像搜索引擎上查询 WordNet 同义词集(synset)中的单词来抓取图像。这些图像由 Amazon Mechanical Turk 的工作人员标记,他们要检查这些图像是否包含特定同义词集中的对象,过滤掉对象混乱、遮挡过度的图像,并确保数据集的图像多样性。

QuickDraw

QuickDraw 涂鸦数据集是一个包含 5000 万张图画的集合,分成了 345 个类别,这些图画都来自于 Quick, Draw! 游戏的玩家。这些图像带有一些元数据标注,包括玩家被要求绘画的内容等。该数据集可能存在图像不完整、标签不匹配等情况。

20news

20 Newsgroups 数据集是由发布到 Usenet 新闻组的文章的集合,一共涉及 20 种话题。该数据集常被用于对文本分类和聚类图像模型进行基准测试。其中每个样本的标签是最初发布的新闻组(例如 misc.forsale),该标签可以在数据收集过程中获得。

IMDB

IMDB 大型影评数据集是情感分类数据集,用于二元情感分类。其中的标签是由用户的评价决定的:满分 10 分,分数≤ 4 被视为否定,分数≥ 7 被视为肯定。

评价中表示这是一部值得看的作品,但 IMDB 数据集给出的标签是负面的。

Amazon Reviews

Amazon Reviews 数据集是来自亚马逊客户的文本评价和 5 星级评级的集合,通常被用于基准情感分析模型。

AudioSet

AudioSet 数据集包含 632 类音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频),被称为声音版 ImageNet。研究者指出一些标签错误是因为标签混乱、人为错误以及音频检测差异造成的。

如果测试集错误太多,大模型未必好用

在估计了各个测试集的错误率之后,研究者利用 ImageNet 和 CIFAR-10 作为案例研究了测试集标签错误对基准稳定性造成的影响。

虽然这些基准测试数据中存在很多错误标签,但研究者发现,在移除或修正这些错误之后,基准中的模型相对排名并没有受到影响。但他们也发现,这些基准结果是不稳定的:与参数较少的模型(如 ResNet-18)相比,容量较大的模型(如 NasNet)在预测结果中更加能够反映这些系统性标签错误的分布,而且这种效应随着测试标签错误普遍性的增加而变得更加明显。

这不是传统的过拟合。更大的模型能够更好地泛化至测试数据中给定的噪声标签,但这是有问题的,因为在标签修正之后的测试数据上进行评估时,这些模型给出的预测结果比不上那些容量较小的模型。

在存在大量标注错误的现实世界数据集中,小容量模型可能比大容量模型更有用。举个例子,从基于原始给定标签的测试准确率来看,NasNet 似乎要优于 ResNet-18,但如果用标签修正之后的测试集进行测试,NasNet 的准确率其实比不上 ResNet-18。由于后者在现实中更为重要,在这种情况下,我们在现实中部署的也应该是 ResNet-18,而不是 NasNet。

为了评估流行预训练模型的基准如何变化,研究者随机并递增地删除正确标记样本,每次删除一个,直到只剩下一组原始的被错误标记的测试数据(标签得到纠正)。借助这种方法,他们只删除了 6% 的正确标记测试样本就让 ResNet-18 的表现超越了 ResNet-50。

该研究表明,如果着手纠正测试集中的标签错误或在数据集噪声较多时使用较小 / 较简单的模型,ML 从业者可能会从中受益。当然,你首先要确定你的数据集噪声是不是真的有那么大,判断方法可以在论文中找到。

参考链接:https://www.csail.mit.edu/news/major-ml-datasets-have-tens-thousands-errors

    推荐阅读
  • 宝骏7301.8l有几款(宝骏730-1.8L今日上市)

    宝骏7301.8l有几款宝骏730-1.8L今日上市现已接受预定来源:经销商供稿日期:2015-01-06宝骏730今日再推1.8L新品!君恒宝骏现已接受预定,欢迎到店咨询。免责声明汽车之家车商汇的信息内容系经销商自行发布,其真实性、准确性及合法性由经销商负责,汽车之家不提供任何保证,亦不承担任何法律责任。

  • 商鞅变法与秦朝的崛起(隐藏在大秦帝国背后的故事)

    电视剧《大秦帝国之裂变》在各大电视台上映以来得到了广泛的关注。晋国的曲沃之乱,三家分晋正是这种贵族间力量角逐所导致的。春秋时期,由于战争的频发。这与深受宗法制影响的中原诸侯国自然不同。正因如此,秦国才能够施行其他诸侯国所不能施行的深彻变法。无疑与郑国作为新封建的国家,贵族权力薄弱,有着密切的关系。直到秦国的马蹄践踏了他们的领土。

  • 散文是什么(散文的解释)

    散文是什么散文,汉语词汇,拼音是sǎnwén。一指文采焕发;二指犹行文;三指文体名。随着时代的发展,散文的概念由广义向狭义转变,并受到西方文化的影响。散文是一种抒发作者真情实感、写作方式灵活的记叙类文学体裁。“散文”一词大概出现在北宋太平兴国时期。后又泛指诗歌以外的所有文学体裁。

  • 考研真实复试现场(学生考研前VS考研后)

    没有亲身经历过可能很难体会考研道路的艰辛,如果非要用某种方式来体现的话,学生考研前后的对比照或许能够说明些什么。你以为考研前VS考研后的差别只限于女生吗?最后如果大学生考研的想法很坚定,那么选择目标院校,搜集考研资料这些当然是顺理成章的事情,如果学生意志比较软弱,那么找一个意志坚定的考研伙伴或许也是不错的选择,总之考研的道路不容易,但付出终会有收获。

  • 电流表反偏后如何解决(电流表反偏应该怎么办)

    跟着小编一起来看一看吧!电流表反偏后如何解决如发现电流表、电压表的指针均反偏,最简单的解决方法是调换电源的正负极。无论是电流表,还是电压表,引起打表的原因是:实际电流和电压超出电表的最大量程所致。

  • 印在边境遭沉重打击(印再度入侵中边境)

    近日据外媒报道,印度军队目前在四个战略山顶部署军事存在。此前,印度单方面表示中国军队目前试图从喜马拉雅边境争议地区入侵,印度这波操作无疑是为中印两国间的紧张关系又一次“助力”。针对印度单方面的指责,中国否认率先采取了上述行动,态度坚决。中方要求印度政府立即停止公然的挑衅行为,立即让本国军队撤回中印边界线,立即停止一切可能导致中印双方局势升级的行为。

  • 女扮男装的电视剧(3部女扮男装的电视剧)

    女扮男装的电视剧《新白娘子传奇》,叶童女扮男装。《新白娘子传奇》是由夏祖辉、何麒执导,赵雅芝、叶童、陈美琪等主演的古装神话剧。该剧以玉山主人的《雷峰塔传奇》和梦花馆主的《白蛇全传》为蓝本改编,讲述了白素贞与许仙之间的爱情故事。《天地奇英之花木兰》又名《排山倒海花木兰》,是由台湾影视公司与内地合拍的一部古装电视剧,由杨丽菁、宋逸民等主演。

  • 女人梦见自己开心的笑预示着什么(女人梦见自己开心的笑什么预示)

    女人梦见自己开心的笑预示着什么女人梦见自己开心的笑,预示着你基础运势极佳,象征内心有强烈的情感得到他人的共鸣。出行的女人梦见自己开心的笑,建议可如愿出外,慎防小偷。做生意的女人梦见自己开心的笑,代表虽有不顺,稍为转变可得平稳顺利。本命年的女人梦见自己开心的笑,预示着你心情不安,春秋之季不顺心,诸事宜退守。

  • 丰田亚洲龙新车报价多少(丰田家族运动前驱)

    丰田系的技术沉淀成就了不少经典车型,其家族运动“前驱”堂兄弟,丰田亚洲龙和雷克萨斯ES就是代表作品。雷克萨斯ES的外观造型,就像车型项目总设计师YasuoKajino总结为“挑衅的优雅”。新款ES车尾沉淀进化了其雷家身份,三L的灯组设计更具科技感和力量感。内饰方面相比于外观的激进,亚洲龙的内饰用料继承了丰田一贯的极致细腻,且采用了实木真皮等材料且不失科技感。AVALON国产版车型将于11月15日开启预售,广州车展可以期待。

  • 柯达胶卷的发展史(柯达签约多家制片厂)

    在ChristoperNolan和QuentinTarantino的积极游说下,柯达与多家制片厂签订了稳定协议,将继续提供电影胶片。“胶片长久以来一直是我们文化中不可分割的一部分,即使在现在这点也没有改变”,柯达执行总裁JeffClarke如是说道,“依靠这些片厂的支持,我们得以将电影胶片的生产继续下去,凭借胶片那种难以比拟饱满且独特的质感,制片人们也能更好地表达对艺术的诉求、讲述心中的故事”。自2013年富士退出电影胶片市场后,柯达已经是世上唯一继续生产电影胶片的厂商。

热门推荐

苹果hdr是什么意思(苹果手机hdr是什么意思) 含星星的王者名字八个字 带星字的王者名字 家居装修中应避免哪些注意事项(家居装修中应避免哪些注意事项的风险) 微信怎么玩红包封面(微信设置红包封面的方法) 黑枸杞和红枸杞哪个补肾效果好 黑枸杞和红枸杞哪个补肾效果好? 各种姓氏起源和来历(姓氏的起源上古八大姓) 酸笋烧牛肉怎么做(酸笋炒牛肉的做法介绍) 幼儿教师资格证考哪些科目(幼儿教师资格证要考什么科目) 淮安附近适合带孩子去的地方(假期带孩子去家门口的这些地方) 光滑地面如何直接贴瓷砖(超简单的) 正能量语录集感悟人生生活(励志的人生感悟有哪些) 醋泡芦荟如何做 醋泡芦荟的制作方法 周围神经病是什么 周围神经病是什么病,甲钴胺是干什么的? 天涯海角在哪里?(天涯海角简单介绍) 四年级上册语文呼风唤雨的课后题(部编版四年级语文上册第7课呼风唤雨的世纪同步练习) 家里有孕妇可以养狗吗 家里有孕妇可以养狗吗?从来没有打过针 刑法绑架案件相关解释有什么规定(刑法中关于绑架罪的规定) 高一期中考试总结(需要怎么分析) 幼儿园面试音乐小青蛙打呼噜(幼儿园教师面试试讲真题---音乐活动小青蛙打呼噜) 华为手机左上角麦克风怎么关(华为手机左上角出现麦克风怎么关闭)