77百科网
当前位置: 首页 生活百科

数据清洗需要掌握什么知识(关于数据清洗那些事儿)

时间:2023-08-19 作者: 小编 阅读量: 2 栏目名: 生活百科

关注小聚,数据分析不迷路

在数据化运营过程中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理,该过程就是数据预处理。

数据预处理是其中的重要环节,它直接决定了后续数据工作的质量和价值输出。‍

人们通常认为,数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别,也是表现专业和业余之间的差别。就像为度假做好事先准备一样,如果你提前将行程细节确定好,就能够预防旅途变成一场噩梦。

数据预处理流程

首先我们知道,数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。

可以用这些逐步检测并优化提升数据质量,不是每次预处理都需要做这些所有步骤,视数据情况挑选若干即可。

由于在数据分析过程中主要涉及的是数据清洗,所以本文详细讲解这一部分,那么数据清洗有哪些铁则或者经验呢?小聚这里整理如下:

数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,补足缺失值、去除异常值,纠正错误。

一.去重

不管是外部回溯数据还是在自己数据库中拉取的数据,可能由于存储逻辑等问题,会出现很多重复数据,重复数据属于冗余数据,拿到数据所要做的第一步就是检查是否有重复数据,若有,则需要进行去重处理,在python中可以使用duplicates()函数。

二.处理异常值

异常值的定义是与均值的偏差超过两倍标准,但是在脏数据中,异常值的情况不止这一种:

1)比如一列数据你打开看全部是数字,当你把它当数值型处理,它会报错;那就得仔细查找原因,遇到比较多的情况是一列数字中夹杂了几个奇怪的字符串或者符号等元素,如果几万条数据中只有一两个这种字符,即使认真从前到后仔细查看也很难发现还浪费大量时间,效率极低。

还有一种情况比较常见,就是看起来是数字,实际上都是字符串的形式,但是以表格查看的时候是看不到字符串的引号;这两种情况可以通过查看特征类型来提前发现,在python中用type()或者dtypes()函数,两者使用对象有差别,可自行了解;

2)几种常用异常值检测方法:

  • 3σ探测方法

3σ探测方法的思想其实就是来源于切比雪夫不等式。

对于任意ε>0,有:

当时,如果总体为一般总体的时候,统计数据与平均值的离散程度可以由其标准差反映,因此有:

  • 一般所有数据中,至少有3/4(或75%)的数据位于平均2个标准差范围内。
  • 所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
  • 所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。

所以如果我们一般是把超过三个离散值的数据称之为异常值。这个方法在实际应用中很方便的使用,但是他只有在单个属性的情况下才适用。

  • z-score

Z-score是一维或低维特征空中的参数异常检测方法。该技术假定数据是高斯分,异常值是分布尾部的数据点,因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数点z i的设定阈值Zthr:

其中xi是一个数据点,μ是所有点xi的平均值,δ是所有点xi的标准偏。然后经过标准化处理后,异常值也进行标准化处理,其绝对值大于Zthr:

Zthr值一般设置为2.5、3.0和3.5。该技术是使用KNIME工作流中的行过滤器节点实现的。

这种异常值处理需要结合最终需求来决定怎么处理,常见的是不处理或者按缺失值的方法处理,但是在实际场景中,异常值有时候会有非常突出的表现,比如在现金贷业务中,异常值中的坏账率远高于整体坏账水平或其他区间坏账水平,这时候异常值就得保留并作为决策阈值的参考值。

  • IQR

观察箱型图,或者通过IQR(InterQuartile Range)计算可以得到数据分布的第一和第四分位数,异常值是位于四分位数范围之外的数据点。

这个方法真的很简单,因为只需要给数据排个序就行了,显然过于笼统,但在实际场景中,观察箱型图仍然是一个很好的探索数据分布的方法。

毕竟,所有复杂的探索,都是从最开始简单的探索一步步得来的嘛!

三.缺失值处理

数据缺失通常有两种情况:

  1. 一种是数据行记录的缺失,这通常是数据记录丢失,很难找回;
  2. 另一种是数据列值的缺失,可能由于某些原因,导致的数据不完整。

这里主要讨论数据列植的缺失情况,通常有如下4种处理思路:

  • 丢弃

这种方法最简单明了,直接删除整行或者整列带有缺失值的记录。但是这种丢弃意味着会减少数据特征,弊端也十分明显。

如下情况,不宜直接使用丢弃的方法:

数据集总体存在大量数据记录不完整情况而且比例较大,比如超过10%,此时删除这些缺失值,就意味着会损失过多的有用信息。

带有缺失值的数据记录大量存在着明显的数据分布规律或特征,比如带有缺失值的数据记录是我们的目标标签主要集中在一类或者几类中,如果此时删除这些数据记录,将会使得对应类别的数据样本丢失大量数据,导致模型过拟合或者分类不准确。

  • 补全

相对于丢弃而言,补全则是一种更加合理的处理方法。通过一定的方法将缺失的数据补上,从而形成完整的数据记录。

常用的补全方法有:

统计法:对于数值型数据,可以使用均值、加权平均值、中位数等方法补全;而对于分类型数据,一般会是用类别众数最多的数值补足。

模型法:更多的时候,我们会基于其他字段,将缺失字段作为目标变量进行预测,从而达到最为可能的补全值。

专家补全:对于一些专业性非常强的数据,可以通过自学业界专家,来补全缺失数据,这种方法在很多情况下也是一种非常重要的补全途径。

其他方法:例如随机法、特殊值法,多重填补法等。

  • 真值转换法

在某些情况下,我们可能无法得知缺失值的分布规律,而且也无法应用上面的方法进行补全;或者我们认为当前的缺失记录也是数据的一种规律,不应该轻易的对缺失数据进行处理,那么此时就可以使用真值转换法来处理。

这种方法的观点是,我们承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分看待,将变量的实际值和缺失值都作为输入维度参与后续的数据处理和模型计算中。但是真实值是可以直接参与计算的,缺失值通常无法参与运算,因此需要对缺失值进行真值转换。

  • 不处理

对于缺失值,不做任何处理,也是一种处理缺失值的思路。这种方式主要取决于后续的模型运算,很多模型对于缺失值有容忍度或灵活的处理方法,因此在数据预处理阶段可以不作处理。

预处理小tips

非需求数据清洗

这一点说起来非常简单:把不要的字段删了。但实际操作起来,有很多问题,例如:

把看上去不需要但实际上对业务很重要的字段删了;某个字段觉得有用,但又没想好怎么用,不知道是否该删;一时看走眼,删错字段了。

前两种情况我给的建议是:如果数据量没有大到不删字段就没办法处理的程度,那么能不删的字段尽量不删。第三种情况,请勤备份数据……

关联性验证

如果你的数据有多个来源,那么有必要进行关联性验证。例如,你有汽车的线下购买信息,也有电话客服问卷信息,两者通过姓名和手机号关联,那么要看一下,同一个人线下登记的车辆信息和线上问卷问出来的车辆信息是不是同一辆,如果不是,那么需要调整或去除数据。

严格意义上来说,这已经脱离数据清洗的范畴了,而且关联数据变动在数据库模型中就应该涉及。但我还是希望提醒大家,多个来源的数据整合是非常复杂的工作,一定要注意数据之间的关联性,尽量在分析过程中不要出现数据之间互相矛盾,而你却毫无察觉的情况。

END

聚数学院年末大福利来啦,

小聚整理汇总了官方B站所有视频相关配套资料

现在 免费送!!

关注同名公众号,免费送

    推荐阅读
  • 男生过生日送什么礼物(男生生日适合送的礼物推荐)

    男生过生日送什么礼物实用的东西送礼物我们都希望收到一些比较实用的东西,因为即使对方不送,自己也是要花钱买的,所以是很好的一个礼物选择。有纪念意义的东西每一对感情都有自己独特的味道和不同的相处模式,两个人在一起久了也会有一些些人看不懂的默契等等,因此纪念就变得特别重要。

  • 新家具美国关税(从洗脸池到婴儿床)

    听证会第一天,美国服装制造商、给排水系统设备行业协会、儿童用品制造商等企业和行业协会的代表纷纷在会上陈情,反对对中国输美商品加征关税。斯坦科布17日在听证会上代表这些企业陈情,要求美国政府免除对中国进口的洗脸池、水龙头等产品加征关税。许多代表表示,关税一旦实施就会给美国消费者的生活带来实际的影响。包括本轮听证会在内,自去年5月以来,美国贸易代表办公室涉及对中国商品关税的听证会已经举行了四轮。

  • 抖音视频剪辑怎么做 抖音视频剪辑怎么做不会提示搬运

    抖音视频剪辑制作的方法是:1、首先打开抖音APP,然后点击屏幕中央的“加号”图标。抖音是由今日头条推出的一款短视频分享APP,于2016年9月上线,是一个专注于年轻人音乐短视频创作分享的社区平台。抖音应用人工智能技术为用户创造多样的玩法,用户可以通过这款软件选择歌曲,拍摄音乐短视频,形成自己的作品。

  • 炒米和炒薏米(炒薏米水)

    材料做法1:生薏米放入炒锅中以小火炒至表皮焦黄。差不多花45分钟至1小时才能炒至变黄色,可一次过炒多些,然后放入密封瓶里储存。

  • 朔州公交什么时候有(朔州最全出行指南)

    朔州公交改线了,大西高铁开通了,朔州飞机场选址了,在朔州,出行怎能少得了此宝典?一条微信在手朔州出行——不愁!

  • 星汉灿烂花絮扯证(星汉灿烂现潘嘎之交)

    为听八卦,程少商前往皇甫大夫的住处,没想到凌不疑和袁慎也在,也正是在此,楼垚宣布了与程少商订婚的事情,彻底乱了两个男人的心绪。为阻止楼垚与程少商多相处,袁善见以考校功课为由,打听楼垚与程少商的事,直言程少商不是好相与的角色,小心折损家族与自身,把程少商贬成了心机深沉之辈。

  • 数九要冷多少天(数九要冷几天)

    接下来我们就一起去了解一下吧!数九的意思就是数九天,一共有9个九天,数到九九八十一的时候就出九了,数九,又称冬九九,是民间一种计算寒天与春暖花开日期的方法,根据往年的经验来说,“三九”时最冷,是一年中最冷的时段,当数到九九八十一的时候就出九了,此刻便是春深日暖、万物生机盎然的时刻,也是春耕的时候了。

  • 宝安滴滴俱乐部在哪里(围猎滴滴)

    导火索在于,位于行业龙头位置的滴滴,眼下处于监管危机,产品下架,并暂停新用户注册。AI蓝媒汇获得的一个北京滴滴司机7月7日流水显示,该司机在当天完成21单,在线时长11小时,单日流水接近600元。同月,哈啰出行也正式在纳斯达克递交赴美上市招股书。但在滴滴上市引发的监管风波之后,在网络数据安全已经被提到了至高位置的当下,嘀嗒出行们的上市进程或存在不小变数。

  • 秤锤树的功效与作用 秤杆树的功效与作用

    秤锤树是中国境内一种特有植物,也是国家的重点保护对像,它是一种落叶小乔木,是安息香科植物的一种,长成后高度在三到七米之间,这种植物的独特之处就是在于花果全部下垂,是一种很奇特的自然景观。秤锤树的功效与作用1、秤锤树可以供人观赏秤锤树是中国的二级保护植物,是国内特产树种,这种植物不但树形优美,可以供人观赏。

  • 溢脂性脱发会遗传吗 溢脂性脱发会遗传吗?

    溢脂性脱发可能会遗传,脂溢性脱发与遗传因素是有一定关系的。在平时如果经常喜欢吃一些油腻性的食物,或者长时间熬夜之后导致体内内分泌紊乱,也会出现脂溢性脱发的症状,会伴随皮疹的瘙痒以及头皮屑增多等表现,甚至也会导致头发掉落。在得了脂溢性脱发之后,通常需要在医生指导下合理使用抑制雄性激素分泌类的药物进行治疗,比如非那雄胺,能够减轻头发出现的脱落症状。