模型可以在脏数据上进行学习,但这会大大降低其准确性。如果在将信息输入模型之前没有对其进行清理,那么很有可能产生错误的结果 - 比如远离事实的预测。
因此,为了保证模型准确工作,
消除数据样本中出现的错误和不一致性;
将数据转化为统一的形式,例如,合并相同的特征;
填写缺失值,删除重复值;
摆脱噪音和异常值——与大多数值截然不同的随机值。
另请阅读
Alisa Radchenko:“我以前是一名会计,现在在 MTS 做数据分析师”
数据中的错误类型有哪些?
通常信息包含在特殊的存储设施——数据库中。它们可以 电话号码库 按照不同的方式排列,但大多数情况下数据库中的实体可以分为两类:
记录——表中的行,由一组特征组成的一些对象;
特征是表格单元格中描述对象某些特性的值。
例如,我们有关于用户 misha 的记录。此条目是表中的一个行,其中包含用户 misha 的所有属性。标志可以是昵称、年龄、性别、活动数据等等。他们一起录制了这张唱片。
数据错误可以是属性特定的,也可以是记录特定的。对于每个类别,都区分了几种常见的“污染”类型。
数据质量问题
事实上,潜在的问题比文章中描述的还要多。我们仅考虑了最常遇到的问题。来源
记录有错误。在整个记录级别,可能出现四种类型的错误: