数据分析之前提–数据质量

数据质量是什么

最近,数据分析是个热门话题。传统意义上,数据分析分两类:EDA(Exploratory Data Analysis,探索性分析)和CDA(Confirmatory Data Analysis,验证性数据分析)。EDA讲究让数据自己说话,而CDA进行分析之前一般都有预先设定的模型。

其实,数据分析和数据挖掘的重点都不在数据本身,而在于如何能够真正地解决数据运营中的实际商业问题。但是,要解决商业问题,就得让数据产生价值,就得做数据分析和数据挖掘。而在数据分析和数据挖掘之前,首先必须保证高质量的数据,完成数据质量的处理工作,即对数据的集成和处理。因此,更好的数据意味着更好的决策,否则就是GIGO-Garbage in,Garbage out.

所以,数据分析的前提就是要保证数据质量。

 

数据质量要做什么

传统的数据质量工作主要包括两方面:数据集成和数据清洗,关注的对象主要有原始数据和元数据两方面。

一、数据的集成

数据的集成主要解决信息孤岛的问题,包括两方面:

1)数据仓库对源数据的集成.

2)元数据系统对不同数据源中的元数据的集成。

相应的,数据质量管理也关注两方面:

1)对数据仓库中的真实数据的质量探查和剖析.

2)对元数据系统中元数据的数据质量的检查.

 

二、数据的清洗

数据质量处理主要是采用一些数据清洗规则(DataCleansing)处理缺失数据、去除重复数据、去除噪声数据、处理异常(但真实)的数据,从而保证数据的完整性、唯一性、一致性、精确性、合法性、及时性等数据质量

元数据的管理目标是整合企业信息资产、支撑数据在使用过程中的透明可视,提升数据报告、数据分析、数据挖掘的可信度,所以元数据的数据质量检查着重在元数据信息的唯一性、一致性、准确性的检查。

 

数据质量怎么做

一、数据质量的难点

直到现阶段,很多人还是没充分意识到数据质量的重要性,原因有:

1)数据质量问题还没有严重到影响其核心KPI的考核。

2)对数据提供团队或者数据应用团队挑出其数据质量问题,很容易被踢皮球,推卸责任,因为数据质量问题往往都是众多环节综合问题导致的结果。很多人会认为数据质量的引入会给自己的工作带上镣铐。

3)数据质量团队往往是从监控、监督的角度去开展工作,没有从数据使用者的自身价值的角度去提升数据质量,帮助数据使用者更好的从数据治理工作中获得价值,提升工作效率,增加工作的权威度和可信度,直接给数据使用者带来业务价值,从而让更多数据相关人员主动参与到数据质量的工作中来。所以,目前很多人都在谈论数据质量,却很少有人愿意有实际行动。

 

二、数据质量的提升步骤

当风险还不是一个关键问题时,设立我们的风险分析团队,对企业来说,也是一个很重要的防备举措。企业数据部门的管理高层,必须达成一个共识,综合的数据质量解决方案能给公司带来巨大价值。在此基础上,通过有计划的步骤来进行企业内部的数据质量提升:

第一步,在企业范围内,开展数据质量的相关讨论,考虑公司目标以及各方利益,形成数据质量治理的目标、方针、策略、步骤,在企业范围内,至少在数据管理和数据治理团队内部能达成广泛共识。

第二步,建立企业内部的职责和数据质量策略,建立劣质数据的经济影响和高质量数据价值的评估体系。

第三步,建立开放的数据质量管理体系,把数据质量工作从单一由数据管理团队负责的工作,转化为公司内部所有数据提供者、数据处理者、数据使用者等数据相关者的共同参与。数据相关人员,会像司机关心实时交通状况一样,关心数据质量、数据安全等数据运营过程的数据运营全景图和数据质量问题热力图,并能简单的从热力图上,很容易看到跟自身责任的相关性,并及时参与处理。

 

大数据时代对数据质量的挑战

一、 大数据时代还需要关注数据质量么

关系数据库时代,我们可以用数据仓库和商业智能的相关技术,完成数据集成、数据分析和数据展示。但大家都知道,大数据时代,数据存在4V特点:

1)  Volume:数量,数据量巨大,从TB到PB级别

2)  Variety:种类,数据类型繁多,结构化、非结构化、半结构化等多样性数据混杂

3)  Velocity:速度,处理速度快,1秒定律,跟传统数据挖掘需要漫长等待有本质不同

4)  Value:价值,价值密度低,商业价值高

 

红遍全球的《大数据时代》一书中著名的论点提到,大数据时代人们需要有三个思维方式的转变:

1)要全体不要采样

2)要效率不要精确

3)要关联不要因果

如果用“要全体不要采样”的大数据思维,所有数据统统采集过来就是,对传统概念源数据中的脏数据、错误数据、噪声数据、重复数据等都可以不用关心了。大数据时代,我们是否就真的只用关心“全量”,不用关注“质量”了呢?

恰恰相反。

大数据时代,除非某些互联网公司的某些特殊要求,比如搜索引擎利用爬虫技术,需要采集大而全的数据,其他一般的数据管理需求,如果也试图管理或控制一切非结构化的数据,是一种危险倾向。由于数据量巨大,价值密度很低,最终可能导致数据丰富,信息匮乏,浪费时间和资源在一些不重要的无关数据、垃圾数据、噪音数据上面。

在数据存储、数据分析和数据挖掘技术还没有发展到可以直接支持大数据之前,我们数据分析的样本都是在有限的高质量的数据中进行的,所以只可以容许大数据在源头的杂乱,但不能容许进入数据分析和数据挖掘的样本数据完全被大量的无关数据霸占。所以,大数据质量治理要能够支持源头的混乱无规则,重点在设计合理的丢弃规则,能快速的从数据沙漠中丢掉沙子,淘出金子。只有在取得准确、全面、及时的高质量数据的基础上,才能借由有效的分析手段,呈现出数据背后的商机或警示。否则,再好的商业模式都只是基础薄弱的空中楼阁。

大数据分析结果直接影响商业决策,所以,对大数据质量、大数据清洗技术会要求更高、更严苛。当然,不久的将来,如果发展到可以支持真正意义上全量大数据挖掘,则数据质量将主要突出体现在主数据、基本商业数据、数据安全级别较高的数据等核心数据领域。

 

二、 大数据时代的数据质量怎么做

判断数据是否有价值最直接标准是:从商业角度出发,是否有商业目标需要这些数据。面对大数据,这一点仍然可以参考。认为数据治理只是IT部门的责任,只把数据治理当成软件产品来做是很片面的想法。数据治理不光是软件,还要有相应的指导思想、目标、流程、制度、方法。

大数据治理需要一套完整的数据治理体系,需要把数据当做核心资产来运作,需要转变思想,把数据运营转变为运营数据,主动从数据中获取商业价值。

就技术而言,目前主要有三种逐渐成熟的基础技术用来支持大数据治理:

1、海量数据收集和存储技术

2、强大的计算机集群和分布式计算技术

3、数据分析和数据挖掘算法

如前面所述,源数据的数据质量判断、匹配、清洗规则,是大数据管理的首要任务,积极进行数据质量检查,可以节省很多时间和减少很多麻烦。

采集数据源种类繁多,以及采集速度要快是一个严峻挑战,因为采集过程本来就是数据质量问题的主要来源,采集数据源杂乱,采集速度又快,如果不能及时进行数据质量处理,就会导致数据质量问题的堆积,越来越严重。所以在采集环节,就必须引入实时数据质量监控和清洗技术,通过强大的集群和分布式计算能力,提高数据采集性能和数据质量监控性能,利用强大的分布式云计算技术,实现数据抽取、数据清洗以及数据质量检查工作。

数据质量监控按介入位置分体内监控和体外监控,按介入阶段分事前、事中、事后三种方式。要把数据质量问题最大化控制在源头,那么,数据质量的检查、监控过程都将是一个动态的过程,需要实时地嵌入在数据采集过程中,在采集的同时完成数据质量的清洗工作。实时数据质量监控要求所有工作都要在体内和事前/事中完成。

实时数据质量监控是一把双刃剑。一方面,大数据的特点要求数据质量要往实时监控发展,另一方面,数据质量的实时性又会加大数据采集的时间和复杂度。对于传统的一些面向用户的OLTP业务系统,对响应时效和性能要求极高,当数据质量和系统性能出现冲突的时候,还是应该优先保证系统性能,优先保证用户体验。数据质量实时监控可以先找数据安全级别要求较高(损失或影响巨大,数据风险极高)、计算规则又较快速(妙极以下)的规则来尝试,然后在实践中逐步拓展;或者找对用户体验影响不明显得业务,植入实时数据质量监控规则,通过阻断式监控,来保证数据质量。

实时数据质量监控在大数据技术架构下能做到真正的可行性。通过强大的集群和分布式计算,会大大提升数据质量检查效率,通过MapReduce的思想,把高能耗的数据质量处理工作映射(Map)成众多细小的检查工作,然后再化简(Reduce)为最后的结果。所以,工欲善其事必先利其器,要真正做到实时数据质量, 必须从技术上,转变传统的数据仓库思想和静态数据质量监控的思想,需要利用分布式的云计算技术和大力引入数据挖掘的算法,并从被动数据质量监控转变为主动数据质量监控。

数据质量系统还要能主动从数据中通过数据挖掘算法,比如常用的关联分析、聚类分析等,把潜在的有数据质量问题的离群点、关系链路找出来,规避人的视觉盲点,并能根据检查点类型和属性,利用个性化推荐规则的思想,通过匹配数据质量规则库,主动关联运行数据质量监控的指定检查规则,查看监控报告,并实时、主动的向客户和生产系统推送或反馈监控成果,供客户及时决策。实时、主动的数据质量管控,可跟实时在线的生产系统形成较好的互动,可应用于网络交易欺诈侦测等商业场景。值得注意的是,引入数据质量的主动监控思想,只是增加智能因素,但绝不是因此就忽略人参与的因素。很多时候,数据质量问题还得靠人的经验值、推断和感觉,只是人的判断有了更多的数据支撑而已。

 

数据质量团队的定位

数据质量团队是一个质检机构,又是一个咨询团队。作为质检机构,对各数据团队有监控、监督作用;作为咨询团队,又是能帮助各数据团队发现问题,分析问题,解决问题,跟数据团队一道,提升各数据团队的商业价值,实现更大的商业目标。

以前,数据质量团队更多是一个质检团队;

以后,数据质量团队更多是一个咨询团队。

让数据分析产生价值,是整个数据团队的目标;

让数据分析的数据有质量,是数据质量团队的目标。

因为数据分析的前提就是–数据质量。

标签