">

什么是“脏数据”,如何治污减排?

企业数据对于业务成功至关重要。世界各地的公司都了解这一点,并利用Snowflake等平台充分利用来自各种来源的信息流。然而,这些数据往往会变得“脏”。从本质上讲,在管道的任何阶段,它都可能失去准确性、可访问性和完整性(等等)等关键属性,变得不适合组织最初针对的下游使用。

“有些数据在客观上可能是错误的。数据字段可以留空,可以提供拼写错误或不准确的姓名、地址、电话号码以及重复信息……这些都是一些示例。但是,该数据是否可以归类为脏数据在很大程度上取决于上下文。

例如,完成零售店销售不需要丢失或不正确的电子邮件地址,但希望通过电子邮件联系客户以发送促销信息的营销团队会将相同的数据归类为脏数据,”Gartner 研究总监 Jason Medd 说道。  

此外,不及时和不一致的信息流也会增加组织内的脏数据问题。后者尤其发生在合并来自使用不同标准的两个或多个系统的信息的情况下。例如,如果一个系统将名称分类为单个字段,而另一个系统将它们分成两个,则只有一个被认为是有效的,而另一个需要清理。

脏数据的来源

总的来说,整个问题归结为五个关键来源:

人们

正如 Medd 所解释的,脏数据可能由于输入时的人为错误而发生。这可能是输入数据的人的工作质量低劣、缺乏培训或角色和职责定义不明确的结果。许多组织甚至不考虑建立以数据为中心的协作文化 

流程

流程监督也可能导致出现脏数据的情况。例如,定义不明确的数据生命周期可能导致跨系统使用过时的信息(人们随着时间的推移改变号码、地址)。由于缺乏关键数据捕获点的数据质量防火墙或缺乏明确的跨职能数据流程,也可能存在问题。

技术

诸如编程错误或维护不善的内部/外部接口等技术故障会影响数据质量和一致性。由于系统碎片,许多组织甚至可能错过部署数据质量工具或最终保留相同数据的多个不同副本。

组织

除其他外,更广泛的组织级别的活动(例如收购和合并)也可能破坏数据实践。这个问题在大型企业中尤为常见。更不用说,由于此类组织的复杂性,许多职能领域的负责人可能会求助于在孤岛 中保存和管理数据。

治理

确保对数据资产的权威和控制的治理差距可能是质量问题的另一个原因。未能设置数据输入标准、指定数据所有者/管理员或针对数据的规模、速度和分布制定不完善的政策的组织最终可能会导致第一方和第三方数据拙劣。广告

“数据治理是决策权的规范和问责框架,以确保在数据的估值、创建、消费和控制中的适当行为。它还定义了一个政策管理框架,以确保整个业务价值链的数据质量。管理脏数据不仅仅是一个技术问题。它需要人员、流程和技术的应用和协调。数据治理不仅是识别脏数据的关键支柱,也是确保问题得到持续纠正和监控的关键支柱,”Medd 补充道。

脏数据给企业带来的负面影响

无论来源如何,数据质量问题都会对下游分析产生重大影响,从而导致糟糕的业务决策、效率低下、错失机会和声誉受损。也可能存在较小的问题,例如多次向同一系统中记录不同姓名的客户发送相同的通信消息。 

所有这些最终都会转化为额外的成本、人员流失和糟糕的客户体验。事实上,Medd 指出,糟糕的数据质量每年平均会给组织造成 1290 万美元的损失。IDC 数据集成和情报研究主管 Stewart Bond 也持有相同观点,指出他所在组织最近的数据信任调查发现,低水平的数据质量和信任对运营成本的影响最大。

应对数据质量挑战的关键措施

为了保持数据管道的清洁,组织应建立一个可扩展且全面的数据质量计划,涵盖战术数据质量问题以及资源和业务目标对齐的战略方面。正如 Medd 所解释的,这可以通过建立一个以现代技术、指标、流程、政策、角色和责任为支撑的坚实基础来实现。 广告

“组织通常将数据质量问题作为单个业务部门的单点解决方案来解决,这些问题最为突出。这可能是数据质量计划的一个很好的起点。但是,这些解决方案经常关注特定的用例,并且经常忽略更广泛的业务环境,这可能涉及其他业务部门。对于组织而言,拥有可扩展的数据质量计划至关重要,这样他们才能在经验和技能方面取得成功,”Medd 说。

简而言之,数据质量计划必须有六个主要层:

定义

作为其中的一部分,组织必须定义该计划的更广泛目标,详细说明他们计划在扫描仪下保留哪些数据,哪些业务流程可能导致不良数据(以及如何)以及哪些部门最终会受到影响那个数据。然后,组织可以根据这些信息定义数据规则并指定数据所有者和管理者来承担责任。

一个很好的例子可能是客户记录。旨在确保营销团队使用的唯一且准确的客户记录的组织可以制定规则,例如从新订单中收集的所有地址和姓名在放在一起时应该是唯一的,或者应该根据授权数据库验证地址。 

评估

一旦定义了规则,组织必须使用它们来检查新的(源头)和现有数据记录的关键质量属性,从准确性和完整性到一致性和及时性。该过程通常涉及利用定性/定量工具,因为大多数企业处理来自不同系统的大量信息。

“市场上有许多数据质量解决方案,从特定领域(客户、地址、产品、位置等)到根据定义好数据的规则发现坏数据的软件。还有一组新兴的软件供应商正在使用数据科学和机器学习技术来发现数据中可能存在的数据质量问题。不过,第一道防线是为数据输入制定数据标准,”IDC 的 Bond 指出。

分析

在评估之后,必须对结果进行分析。在这个阶段,负责数据的团队必须了解质量差距(如果有的话)并确定问题的根本原因(错误输入、重复或其他任何问题)。这表明当前数据与组织目标的原始目标相差多远,以及需要做什么。

清理

找到根本原因后,组织必须制定和实施解决手头问题的计划。这应包括纠正问题的步骤以及与政策、技术或流程相关的更改,以确保问题不再发生。请注意,执行这些步骤时应考虑资源和成本,并且某些更改可能比其他更改需要更长的时间才能实施。

控制

最后,组织必须确保更改保持有效并且数据质量符合数据规则。应在整个组织内推广有关当前标准和数据状态的信息,培养协作文化以持续确保数据质量。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:
标签: ,


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸

X