简谈网易大数据平台下的数据质量
发布时间:2021-11-24 12:12:40 所属栏目:大数据 来源:互联网
导读:大数据平台的核心理念是构建于业务之上,用数据为业务创造价值。大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环。但随着业务的逐渐稳定,数据质量越来越被人们所重视。 千里之堤,溃于蚁穴,糟糕的数据质量往往就会带来低效的数
大数据平台的核心理念是构建于业务之上,用数据为业务创造价值。大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环。但随着业务的逐渐稳定,数据质量越来越被人们所重视。 千里之堤,溃于蚁穴,糟糕的数据质量往往就会带来低效的数据开发,不准确的数据分析,最终导致错误的业务决策。而网易也在数据质量方面不断探索,本文将对网易有数大数据平台的子产品,数据质量中心的现状及规划方向进行简要介绍。 1背景 网易有数大数据平台对数据的全生命周期都进行了管理,从数据规划开始,到数据准备、模型的设计、模型开发采取了全链路的质量管理措施,数据质量中心是其数据治理的重要一环。 追根溯源,导致数据出现质量问题的原因有很多,总的来看,主要有业务、技术、管理、基础设施四个方面: 业务端:业务源系统变更(源系统数据库表结构变更、源系统环境变更)、业务端数据输入不规范等; 技术端:数据开发任务中各种任务的流程、参数、配置等出错; 管理端 :认知层面缺乏质量意识、缺乏有效的数据质量问题处理机制等; 基础设施:物理资源不足、基础设施不稳定等。 数据质量中心围绕着事前定义监控规则、事中监控数据生成、事后质量衡量评估三个部分建立全链路监控。能够在数据开发的过程中,及时发现脏数据,防止脏数据污染下游任务,提高质量监控效率。 数据质量中心在大数据平台所处的位置如上图所示,主要服务于开发阶段中的离线开发。而具体操作时,首先在数据质量中心创建监控任务,选择需要监控的对象,然后针对监控对象配置表级以及字段级设置监控规则。在离线开发任务中,去绑定质量监控任务,并针对质量监控配置报警。离线开发配置完成后,可以在数据质量中心查看表质量评估相关内容,包括查看质量大屏、表质量评分以及监控任务的执行趋势等。下面将分别在质量规则、质量监控任务、质量结果评估等几个方面进行介绍。 (编辑:西双版纳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |