数据空间
您当前的位置: 首页 /数据知识

全球领先的数据架构五大原则

发布时间:[2022-08-05] 来源:网络 点击量:

数据体系结构原则是一组策略,用于管理企业数据框架及其用于收集、集成、使用和管理数据资产的操作规则。数据体系结构原则的基本目的是保持企业支持性数据框架的干净、一致和可审核。而整个企业数据战略就是围绕这些原则构建的。

近年来,数据架构原则经过了一次重大改革,以适应现代数据管理系统,流程和程序。现代数据架构原则有助于支持已经高度优化的企业业务流程,并且能够推动最新的数据管理趋势为数据架构建立奠定基础。

以下是迫使全球组织对其现有数据架构进行批判性审视的数据管理趋势列表:

 从内部部署数据平台转向基于云的数据平台

 降低流处理成本,有利于实时处理而不是批处理

 预制商业数据平台被可扩展和可定制的模块化解决方案所取代

 数据重用和用于数据访问的 API

 从数据湖转向基于域的数据存储

 从预定义的数据模型转变为灵活的数据架构

在企业内部,每个用户都希望获得定期更新的干净、易于访问的数据。有效的数据架构标能够准化所有数据管理流程,以便快速将数据交付给需要的人。现有的数据架构设计需要改变,以跟上不断变化的数据管理要求。

全球企业“已经将许多新的、先进的技术平台与传统基础设施进行融合”,这些数据湖,客户分析平台或流处理等新型技术解决方案对底层数据架构的性能能力带来了巨大的压力。而现有的数据体系结构未能提供增强的支持,甚至无法维护企业的数据基础结构。

此外,随着人工智能和ML平台(网上交易支付平台)在业务分析和BI活动中的日益普及,彻底改革现有的数据架构就凸显出了重要性。与任何技术转型一样,数据架构原则“在今天的实践中得到了发展、尝试和验证”。让我们知道,数据架构与传统数据架构完全不同。

 

数据架构的五大基本原则:

随着企业数据继续呈指数级增长,全球企业正在通过实施大量数据素养和数据治理计划。但是,为了从数据中获得最大的业务价值,组织需要战略思维以及先进的技术。

为了将数据作为竞争资产,组织现在已转向基本的数据架构原则来寻求答案。本文的其余部分将重点介绍企业数据活动成功的五个基本数据架构原则:

 

数据质量 DQ)是强大的数据架构的核心要素。数据质量对于构建有效的数据架构至关重要。治理良好的高质量数据有助于构建准确的模型和强大的架构。高质量的数据还有助于提取有价值的见解。数据架构经常被忽视,它是良好数据架构的核心原则。这相关机构提醒数据质量是数据架构中最被遗忘的方面之一。

数据治理(DG)是构建数据架构的关键因素。与上述原则密切相关,DG 策略管理企业数据,无论其来源、类型或数量如何。在数据生命周期的任何时候,用户都必须知道位置、格式、所有权和使用关系,以及与数据相关的所有其他相关信息。因此数据治理策略对于数据架构的成功至关重要,因为它们在可扩展性,DQ和合规性问题上执行“看门狗”的工作。

数据来源对于定期审核是必要的。数据来源是一组关于数据的信息,它从原始来源跟踪数据,直到数据被处理为止。如果用户不知道如何收集、清理和准备数据,那么他们就不会知道底层数据架构的可靠性。

上下文中的数据是必需的元素。区分属性将一个数据实体与另一个数据实体区分开来。用户首先需要了解数据中存在的实体以及哪些属性将它们彼此区分开来。除非完成此步骤,否则用户将无法理解数据的上下文或其提取见解的角色。区分属性可帮助数据架构师理解上下文中的数据,这是数据建模的必要步骤。

需要了解每个属性的详细信息粒度。数据架构师必须确定每个属性所需的详细信息级别。数据架构需要在正确的详细级别存储和检索每个属性;因此,这是构建高性能数据架构的关键步骤。

尽管其他一些 DA 原则有助于构建企业数据体系结构,但有关它们的讨论超出了本文的范围。

 

现代大数据架构原则:

任何关于数据架构的讨论,如果不提及大数据,肯定会把一个关键方面排除在讨论之外。大数据表示 PB 级的多结构化、多类型数据,必须对其进行管理才能进行有意义的分析。以下是构建现代大数据架构的一些原则:

集中式数据管理:在此系统中,所有数据孤岛都被替换为跨职能的业务数据的集中视图。这种类型的集中式系统还支持客户数据的360度视图,并能够关联来自不同业务功能的数据。

自定义用户界面:由于数据是集中共享的,因此系统提供了多个用户友好的界面。接口类型与用途一致,例如用于 BI 的 OLAP 接口、用于分析的 SQL 接口或用于数据科学工作的 R 编程语言。

数据使用的常用词汇:企业数据中心确保通过通用词汇表轻松理解和分析共享数据。此常用词汇可能包括产品目录、日历维度或 KPI 定义,而不考虑消费类型或使用数据的类型。共同的词汇消除了不必要的争端和和解努力。

受限制的数据移动:频繁的数据移动对成本、准确性和时间有很大的影响。云或Hadoop平台为此提供了解决方案;它们都支持用于并行处理数据集的多工作负载环境。这种类型的体系结构消除了对数据移动的需求,从而优化了成本和时间投资。

数据管理:数据管理是减少用户对存储在集群中的数据访问的挫败感的绝对必要条件。数据管理步骤(如清理原始数据、关系建模、设置维度和度量)可以增强整体用户体验,并帮助从共享数据中实现最大价值。

系统安全功能:Google BigQuery或Amazon Redshift这样的集中式数据管理平台需要对原始数据实施严格的安全和访问控制策略。如今,许多技术解决方案都有助于数据架构具有内置的安全性和自助服务功能,而不会影响访问控制。

 

 

中翰软件:专注数据治理17年(http://www.jobhand.cn)

 

 

免责声明:网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。

 


发表评论 共有条评论
用户名: 密码:
匿名发表