什么是合成数据？为什么它需要主数据管理？

发布时间:[2021-06-09] 来源:网络点击量:

合成数据（Synthetic data）是使您的业务运营平稳运行的测试数据；如果这些操作通过人工智能实现自动化，那么使用主数据管理（MDM）来确保您的决策是无偏见的，这一点非常重要。

数据生成的数据反过来又生成更多的数据。我们如何知道产生的数据是否符合业务需求策略？举例，如果一个机器人，旨在帮助我们做出明智的投资决策，或者是为我们的客户服务问题提供最佳答案，但是在处理过程中却出错了呢？

显然，从所有不同角落测试解集都很重要。随着人工智能在自动化决策过程中扮演着越来越重要的角色，确保由主数据管理（MDM）支持的机器学习操作（MLOps）从良好的可解释数据（XAI）和无偏见的数据中工作变得至关重要。

在数据投入使用之前，通常需要将其组织成数据集，以支持不同类型的测试和建模需求，以便了解应用程序、分析模型和基于人工智能的进程将如何针对这些真实世界/代表性/实验数据集执行。这就是你需要合成数据的地方。

什么是合成数据

合成数据是通过算法生成的，以补偿真实世界的数据不够丰富，数量不满足测试需求的状态。合成数据大部分来自于生产数据；合成数据通常会忠实于源信息的统计性质，而不是精确的副本。除了具有代表性的真实世界数据外，合成数据还可能包括一些数据集，这些数据集驱动“路径”来测试特定条件下系统行为的预期，并促进预测分析。

显然，为了能够提供有用的结果，合成数据需要与操作型数据具有相同的信任级别。合成数据在被人工智能应用程序使用时，应该不带有偏见性。因此，首先必须正确获取操作型或生产型数据，为合成数据生成提供良好的起点。同样重要的是确保在生产数据中通常找不到的用例可以被组装和组织起来。为此，主数据管理可以提供帮助。

什么是主数据管理(MDM)?

当我们想到主数据时，我们主要想到的是操作型数据：1.用于支持销售和服务运营的客户主数据2.采购过程中从供应商处收集的产品主数据3.建模基本运营基础设施所需的资产主数据

主数据管理（MDM）是提供业务关键信息（如客户数据）的单一、可信视图的关键驱动器。拥有可信赖的数据集成和可操作的应用程序集成可以帮助您降低成本。

使主数据既可信又有洞察力的关键在于对它有一个透明的视图。透明度源于定义数据的含义、目的和治理政策。

主数据管理定义并实施数据治理策略，以保证主数据的质量，例如：1.来源2.准确性3.一致性4.可获得性5.安全性6.可审计性7.道德性

接受业务监督，并根据业务目标进行衡量。主数据管理（MDM）可以帮助您管理数据集，以确保在生成为合成数据集时，数据集更加可靠和完整。良好的合成数据集提高了数据科学项目的能力，推动预测和机器学习产生更好的结果。

合成数据在零售业中的应用

让我们想象一下新产品的上市。销售战略布局对销售有什么影响？哪些客户群体更有可能购买它？

从数据科学的角度对产品介绍进行测试，需要获得大量好的、有代表性的数据。这将从包含现有客户和产品数据开始。这些数据的准确性和可见性是在进行任何分析之前进行测量和修正的关键。这是主数据管理（MDM）可以提供帮助的地方。

主数据管理（MDM）支持并确保客户数据策略的正确实施，包括数据完整性和高质量标准性。零售商不一定需要客户的360°全方位视图，而只需要适合特定目的的视图：创建综合数据集，以加强对新产品销售潜力的预测。

如果现实世界中的数据缺乏丰富性和数量来支持生成测试更多角落和决策路径的数据，主数据管理（MDM）可以通过管理具有更高质量的匿名客户数据集来提供帮助。

将主数据管理（MDM）中的数据规则与数据科学或机器学习（ML）项目的目标结合起来后，零售商现在能够为后续的预测分析开发适当的合成数据集。

在帮助消费者做出明智的选择方面，AI/ML正在成为客户体验中无处不在的一部分。例如，如果消费者创建一个已查看产品的集合，那么ML算法可以查看产品的属性，根据消费者的行为模式提出推介产品和服务。

人工智能与机器学习中的合成数据

合成数据管理是人工智能和机器学习的基本要求。机器学习（ML）模型需要训练。要做到这一点，他们需要数据。合成数据可以为ML提供所需的数量和用例。主数据管理（MDM）通过为可解释的AI验证提供良好的数据支持。

合成数据在金融服务中的应用

金融部门拥有大量的合成数据管理案例。例如，银行或保险数据可能包含一些非常敏感的个人可识别属性。但与此同时，金融服务公司需要与商业伙伴和监管机构共享信息。生成合成数据集可以帮助删除个人信息（也称为数据屏蔽），同时保留内部复杂数据关系的本质。在训练一个欺诈算法时，你不需要知道涉及的人的名字。然而，您需要识别一个代表可疑活动的统计模式。

在分析历史趋势时，如果要避免过去的错误，就需要生成既代表实际事件又代表假设情景的综合数据集。展望未来时，需要创建能够反映从当前趋势到未来趋势的数据集，这在设想下一个产品或服务时至关重要。

MDM将治理引入到合成数据中，以使结果可以解释

MDM的使命在于确保原始生产数据集能够产生具有代表性和有用的合成数据集。在某些情况下，可能需要MDM来掌握这些合成数据集的某些元素，以便对它们进行机器学习。虽然可以使用数据掩蔽和合成数据生成（有很多工具可以做到这一点）等技术来转换单个属性，但确保原始源的真实表示的能力可以受益于MDM应用的数据治理策略。

MDM通过实施业务流程来提高合成数据的针对性和可解释性，以确保原始信息或合成信息的管理具有代表性、连贯性、高质量和洞察力。这反过来将使人工智能更易于解释，减少偏见。

中翰软件：专注数据治理16年（http://www.jobhand.cn）

分享到： QQ空间新浪微博微信 QQ好友更多