增值数据系统：最终用户通知数据准备的架构

随着无数数据源的持续增长，对成本效益高、可扩展和有原则的技术的需求也在增长，以整合和清理大数据，以优化数据质量，从而增加其价值。来自曼彻斯特大学的计算机科学教授Norman Paton博士和计算机科学系研究员Nikolaos Konstantinou博士，正在进行增值数据系统(VADA)的研究，并探索各种自动化创建数据准备流程的技术，以开发具有成本效益的自动化端到端数据处理流程。

数据科学涉及分析和综合大量数据，探索和解决复杂问题，以便从数据中获取见解。然而，调查显示，数据科学家可以花费多达80％的时间准备分析数据。这种数据准备或数据争吵是昂贵的且劳动密集型，因为它包括许多步骤，如Web提取，源选择，数据集成和数据清洁。在每个步骤中的强烈手动参与使数据准备成为一个需要显着技能和时间的过程。

数据准备
一些数据准备方法目前正在广泛使用。这些倾向于分为三组:一组涉及编程解决方案;开发提取、转换数据并将其加载到分析平台的工作流程;以及那些使用数据的表格表示来开发转换的公司。这些数据准备工具通常提供支持类似任务的组件，例如组合数据集和重新格式化列，但它们在数据科学家如何表达这些任务方面有所不同。即使有了这些工具的支持，数据科学家也需要对过程的每个方面保持细粒度的控制。虽然在某些情况下这样做是适当的，但成本很高，可能会让人望而却步。

自动创建数据准备过程
随着组织内部和公共领域的无数数据源的持续增长，对成本效益高、可扩展和有原则的技术的需求也在增长，用于整合(解决多样性)和清理(解决准确性)大数据，以创建适合下游分析的数据集，从而从数据中获取价值。这就提出了一个问题:在多大程度上可以自动化数据准备过程的创建?曼彻斯特大学计算机科学教授Norman Paton博士和曼彻斯特大学研究员Nikolaos Konstantinou博士正在努力回答这个问题。他们正在进行增值数据系统(VADA)的研究，并探索各种自动化数据准备的技术。在自动化方法中，数据科学家描述他们需要什么，VADA软件开发一个从可用来源生成数据的计划。

随着海量数据源的不断增长，对整合和清理大数据的成本效益高、可扩展和有原则的技术的需求也在增长。

增值数据系统（VADA）
研究小组认为，在大数据时代，要想实现第5个V(价值)，就必须克服4个V(量、速度、多样性、准确性)的挑战。为了自动创建数据争论过程，需要一些证据来帮助寻找准备数据的合适方法。康斯坦丁努博士解释说:“VADA的一个关键特征是自动化考虑了数据上下文和用户上下文。数据上下文是关于数据争论过程的预期结果的补充数据。用户上下文是关于对用户来说什么是重要的信息，因为结果的不同特性之间可能存在权衡，比如一致性和完整性”。

随着无数数据源的持续增长，对成本效益高、可扩展和有原则的技术的需求也在增长，以整合和清理大数据，以优化数据质量，从而增加其价值。

Vada提供了一种架构（一组组件，以及用于共享数据的组件，以及协调其评估）以自动化数据准备过程。用户提供：某些数据源;数据目标的架构，即所需数据的结构的描述;一些示例数据;以及填充目标时要优先考虑的标准，从而可以排名替代结果。使用此信息，系统自动填充来自源的数据目标。

得到的自动化解决方案可能不合适或甚至是正确的，并且用户可以提供对结果的正确性或适合性的反馈。鉴于新的证据，系统可以在此反馈中采取行动，并自动生成修订的填充目标的方法。重复该过程，直到结果被视为适合目的。

研究小组已观察到以这种方式自动化数据争吵涉及能够识别数据准备过程中的步骤，这些过程可以使用可用证据和反馈自动化。然后，它们能够为这些步骤开发组件，以考虑所有可用证据和反馈。这导致开发允许用户提供证据的整体架构，查看结果，然后提供反馈。

评价VADA
研究人员对VADA进行了实证评估，使用了一个案例研究，涉及从房地产资源和英国开放政府数据门户中提取的真实世界网络数据。这些数据集是由大量独立出版商产生的，因此需要解决不一致的问题，以便通过分析来最大化它们的潜在价值。研究人员进行了一个五步的自动争吵过程。然后，他们比较了有和没有数据背景的结果。使用f分数来结合精确度和回忆，当在整个争论过程中使用数据背景作为证据时，例子显示了相当大的提高，f分数从0.5左右上升到0.8。

Vada的一个关键特征是自动化考虑了数据上下文和用户上下文。

VADA好处
这些令人鼓舞的结果表明，使用VADA用户界面，数据科学家可以从多个数据集获得干净和集成的数据，只提供了目标模式和相关的数据上下文。与目前需要的密集的手工参与相比，这个过程只需要少量的努力。例如，自动生成的争吵过程组合数据集，重新格式化不一致的属性值，并解决某些不一致。手工制作查询和规则来执行这些任务需要大量的技能和努力。

VADA还考虑了用户偏好和用户反馈。通过通过用户上下文获取偏好，可以以权衡结果准确性、一致性和相关性的方式选择数据。此外，自动化意味着可以生产许多可供选择的候选数据产品。对用户上下文的评估显示了反馈如何影响结果的效用。此外，这种方法可以在几分钟内找到数百个来源。这种规模的数据准备可能需要许多天的手工工作。

拓灭的公司
有两家分拆公司将这项工作的不同方面转化为实践。

首先，数据值工厂（https://thedatavaluefactory.com)，提供自动数据准备。Data Preparer系统建立在研究团队的经验之上，并提供了第一个声明性数据争论软件产品。Data Preparer争吵平台的免费试用版可以下载。

我们需要成本效益高、可扩展、有原则的技术来整合和清理大数据，创建适合下游分析的数据集。

Secondly, DeepReason.ai (https://deepreason.ai) enables ‘Knowledge-First’ AI Solutions with a Knowledge Graph platform that uses state-of-the-art AI technology to deliver end-to-end AI solutions to Fortune 500 companies in finance, logistics, manufacturing, and engineering.

未来的工作
曼彻斯特大学研究团队正在探索他们如何将自动化数据准备与数据湖泊中的相关数据集的发现相结合。此外，自动化数据准备创造了探索数据准备期间偏差的引入的机会，可以检测和减少。

个人反应

最初引发了对自动化数据争吵的兴趣？

我们在与生命科学研究人员的相当长时间工作，他们经常需要将实验结果与有关有机体的现有信息相结合。在这些合作中，可以清楚地变得更加明显，准备分析数据的成本是进步的重要障碍。

文章参考文献

Abel, A.， Keane, J.A.， Paton, N.W, Fernandes, A.A.， Koehler, M.， Konstantinou, N.， Ríos, j.c.c.， Azuan, N.A.， Embury, S.M.(2018)用户驱动的多标准资源选择。正,科学。430：179-199。https://doi.org/10.1016/j.ins.2017.11.019

Koehler, M.， Abel, E.， Bogatu, A.， Civili, C.， Mazilu, L.， Konstantinou, N.， Fernandes, A.， Keane, J.， Libkin, L. & Paton, N.(2019)结合数据背景以成本有效地自动化端到端数据处理，大数据上的IEEE交易。 https://doi.org/10.1109/tbdata.2019.2907588

Konstantinou N.，Abel E.，Bellomarini L.，Bogatu A.，Cinuli C.，Irfanie E.，Koehler M.，Mazilu L.，Sallinger E.，Fernandes A.a.a.，Gotlob G.，Keane J.A.，Paton N.W.（2019）Vada：最终用户通知数据准备的架构。j。大数据，6 P74，https://doi.org/10.1186/s40537-019-0237-9

后面的研究

Norman Paton.

Norman Paton：自2000年以来，诺曼一直是曼彻斯特大学计算机科学教授，现在是数据价值工厂的创始人/导演，用于在经济高效的数据准备上商业化技术。他的研究专注于分布式信息管理，包括生命科学的应用。

nikolaos konstantinou.

Nikolaos Konstantinou:自2015年以来，Nikos一直是曼彻斯特大学的研究员，此前他在希腊担任各种技术管理和研究职位。他是The Data Value Factory的创始人/董事，致力于将创新的数据准备技术引入市场。

研究目标

曼彻斯特大学信息管理小组的研究重点是针对具有挑战性的环境和应用的分布式信息管理。

资金

EPSRC，Grant Title - Vada：增值数据系统 - 原则和架构（EP / M025268 / 1）。

合作者

Satomi Yamada.
Edward Abel，Alex Bogatu，Martin Koehler，Lacramioara Mazilu，Alvaro Fernandes，John Keane，曼彻斯特大学计算机科学学院
Luigi BelloMarini，Emanuel Sallinger，乔尔·戈特夫（Georg Gottlob），牛津大学计算机科学系
克里斯蒂娜平民，爱丁堡大学信息学院莱昂尼德利比金