奇趣闻 > 数码科技 > \

如何打破信息孤岛?从数据编织说起

原标题:如何打破信息孤岛?从数据编织说起

Gartner在《2022年重要的战略技术趋势》分析报告中说:“数据的价值从未像现在这般突出。但通常情况下,数据沦为应用内的孤岛,表明数据并未得到充分利用。”信息化时代,数据的重要性被意识到,企业也认可数据就是资产的观念,但正如同Gartner所说的企业数据大多是以不同应用内的孤岛形式存在,尚未被充分应用,要从数据中“掘金”就要打破信息孤岛。

如何打破信息孤岛?在这篇分析报告中,最先被提出的数据编织(Data Fabric)就是答案。数据编织被认为是数据利用与分析领域的革命性变革,也是解决数据信息孤岛的关键所在。

什么是数据编织?Gartner认为数据编织是一种设计概念,可作为数据和连接流程的集成层(结构)。分析报告中这样说:“作为一种跨平台和业务用户的数据整合方式,数据编织可以使数据随时随地为人们所用。”数据编织可以跨平台、用户获取数据,把各个应用中零散的数据资产连接起来,让数据随时随地为人所用。

你有没有过这样的体验?刚刚和好友讨论完想买的东西、最近发生的热点,打开某宝或某头条就看到推送了和谈话内容相关的内容,搞得你一直想不通“究竟是谁走漏了风声”?其实就是平台利用大数据进行分析,再给你推送你想看的内容。都说有效的数据管理应该实现“数据找人”而不是人找数据,这也算是数据找人的初步实现,而数据编织会把 “数据找人”应用得更加极致。

Gartner在分析报告中也提出数据编织的真正价值在于提供建议以获得更多不同类型、质量更好的数据,可以将数据管理工作量减少70%。并大胆预想,到2024年,数据编织部署会将数据利用率提高三倍,同时将数据管理人工任务减少一半。由此可知,数据编织能给我们带来的有益之处良多。

既然数据编织这么重要,那数据编织如何实现呢?Gartner也给出了答案:“通过内置的元数据读取分析技术,数据编织还能够了解数据的使用情况。”通过元数据进行持续分析,数据编织能够在所有环境(包括混合云和多云平台)中设计、部署和利用可重复使用的集成数据。

这里提到了“元数据”,并认为它是实现数据编织的基础。我们先认识一下元数据,元数据的定义是描述数据的数据,听着是不是很拗口?举个简单的例子,比如,关于一本书(信息资源),我们在图书馆系统中检索可以得到如下信息:

一个基本的元数据由元数据项目和元数据内容构成。图中,“题名”就是它的元数据项目,“史蒂夫·乔布斯传 (美) 沃尔特·艾萨克森著 = Steve Jobs Walter Isaacson eng”就是元数据内容。再比如,“著者”“出版者”都是元数据项目,而“艾萨克森 (Isaacson, Walter) 著”和“中信出版社”就是元数据内容。

元数据不会直接显示出来,但设备可以读取。关于元数据和数据编织,在综合其他分析者的观点基础上,我得出了以下想法:

首先要形成元数据池,才能支撑数据编织分析、获取关键指标。通俗来讲,企业或机构可以通过现有的数据中台把数据资产汇总,进行数据沉淀,形成元数据池子。再通过数据编织抓取数据池中的关键信息、统计数据等等,给后期的商业决策分析提供支撑。

其次,数据编织应该把元数据用更简单易懂的方式呈现出来,在数据使用者和数据之间建起沟通的桥梁。正如前文所说,元数据不会直接在页面上显示,但设备可以读取,这也导致我们在数据使用过程中对元数据基本没有感知,对这个概念也很陌生。通过数据编织技术,用图表或者统计来甚呈现关键元数据信息,监测数据工作流程,至利用算法学习这些元数据的指标趋势,以到达超前预示,支撑商业分析、决策。

除了元数据,数据编织所得出的信息要被使用者采用,也应该用简单易懂的方式呈现出来,例如图谱的形式,让数据使用者更直观明了地获取到关键信息,可用、易用。

Gartner副总裁、杰出分析师Mark Beyer表示:“‘数据编织’是一个新兴的设计概念,可以成为持续应对数据管理挑战的强大解决方案。这些挑战包括高成本、低价值的数据整合周期、数据早期整合导致的频繁维护和不断增加的实时和事件驱动型数据共享需求等等。”

IBM大中华区科技事业部云计算与认知软件部数据与人工智能信息架构产品总监王积杰认为,数据编织至少需要四个维度的能力。一是能够在数据之间建立虚拟链接,简化数据访问的模式,从而减少数据复制的数量。二是需要建立一个企业数据目录,并需要利用AI技术,自动化地实现基于语义和知识的分析,理解数据及其业务含义,并建立知识图谱, 从而使数据目录变得智能化和自动化。能够让需要数据的用户,随时了解到需要的数据在哪里、数据质量如何等。三是建立自动化数据平台,允许用户通过自服务的方式,访问并获取数据。四是通过提供整体的自动化策略,确保数据安全,增加数据的隐私和权限保护,并提高数据质量。

说了这么多数据编织的优势,但是数据编织要在现实中推动起来并不容易。Gartner高级研究总监孙鑫认为,数据编织推动的难点“一是理念层面的难题,中国的用户还没有意识到,数据利用和使用的方式已经发生改变,传统的集中收集再利用的方式已经不能满足需要。二是目前很多企业对于元数据不够重视。三是从人的角度看,需要提升企业数据工程师对知识图谱、图语言、图建模等数据工具的能力培养。四是数据编织的实现并不是找到一个厂商就能够完成,它是一个旅程,需要分几步走。”孙鑫认为,从用户的角度看,率先采用Data Fabric的是金融电信行业以及数据应用场景比较复杂的用户。

正如上述所说,数据编织之路面临着诸多挑战,需认识到位,需企业提升元数据重视程度,需技术、资金等各方面的长期支持,需迎难而上。

关于够快云库:
上海够快网络科技股份有限公司(简称够快云库)是企业云文件协作管理解决方案供应商,以技术驱动,与产业、场景深度结合加速落地,立足国情,围绕客户需求,提供“产品-服务-生态”完整的解决方案,赋能全行业客户数字化转型,深化数据驱动型组织运营变革。
目前,够快云库已为新东方集团、浙江财经大学、浙江人民银行、上海电气、上海机场、科沃斯机器人、万达集团、碧桂园集团、飞利浦(中国)、广州市政、广州地铁、华润电力、南方电网、宜信集团、中信产业基金、宋庆龄基金会以及国际知名律所等数十个行业近10万企业客户实现企业文件统一智能化管理。
显示全文

相关文章