对万维网、语义网、知识图谱、图计算和Web3.0的一点思考

in 知识图谱 Views: 1,391 s with 0 comment

防撕逼预警:大家都知道,真实世界不是非黑即白,也并非如教科书或是高考题般可以板上钉钉。很多学科一旦你走到比较前沿的位置,很多概念和定义便就已经存在争议了,而这种争议可能已经持续了几十年,形成了不同的流派,日常活动就是大佬互喷、神仙打架。
因此对于下面的内容,我只能说是结合自己的一些经验和体会,根据网络上的一些资料,得出的思考,并不能起到任何盖棺定论的作用,也希望不要干扰到大家自己的判断。

感谢。


万维网

计算机相关专业的同学都知道,如今我们所使用的计算机网络的前身,是美国出于军方需求意外生下来的。而在冷战时期,美国为了防止其军事指挥中心被苏联摧毁后军事指挥出现瘫痪,又进一步进化出了ARPANET,主要是用于保证当美国某指挥点被苏联摧毁后,不至于出现全面瘫痪的现象。
随后,随着个人PC的普及,各种局域、广域网迅速发展,这是Web1.0的时代。

让我们将时间前进至1980年,那时互联网和超文本才刚刚发明几十年,各个机构拥有自己独立的网络,这个网络像一本百科全书,你可以迅速的在上面查找到一些信息,但是你只能读,不能在上面发表自己的看法、分享自己的知识,这个网络是单向的(网络 to 人),它被我们称为Web1.0
同时,还有一个超文本系统,你可以在上面存储一些文本,互相链接。但计算机与计算机是不能互相连接的,互联网对于当时的人们而言,除了查资料方便一些以外,还没有很大的吸引力。
这是万维网(Web 2.0)诞生之前,互联网的模样。

英国科学家Tim Berners-Lee在这一年加入了欧洲核子研究组织(CERN),成为一名软件工程师。那时,来自世界各地的科学家都在使用CERN提供的加速器,但是Tim注意到一个现象,那就是科学家们难以分享信息。

“在那些日子里,不同的计算机上有不同的信息,但你必须登录到不同的电脑才能得到它。有时,还必须在每台计算机上学习不同的程序。”什么时候才比较容易分享?那就是他们喝咖啡的间隙。于是,Tim希望想办法解决这个问题:1989年,CERN已是全欧最大的网络节点,要是把数百万台计算机连接在一起多好!

Tim Berners-Lee想到了已存的互联网、超文本、传输控制协议和域名系统,如果将这些技术结合起来,那么就能实现百万台计算机互联的任务!但在多次向技术社区的成员暗示无果之后,Tim Berners-Lee决定自己解决这个计划。他发明了三项关键技术:

万维网由此诞生——

万维网(英语:World Wide Web),亦作“WWW”、“Web”,是一个由许多互相链接的超文本组成的系统,通过互联网访问。

其和其他超文本系统有很多不同之处——

v2-b4f2c7a1db430fc636efcff900264665_hd.jpg

1993年4月30日,欧洲核子研究组织宣布万维网对任何人免费开放,并不收取任何费用。1994年10月,万维网联盟(W3C)在麻省理工学院计算机科学实验室成立,创建者正是万维网的发明者Tim Berners-Lee。

需要注意的是,万维网并不等同互联网。万维网只是互联网所能提供的服务其中之一,是靠着互联网运行的一项服务。具体而言——

若要进入万维网上一个网页,或者其他网络资源的时候,通常需在浏览器上键入你想访问网页的URL,然后DNS服务器会将URL解析为一个IP地址返回给你的浏览器,你的浏览器再向IP地址所在的服务器发送一个HTTP请求。在通常情况下,HTML文本、图片和构成该网页的一切文件很快会被逐一请求并发送回用户。然后,网络浏览器将HTML、CSS和其他接受到的文件所描述的内容,加上图像、链接和其他必须的资源组成网页,显示给用户。
这些网页自身通常包含有超链接指向其他相关网页,可能还有下载、源文献、定义和其他网络资源。像这样通过超链接,把有用的相关资源组织在一起的集合,就形成了一个所谓的信息的“网”。这个网在因特网上被方便使用,就构成了最早在1990年代初蒂姆·伯纳斯-李所说的万维网。

万维网是信息时代发展的核心,也是数十亿人在互联网上进行交互的主要工具。

但万维网,并非就是互联网的终点。

语义网

1999年,万维网之父Tim Berners-Lee提出了语义网(Semantic Web)的概念。
这是他的一段描述:

“... a goal of the Web was that, if the interaction between person and hypertext could be so intuitive that the machine-readable information space gave an accurate representation of the state of people’s thoughts, interactions, and work patterns, then machine analysis could become a very powerful management tool, seeing patterns in our work and facilitating our working together through the typical problems which beset the management of large organizations.”

让我们用人话来解释和理解一下——

transfor_gaitubao_com_watermark.png

现在的万维网(WWW),是以document来组织的,我们所访问的所有网页、文件,本质上都是一个个document,这使得更小的数据碎片化了。那么如果我们将信息降解到data级别,降解到能够被计算机所理解的语义(Meta Data,也有翻译为“元数据”),我们就可以将当前网络上无结构或半结构化的文档转换为 “web of data”,从而使计算机与人更好的合作(机器可自动处理,机器可理解)。

举个栗子,我们现在有两个网站,“当当”和“亚马逊”,它们上面都有卖《新华字典》。
对于目前处于Web 2.0时代的我们而言,我们要买一本书,我们想要比较这两个信息源内容的时候,我们是不是需要手动或自动地挖掘data(手动搜索或爬虫爬取)?
但如果是在语义网的基础下,因为data本身就是构建网络的基本元素了,我们就可以很容易的以《新华字典》这个thing为起点,去寻找它的所有价格信息.

网络的基本单位,从document变到了data,我想这就是万维网和语义网之间的最大区别。

“如果说 HTML 和 WEB 将整个在线文档变成了一本巨大的书,那么 RDF, schema, 和 inference languages 将会使世界上所有的数据变成一个巨大的数据库。”
--- Tim Berners-Lee, Weaving the Web, 1999

2006年,Tim Berners-Lee也在接受媒体采访时表示,他最初将这种智能网络命名为语义网或许不够贴切,也许更准确的名称应该是数据网(Data Web)。

这里,让我们再对语义网(当然你也可以说它是数据网了)进行一些更细节、抽象和科幻的描述。

屏幕快照 2018-05-26 6.05.48 PM_gaitubao_com_watermark.png

在如今这个时代,数据流动速度是比较慢的,因为存在数据摩擦,这种摩擦有人机界面的摩擦,也有机器-机器界面的摩擦。其中人机界面的摩擦是主要的。
这种人机界面的摩擦,是指人和机器之间的信息交互过程,因为生命体不同(碳基生物和硅基生物),因此这种摩擦非常大。相对应的人机之间的数据流动速度,带宽就很小。
当人向机器传输数据时,比如语音,只有几个比特。打字,也只有几个比特。而机器向人传输数据的时候,人总是需要一个处理的过程,然后变成人脑可理解的形式,这种速度相比起机器的传输速度而言,很慢,还经常出错。这也是为什么我们总是嫌沟通成本高,很难归因的原因。

信息就和货物一样,慢速的系统和快速的系统创造出来的价值是完全不一样的。快的系统在单位时间内可以让更多的人参与到决策和行动中来,就可以打败那些更慢的系统。网页10秒打开和1秒打开,问题1分钟内被回答和1天被回答,效果完全不同。火云邪神说,天下武功,唯快不破,就是这个道理。

从目的角度上解释,语义网就是一套减少数据摩擦,加快数据流动速度的方法。

如何去做?

那无非就是想方设法减少数据流动摩擦,加快数据流动速度了。

从上图你可以很清楚地看到,摩擦总共是三类:

人与人之间的数据流动摩擦我们先搁置一边,这是社会学人类学的范畴。从计算机的角度来考虑,我们可以去做的,是减少人机摩擦和机器与机器之间的摩擦。这两个方面都能够依靠语义网来实现人与电脑之间的无障碍沟通。

对于机器和机器的摩擦,就是机器怎么有效地把一个信息传送给另一个机器这个问题,各种网络协议都在不同层次上解决这个问题。和语义网特别相关的有两个。

事实上,各个不同的领域都有自己的这种语言,比如金融领域的XBRL,医疗领域有HL7,图书馆领域都DC,等等。这些语言有些人叫模式(schema),有些人叫元数据(metadata),有些人叫本体(ontology),本质上都是促进机器之间通信的手段。

屏幕快照 2018-05-26 5.52.34 PM_gaitubao_com_watermark (1).png

对于人和机器的摩擦,也就是如何能让人和机器互相在更快的时间里理解对方。
这里主要是各种可视化Visualization,特别是交互式的可视化,把数据变成特别容易理解的形式。
除此之外,上面我们说到的元数据(Meta Data),也可以进一步运用到减少人机摩擦中来。
比如一直以来广受好评的思维导图(Mind Maps),其实就是元数据的一个小应用,或者说小雏形。
201606060042198dOuj3npeQf7yK2E.jpg

知识图谱

根据W3C的解释,语义网是一张数据构成的网(Web of data),语义网络技术向用户提供的是一个查询环境,其核心要义是以图形的方式向用户返回经过加工和推理的知识。而知识图谱(Knowledge Graph)技术则是实现智能化语义检索的基础和桥梁。
传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,这种网页检索效率并不意味着——

举个🌰,最初的搜索引擎,如果你想要知道“比尔盖茨的妻子是谁?”他可能会通过NLP技术将整个语句拆分,然后返回和比尔盖茨妻子这两个名词最相关的page列表,然后你需要自己在这些page中,找到答案。
而在搜索引擎引入知识图谱之后,它不再只是关注抽取出来的两个名词,而是真正理解了你在询问:什么实体和比尔盖茨这个实体之间存在“妻子”关系。于是它直接将盖茨的妻子,梅琳达·盖茨的信息返回给你。而不是返回一堆包含比尔盖茨和妻子这两个关键词的页面。

屏幕快照 2018-05-10 上午11.51.28-min.png

当新人刚进入知识图谱这个领域之时,往往会遇到两个定义上的障碍:

  1. Google的知识图谱博客条目被广泛引用,仿佛那就是知识图谱的正确解释了
  2. 知识图谱(Knowledge graph)和知识库(Knowledge base)的概念通常被混用

而第二个问题则导致了误导性的假设:术语知识图谱是知识库的同义词,它本身通常被用作本体的同义词。 这种混淆的一个例子是,Knowledge Vault和Google的知识图谱都被各自的创建者称为大规模的知识库。另一个例子是YAGO,它根据它的名字(一种本体论,但被称为知识库和知识图谱。
同样,雅虎员工也没有清楚地区分知识库、知识图谱和本体。他们表示,他们通过将新的实体,关系和信息与他们共同的本体论对齐来构建他们的知识库。因此,不完整,不一致和可能不准确的信息导致知识图谱的定义变得更加扑朔迷离。

知识图谱的定义:
1

A knowledge graph acquires and integrates information into an ontology and applies a reasoner to derive new knowledge.——“Towards a Definition of Knowledge Graphs”

2

知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识图谱。

虽然知识图谱的概念较新,但它并非是一个全新的研究领域。早在2006年,Berners-Lee就提出了数据链接(linked data)的思想,呼吁推广和完善相关的技术标准如URI,RDF,OWL,为迎接语义网络时代的到来做好准备。随后掀起了一场语义网络研究热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。

知识图谱的重要性不仅在于它是一个全局知识库,是支撑智能搜索和深度问答等智能应用的基础,而且在于它是一把钥匙,能够打开人类的知识宝库,为许多相关学科领域开启新的发展机会。从这个意义上来看,知识图谱不仅是一项技术,更是一项战略资产。

图计算

“图计算”是以“图论”为基础的对现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。通常,在图计算中,基本的数据结构表达就是:

G = (V,E,D) 
V = vertex (顶点或者节点)    
E = edge  (边) 
D = data (权重)。

图数据结构很好的表达了数据之间的关联性,因此,很多应用中出现的问题都可以抽象成图来表示,以图论的思想或者以图为基础建立模型来解决问题。
总结一下,论文中一般提到图应用的几个方面:

之所以在这里产生疑惑,是因为在工业界看到好多自称运用了知识图谱的应用,但我思来想去,感觉直接说是一个图也可以解释,并非必须冠上“知识图谱”的头衔。

难道又是一个神经网络包装成深度学习的案例?

和教授聊了一下,发现果然还是有些偏差的。

建立知识图谱的目的是为了支撑应用,所以知识图谱的核心,确实是偏向工程问题,但不是偏向构建工程,而是偏向在工程中应用算法。算法,始终是核心问题。也就是说,你要怎样利用知识图谱来应用人工智能应用,比如医疗的诊疗系统、电商的问答系统等等。
对于知识图谱上的一些工作,比如关系推理,可以称为graph mining的一部分,也可以称作是图计算的一部分。像PageRank其实也就是图计算,所以说这不是新概念,只是说明此类计算是基于图和面向图的。

目前很多鼓吹自己应用了知识图谱的应用,大多数的本体都太过简单,关系类型单一且数据属性较少,因此如果将其称为知识图谱,其实还是有些牵强了。真正的知识图谱应该是一个全局知识库,组织全世界已有公开知识,从而实现一个语义web。

当然,有全局必有局部,知识图谱在最初还没能力做全局的时候,大多都是从封闭领域开始入手。领域知识图谱因为其封闭性,其难度要比全局知识图谱小得多,是比较现实的选择,可以马上发挥作用,比如DBQA。所以大多数企业的知识图谱,如果将其称为领域知识图谱,其实也是能说得过去的。
而全局的知识图谱,目前谁都没有能力做,Google和IBM目前也仍在努力过程中,且处于初级阶段。但是即便是初级阶段,已经可以做出很多很炫的工作了,比如说Siri、Waston等。

Web 3.0

目前,Web3.0作为一个次世代网络,其概念更是众说纷纭。
有的把Web 3.0等同于基于浏览器的虚拟网络操作系统Web OS,或等同于智能语义网,或等同于Web服务;有的提出Web 3.0是XML Web Services,属于开放式OPenAPI(应用程序编程接口);Google则把云计算看做是Web 3.0,(Google CEO Eric Schmidt在韩国首尔数码论坛(Seoul Digital Forum)上,定义Web 3.0的概念):“Web 3.0是指集合众多应用在一起,并带有以下特点:应用相对少,数据成云状分布,应用可以运行于任何设备上(电脑或者手机都可以),应用速度很快且可以高度个性化设置,呈病毒化几何数量级的分发(通过社会网络、电子邮件等)。

概括来讲的话,Web 3.0 可能拥有以下特点:

从我个人角度而言,或是从一个科幻作者的角度来遐想的话,我心中的Web3.0是这样的——

v2-1cb5a259aca8d7616e62e1c9c276b58e_hd.jpg

什么,你说人工智能呢?
如果你问出了这个问题,那很可能说明,你对它的了解还不够深入,建议服用数据挖掘、机器学习、深度学习、人工智能,脸盲症入坑指南——左左薇拉,直接拖到第二部分阅读,药到病除~
当然,如果要是只是为各类如GBDT、SVM之类的算法做定位的话,我想它们应该就是身体里的各种酶了,无所不在,各司其职。

最后

前阵子,在微博上说了这样一句话:

突然感觉我们生活在一个太幸福的时代,除了互联网的诞生没能经历以外,从Web 1.0,到Web2.0,再到未来将到来的Web3.0,我们都已亲历或即将亲历它的诞生。

祝愿我们每个人,都能活着看到Web3.0的到来。

References

「一键投喂 软糖/蛋糕/布丁/牛奶/冰阔乐!」

薇拉航线

(๑>ڡ<)☆谢谢老板~

使用微信扫描二维码完成支付

Comments are closed.