语义网的高级语言

在谈论语义网的时候,要和RDF路线区分开来。

和一些人谈到语义网,他们说:“语义网死了”。如果从RDF的角度来说,是的——虽然W3C路线的支持者还不承认。

但是这种观点,就如同计算机在只有机器语言,没有高级语言的时候就断言:“计算机死了”。

我大胆提出两个假设

  • RDF是一门低级语言,只适合机器使用——如同机器语言或者汇编语言
  • 语义网需要一门高级语言,面向工程师(人),用来做大规模知识库的写作、重用

为什么说RDF是低级机器语言?

  • 用URL来寻址并不错。但是把精确寻址的任务交给人,要求人来设计URL,就如同在C编程中要求人对每个变量赋予内存地址。
  • RDF是一个“平坦”(flat)的语言,缺少内部的组织单元。有很多建议,引入诸如package, named graph这样的组织单元,但目前还没有达成共识或广泛采用。
  • RDF的语法,即使是Turtle,也没有可读性,理解和重用起来非常困难。
  • RDF缺少“宏”或者构造高层次组织的能力。其实SPARQL弥补了一点,就是graph pattern;一些语言如SPIN,把graph pattern作为可重用的单元,甚至可以生成新的数据。如果把这个能力作为RDF原生的能力就好了。

2010年RDF Working Group开预备会议,我也与会了。现在回来看,我那时的想法是错误的:为RDF引入更精确的语义,基于上下文(context)的组织和寻址,并不合适——虽然Pat Hayes后来很喜欢这个想法并在工作组内推一个类似的想法

read more

通信的语法,语义和语用层次:一封推荐信

以前在研究“语义信息论”(Semantic Information Theory)的时候,涉及到通信的三个层次:技术的,语义的和效果的。这个层次划分是(Weaver 1949)说的。香农的传统信息论只涉及技术这个层面。

从语言学的角度,这三个层次可以大致对应于语言的语法Syntax、语义Semantics和语用Pragmatics三个层次

今天在看《语言本能》(The Language Instinct)这本书,里面举了个很有意思的例子,可以做这三个层次的范例

read more

统计机器学习的一点感想

最近看了两篇文章,有些感想。

Chomsky和Norvig都是人工智能界的泰斗级学者,他们各执一辞,论述自己对统计机器学习的看法。两篇文章看完,都让人深受启发。

争论的大意是,Chomsky认为统计方法虽然在工程上有效,但是太“肤浅”,没有展示问题的本质。Norvig说,可是这玩意就是有效、有效、有效,这里是例子、例子、例子。

其实两个人说得都没错。这里我做个类比:

一天24小时,一年365天多一点,这个是统计学习。古人从海量的数据里得到了这些规律,用来指导生活,简单有效。伟大的天文学家如第谷,编制了大量的星表来表述这些统计发现,在一定范围内是准确的。

read more

用Python发博客

本文是用Python发的

(下面是后来手工改的)

用的是这个包 https://github.com/charlax/wordpresslib

需要手工安装

git clone https://github.com/charlax/wordpresslib.git
cd wordpresslib
python setup.py install

Python代码是

import wordpresslib

url = "http://yourblogurl.com/xmlrpc.php"
wp = wordpresslib.WordPressClient(url, 'user', 'pass')
wp.selectBlog(0)

post = wordpresslib.WordPressPost()
post.title = '用Python发博客'
post.description = '本文是用Python发的'
post.tags = ["wordpress", "lib", "python"]
idPost = wp.newPost(post, True)
print "posted as", idPost
read more

睡觉记

(Guest Post from 妞妈)

妞妞每天9:00PM才上床,10:30-11:30才睡着。在她睡着之前,妈妈总得和她耗上,搞得妈妈每天精疲力尽。从今天开始,我们下定决心,培养她早睡早起。今天第一天,还比较成功。

1)爸爸妈妈不car pool,妈妈下班回家先给小妞做好饭。

2)爸爸下班去接妞妞,半个小时的样子到家。

2)妞妞一到家妈妈就陪妞妞吃饭。然后开始洗澡,玩到8点上床。在手机上玩angry bird 和flash。

read more

吃饭记

流水帐,流水帐 (记2011-12-31)

妞妞睡醒,很满意地一笑,然后摸着肚皮说:“肚肚饿,肚肚饿”。

这是我第一听妞妞会说自己饿,又惊又喜,赶快去给妞准备饭。这家伙最近几天每天都学会说新词,都不知道是怎么学来的。

妞自己滚下床,跑到客厅里,一眼看到电脑屏保是自己的照片,就嚷着要“看妞妞”。然后自己就去打开电视(Google TV上可以看照片)。然后就坐在沙发上“看妞妞”。

read more

经典一日流水帐[2008]

[原文写于2008-08-26]

12 AM: 和老婆打完电话,决定好好学习。先看一小会mitbbs和西西河

01 AM: 继续看mitbbs和西西河

02 AM: 开始看上个月下载的《风之谷》,觉得很不错

03 AM: 接着看《风之谷》。心理内疚中,觉得该好好学习。

04 AM: 接着看《风之谷》。心理内疚中,觉得该好好学习。困,决定先睡觉,明天再好好学习。

05 AM – 10AM: 睡觉

11 AM: 听到闹铃,不理睬,接着睡觉。心理内疚中,觉得该起床好好学习。

read more

吃午饭及胡思乱想

搬到湾区来后,有一个明显的变化,就是每天的午饭很少自己吃了,总是会和公司内或者外面的朋友吃。这和在Boston的时候比,实在是太棒了。各种小道消息,技术内幕,八卦,思想的火花,多到根本记不下来,也似乎没有必要记,反正天天有。湾区的地理和产业凝聚优势,确实不是白给的。

比较湾区和波士顿的城市布局和产业链对科技发展的影响,有篇很不错的文章:《美国波士顿128号公路的兴与衰

read more

Siri Patents

Method and system for generating an ontology

http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=8,027,948.PN.&OS=PN/8,027,948&RS=PN/8,027,948 

Another article summarizes some key high-level designs of Siri

http://www.unwiredview.com/2011/10/12/how-siri-on-iphone-4s-works-and-why-it%E2%80%99s-a-big-deal-apple%E2%80%99s-ai-tech-details-in-230-pages-of-patent-app/ 

which is based on a 230-page SIRI patent application titled Intelligent Automated Assistant (also attached)

read more

Bottlenose

Here is an example of what I mean semantics-enabled visualization.

Bottlenose is a very new social network filtering website, another
startup of Nova Spivack
http://www.novaspivack.com/uncategorized/bottlenose-has-launched

It makes semantic analysis on your facebook and twitter data in the
background, then filter the information based on (inferred) your
interests. The semantic model enables a visualization for you to
quickly get a sense of your data stream.

In many ways, it is related to Twine (Nova’s prior semantic web
company). Since Nova has talked about information overloading in
social media ever since his Twine years, Bottlenose is a not a
surprise to me.

read more

二!

妞前天突然说了一句:“一,二,三,五,六,八,九,十!”

妞爸妞妈又惊又喜,虽然漏掉了两个,毕竟算是会数数了。从十月份开始教,也就两个月时间。赶快打电话给爷爷奶奶等报喜。

昨天妞爸在博客里用了一个网络新词“二”,被妞妈鄙视。妞爸不服气,早上起来,就“二”的词源、语义、用法、内涵,做了深入的探讨。结果是,妞妈教妞说:“爸爸,二!”,妞爸也教妞说:“妈妈,二!”

read more

今天是一年以来最快乐的一天

突然意识到今天是至少一年以来,最快乐的一个星期天,三个人都各得其所,做了最快乐的事:妞妈看了一天电视;我睡到自然醒,写了一天博客;妞玩到自然睡。

被妞妈的二手电视强迫看了一会《某某某某》。妞妈笑得前仰后合,我一本正经总是说,有什么好笑的。看来经过South Park几年的熏陶,我的笑点已经提高了,而且不庸俗不笑。另外一个原因我看不了这个片子:里面的女嘉宾化妆得都一个样。

read more

笔记:描述逻辑的云计算(2)主要参考文献

对DL TBox分布式推理的几篇主要文章,按时间为序。其他有很多关于语义网的并行计算的文章(参Peiqiang Li 2009),无庸罗列。

再次注意,凡是基于rule的推理和分布式triple store,比如RDFS, OWL-Horst, OWL-RL,不是本系列关注的对象。

另参考综述PPT:

1995

Frank W. Bergmann, Joachim Quantz. Parallelizing Description Logics. Proceeding. In KI ’95 Proceedings of the 19th Annual German Conference on Artificial Intelligence: Advances in Artificial Intelligence. [bibtex]【基于结构比较算法。核心是 parallelizing propagation:propagation是指从一个fact推理得另一个fact,例P(a,b)->P-(b,a)。没有具体的算法,参考意义不大。对树图算法的参考意义在label propagation。】

read more

笔记:域态逻辑的语义(2)PLC 1994

Buvač, Saša; Buvac, Vanja & Mason, Ian A.: The Semantics of Propositional Contexts. In Proceedings of the 8th International Symposium on Methodologies for Intelligent Systems. LNCS Vol. 869 Springer-Verlag, London, UK (1994) , S. 468 – 477 .

这篇文章主要是他们AAAI 2003文章(见笔记:域态逻辑的语义(1)PLC 1993)中proof  system正确性soundness和完备性completeness的证明。

语法和语义与前文同,略过。

文章重点在讨论和Kripke semantics的比较,也即模态逻辑语义。

read more

语义Web的前景如何?(1)语义是什么[2003]

【初学时在水木清华站上的讨论记录,主要是和minc】

2003-11-25

==语义是“理解”,或者“约定”?==

ChinaNci:

目前好像很少有应用出来,会不会只是一个停留在纸上的设想?

minc:
现在什么都不好说,因为还有一些关键问题没有得到解决

jiebao:
语义网的研究是阶段性的
首先解决syntax层面的问题,就是xml
然后是基本资源描述问题就是 rdf
然后是对资源间关系的形式化描述, 就是owl, daml_oil
这三步已经差不多做好了

read more

洪水,洪水

昨天早上醒的时候,是在梦一个大洪水,在我们蚌埠。那浊水,几乎要扑过堤岸。许多人在等待船将自己渡过去。我不知发什么神经,要用手机拍照,就把船错了过去,又几乎跌进水里。我家的其他人,已经上了那船。

以前的另一个梦,是极大的洪水,到处都是塌陷,不知多少人,多少房屋落在水里。水势顺流而下,而水将到未到那时刻,使人极紧张。

我会做这梦,是91年和98年两次大水给我印象极深刻的缘故。特别是91年那次,千里平原,一片汪洋。6月、7月,雨下得太多,太大,数次,只一两个小时,回家就要趟齐腰深的水回去。连着下了几乎一个月,多少极大的树被泡倒。我看过许多现场照片,农村的田野,一片全是水,哪还有田地房屋。蚌埠全靠圈堤把水挡住。我们家的海拔是19米,堤内水的海拔最高是22米。我们家在河堤不远处,如果决堤了,那楼未必禁得住水排山倒海的力道,唯有一死。那年汛期,每天都要去看水,我的日记里有详细的水文记录。

read more