没人会坐下来建元数据[2008]

[originally posted on 2008-10-28, http://tw.rpi.edu/weblog/2008/10/28/why-bother/]

Why Bother…

From Talis: “Jim Hendler at the INSEMTIVE 2008 Workshop”

that people will (and do) create metadata when there are obvious and immediate benefits in them doing so. No-one really consciously sits down to share or create metadata: they sit down to do a specific task and metadata drops out as a side-effect.”

I can not agree any more. I have tried to tag all my blogs once upon a time, after a few weeks, I found myself bored because there is no clear, immediate benefits for doing so. I would only tag things that I have to, like to tell my friends a list of posts of the same topic.

read more

人生记录

我买菜或者开车,或者随便其他什么时候,经常冒出一些想法,比如对某个历史事件的看法,或者一个什么技术思路,或者过去一件有趣的事。这种事吧,你说叫我立即记下来,也小题大做。回家或者到公司,马上又有别的更重要的事要做,没有条件来记,通常也就忘了。

忘掉一个有趣的想法,是一个非常让人烦的事。所以有时候,我索性什么都不看,什么都不听,什么都不想,省得弄出一个想法来,又把她始乱终弃。

read more

知识与智能

有一段时间,我很纠结于语义网的应用有没有用到推理。连推理都没有,叫什么“语义”网呢?

今天看禅宗故事,赵州和尚说:“放下著。”猛然想,其实应该放下“推理”,语义网并不一定需要推理,至少现在还不需要。

推理是什么?是从一些已知的知识得到一些隐含的知识。这是智能的一种。

知识和智能有什么区别?古人和现代人(更精确些,他们中最聪明的那一小撮),知识上可能有区别,在智能上,其实差别就不见得有多大。“上知天文,下晓地理”,“前知五百年,后知五百年”,这大部分是知识,不是智能。“道旁苦李”、“想君小时,必当了了”,这是智能(某种推理),不见得需要太多知识。

read more

为什么要区分Context和一般知识

为什么要把context(域)和非context知识分开。比如temporal context, 我们可以写成ist(C(x), t),也可以写成C(x,t)。为什么不使用后一种方式?

用context建模有如下好处

1)用context建模可扩展性好。比如原来我们的知识库里有C1(x)… C100(x),现在要加一个时间维度,那要对所有的谓词都修改arity为2。如果以后又有新的context维度,又要修改。比如我们在Wikipedia上做编辑,编辑的revision log并不会加入页面本身作为正文——这些log就是各个版本的context。

read more

量子信息论和语义信息论

这两者之间其实有很近的关系

一个量子比特(qubit)是多个纯态(pure state)的叠加。例如|s>= 0.707 |0> + 0.707 |1> 就是说 |s>以概率0.707*0.707=0.5为|0>,以概率0.5为|0> 。也就是,如果进行100次测量,那近似 50次得到|0>。

在语义信息论中,一个消息,也即是一个逻辑的表达式,代表多个模型。每个模型有自己出现的概率。例如,假如模型的集合是一个一个的人,其中20%是小孩,20%是老人。那消息“小孩或老人”的逻辑概率是40%,其中一半的可能是小孩,另一半是老人。

read more

笔记:描述逻辑的云计算(1)背景

Description Logic in the Cloud 这是很扯蛋的说法

或者说描述逻辑的并行计算(Parallel Computing with Description Logic),主要是指查询和推理两种任务。

对于RDFS或者OWL-RL的某个子集,利用MapReduce或者其他基于集群的(cluster-based)的计算,工作不少。不过一般都是基于规则(rule-based)的推理,不保证推理的完备性(completeness)。很多只支持非常有限的推理,比如BBN的SHARD工作。

模块化本体(modular ontology)语言,如Distributed Description Logics, E-Connections and Package-based Description Logics,基于非经典局域语义(Local Model Semantics),可做分布式推理。但是局域语义的复杂性,使它们不适合现在的工程应用。

read more

Web3.0:互联用户产生的结构化资源

Web3.0就是互联用户产生的结构化资源

Jie Bao

2011-05-03

==Web1.0和Web2.0的成功==

Web的成功,来自它是“Web”:它将资源互联起来。HTML,HTTP, URL这些东西是Web应用早期的支持技术,但是它们不是Web本身。后来的Web应用,比如QQ,P2P,GoogleMaps,它们用了很多更新颖的通信技术,并不是说,浏览器里的应用才是Web应用。用了HTML或者别的标记语言(Markup Language)的应用,如果不遵循Web的互联原则,它不能算Web应用: 比如Latex(至少到目前为止)。

read more

笔记:层化产生式系统(1)

Louiqa Raschid: A Semantics for a Class of Stratified Production System Programs. 31-57 (bibtex)(download)(citation)

这个文章讲有一种分层的production rule系统,可以转化为一般的LP系统,从而有陈述性语义(declarative semantics)——而不仅是操作语义(operational semantics)。

另参 P.M. Dung, P. Mancarella, “Production Systems with Negation as Failure,” IEEE Transactions on Knowledge and Data Engineering, vol. 14, no. 2, pp. 336-352, Mar./Apr. 2002, doi:10.1109/69.991720

read more

语义网中的推理是不是银弹?(3) 分类树就够了

续语义网中的推理是不是银弹?(1)(2)

【4年过去,我现在还是同样的想法,并且继续奇怪为什么没有人来搞。搞这个有商业价值吗?道旁苦李吗?】

2007-6-9

我再斗胆说一遍:SW的大规模应用,先阶段只会是基于分类树,至多DAG。只要把分类树搞起来,80%以上的应用可以涵盖。

2007-6-16

为什么大家不能用Hierarchy来做些事情呢?比如Wikipedia, MySpace, Flicker,给tag加上分类,不就可以实现很简单的语义查询了吗?其实,虽然ontology语言很复杂,但是真正最有用的部分,大概就是分类吧。我没有field research, 不过大家给自己个人主页加meta data,分email,给文件分目录,不都是分类吗?分类,或许是数据库不能表达,而又最重要的“语义”了吧。

read more

RIF-PRD的过程语义和描述语义

同时开始写RIF和策略语言(policy language)这篇文章。现在是三篇同时开工,争取每篇每天写一页——我不知道有些牛人是怎么做到日试万言,倚马可待的。

RIF-PRD的官方语义是过程语义Procedural Semantics(也称operational semantics),也就是有一些“action”,通过这些action,模型的状态会发生变化。比方说,你和面,有加水和加面两个动作,那每个动作之后,这个面团的状态就会发生一些变化——那从逻辑上讲(如果你把和面的过程也看成逻辑的计算),这个面团的语义变化了,比如从小面团变成了大面团。

read more

XBRL,金融数据和语义网

浏览了几个中文的新闻,均来自XBRL中国官网

语义网技术提升XBRL功能 (2010-07-14)。相关的英文文章是 Consuming XBRL Financial Information: Semantic Web Prototype App Aims To Make It Easier, Faster, Automatic — And Socially Connected (2010-07-14)

文中的Dr. Graham G. Rong,是我们(RPI)在MIT的合作伙伴。Rong博士和我在2010年1月在MIT的一个Linked Data课程上相识。他有金融领域的背景和人脉;我们聊到我对金融数据的兴趣,Rong博士就向我介绍了XBRL。这就开始了后来的一系列工作(见前一篇文章《基于语义网的证券分析》)。由于这个工作和RPI现在做的政府数据方向颇有关系,我们得到了TWC Director Hendler教授的支持。我们一个博士生,Xian Li也有金融领域的工作背景,也参与到这个方向上来。

read more

域态逻辑的模型论

春天不是读书天
晕晕乎乎正好眠
抬你扛(telcon)催如星火
不知此日到何年

(开场诗完)

A Model Theory of Context Logic

目前正在写一篇关于域态逻辑的会议论文,大概还有4个星期的时间,今后几天,一天写一页就好。这里瞎扯的,发散思维,都是些胡想。(BTW,等我灌完这篇,再灌一篇Journal,仁至义尽,就真的不想再灌了,还是多看看编程宝典,搞钱,买房,抱(我们家那个小胖)妞,quit)

read more

连续信号的逻辑

在学习Continuous Model Theory(连续模型论)。为什么?对于连续信源,要理解它的语义,势必要了解如何对连续信号做推理,那首先就要了解它的模型论语义。

要理解语义不确定性原理,应参考连续信号中时域和频域分辨率的矛盾。在工程上表现为增益带宽积,在理论上表现为香农的有噪信道容量定理。为建立工程信噪比和语义信噪比的关系,需了解连续信号和它的离散采样在推理作用下的关系。基本物理量,比如动量和位置(它们本身互为傅立叶变换),本身并无语义。但是当其中一个物理量有语义,也就是它本身作为模型,通过推理过程影响另外一些物理量,那此时的不确定性原理如何表现?

read more

从概率时态逻辑到概率域态逻辑(Probabilistic Context Logic)

接着《RDF and Context (域)》说context。

这里主要参考了Paulo Shakarian等人的Annotated Probabilistic Temporal (APT) logic。Shakarian在VS的组里。什么,VS是谁?看来你没搞过数据库。

APT逻辑的基本思路很简单(我觉得,好文章的基本思路都很简单)。这篇文章的Related Work写得尤其好。里面比较了马尔可夫决策过程(Markov Decision Process, MDP)和概率计算树逻辑(Probabilistic Computation Tree Logic, PCTL)。

read more

语义不确定性原理

科学松鼠会上看到一篇精彩的文章《不确定性原理的前世今生》(1,2,3,4),联想到语义信息论上的一些问题。关于测不准,我以前也写过一段介绍

【广告之后马上回来(其实是我要回家吃饭)】

P.S. 2011-04-08 这个坑看来一时半会是填不了了。我主要是在想对一个信号做逻辑的变换, i.e., 信号本身是模型而不是信号(看这话绕的),那获得的最终信号(i.e., 推理结果)的频域特征是什么?不确定性原理还是否有效?BTW, 一个茴字有四种写法,这个“茴”是模型,四种写法是信号…

read more

RDF and Context (域)

昨天决定把Context翻译成域。今天接着说说用RDF来表示Context,主要是帮我自己理清思路。

去年做了一点这个方向的工作,参加了RDF Next Step Workshop。这是幻灯片:

[slideshare id=4624693&doc=2010-06-24rdfcontext-100626175833-phpapp01]

现在有很多人研究怎么做RDF的时域(Temporal)和空域(Spatial)扩展,文章很多。一部分我认为重要的Temporal RDF的文章待会列到回复里。Spatial RDF我不很熟悉。比如一种建议是这样的:

read more