转移博客到自己的主机

从2011年3月起,“语义噪声”就托管在Wordpress.com。对它的服务很满意,不过为了更大的自由度,决定把这个博客转移到我自己在Amazon EC2的主机上。

转移后有这样几个好处

  • 可以安装任意插件(plugins)
  • 可以和其他的组建更好地合作。比如现在的搜索是基于Elastic Search
  • 更好的中文环境支持,如Denglu评论
  • 数据自由度更好,比如视频,不需要先上传到Youtube上了
  • 数据更安全些

原来的域名blog.baojie.org不变。原博客baojiebaojie.wordpress.com会保留一段时间再关了

P.S. 2012-01-06 Elastic Search的分词有问题,默认把每一个汉字都作为一个词。换为paoding分词系统,加上自己的词典就好了。我用了medcl的ES RTF (ready to fly) https://github.com/medcl/elasticsearch-rtf/

read more

语义网的高级语言

在谈论语义网的时候,要和RDF路线区分开来。

和一些人谈到语义网,他们说:“语义网死了”。如果从RDF的角度来说,是的——虽然W3C路线的支持者还不承认。

但是这种观点,就如同计算机在只有机器语言,没有高级语言的时候就断言:“计算机死了”。

我大胆提出两个假设

  • RDF是一门低级语言,只适合机器使用——如同机器语言或者汇编语言
  • 语义网需要一门高级语言,面向工程师(人),用来做大规模知识库的写作、重用

为什么说RDF是低级机器语言?

  • 用URL来寻址并不错。但是把精确寻址的任务交给人,要求人来设计URL,就如同在C编程中要求人对每个变量赋予内存地址。
  • RDF是一个“平坦”(flat)的语言,缺少内部的组织单元。有很多建议,引入诸如package, named graph这样的组织单元,但目前还没有达成共识或广泛采用。
  • RDF的语法,即使是Turtle,也没有可读性,理解和重用起来非常困难。
  • RDF缺少“宏”或者构造高层次组织的能力。其实SPARQL弥补了一点,就是graph pattern;一些语言如SPIN,把graph pattern作为可重用的单元,甚至可以生成新的数据。如果把这个能力作为RDF原生的能力就好了。

2010年RDF Working Group开预备会议,我也与会了。现在回来看,我那时的想法是错误的:为RDF引入更精确的语义,基于上下文(context)的组织和寻址,并不合适——虽然Pat Hayes后来很喜欢这个想法并在工作组内推一个类似的想法

read more

通信的语法,语义和语用层次:一封推荐信

以前在研究“语义信息论”(Semantic Information Theory)的时候,涉及到通信的三个层次:技术的,语义的和效果的。这个层次划分是(Weaver 1949)说的。香农的传统信息论只涉及技术这个层面。

从语言学的角度,这三个层次可以大致对应于语言的语法Syntax、语义Semantics和语用Pragmatics三个层次

今天在看《语言本能》(The Language Instinct)这本书,里面举了个很有意思的例子,可以做这三个层次的范例

read more

统计机器学习的一点感想

最近看了两篇文章,有些感想。

Chomsky和Norvig都是人工智能界的泰斗级学者,他们各执一辞,论述自己对统计机器学习的看法。两篇文章看完,都让人深受启发。

争论的大意是,Chomsky认为统计方法虽然在工程上有效,但是太“肤浅”,没有展示问题的本质。Norvig说,可是这玩意就是有效、有效、有效,这里是例子、例子、例子。

其实两个人说得都没错。这里我做个类比:

一天24小时,一年365天多一点,这个是统计学习。古人从海量的数据里得到了这些规律,用来指导生活,简单有效。伟大的天文学家如第谷,编制了大量的星表来表述这些统计发现,在一定范围内是准确的。

read more

用Python发博客

本文是用Python发的

(下面是后来手工改的)

用的是这个包 https://github.com/charlax/wordpresslib

需要手工安装

git clone https://github.com/charlax/wordpresslib.git
cd wordpresslib
python setup.py install

Python代码是

import wordpresslib

url = "http://yourblogurl.com/xmlrpc.php"
wp = wordpresslib.WordPressClient(url, 'user', 'pass')
wp.selectBlog(0)

post = wordpresslib.WordPressPost()
post.title = '用Python发博客'
post.description = '本文是用Python发的'
post.tags = ["wordpress", "lib", "python"]
idPost = wp.newPost(post, True)
print "posted as", idPost
read more

语义网相关文章:一年汇总

今天整理了一下过去一年写的和语义网相关的一些博文。分类如下

为什么最近写的少了?两个原因

  • 最近3个月太忙,基本没有时间写长文;各种短的火花,都写在微博上了
  • 条条框框很多,带着脚镣跳舞,还不如不写
里面有些文章是坑。很抱歉,估计一时半会是填不了了。

目录

  • 1 形而上学
    • 1.1 旧讨论贴
    • 1.2 旧英文贴
    • 1.3 反思
    • 1.4 产业评论
    • 1.5 新思维
    • 1.6 新思维2
  • 2 工程实践
    • 2.1 问答系统
    • 2.2 会议元数据
    • 2.3 其他应用
    • 2.4 语义网语言
  • 3 产业化
    • 3.1 语义网的公司
    • 3.2 创业
  • 4 个人研究
    • 4.1 描述逻辑
    • 4.2 Context
    • 4.3 域态逻辑
    • 4.4 语义信息论
    • 4.5 语义维基
    • 4.6 Web Science
    • 4.7 咬文嚼字
    • 4.8 胡思乱想
  • 5 杂谈
    • 5.1 入门与普及
    • 5.2 八卦
    • 5.3 活动
    • 5.4 其他

1 形而上学

旧讨论贴

究竟什么是Semantic Web?[2008] http://blog.baojie.org/2011/11/23/what-is-semantic-web-2 语义网: 检讨与展望(2008) http://blog.baojie.org/2011/04/06/semantic-web-2008/ read more

博客读者的地理分布

刚发现Wordpress现在可以看博客读者的地理分布了。下面是最近一个月(也许不到一个月)我的博客“语义噪声”的地区分布(地图在后)

最近一个月我基本没有在社交媒体上给我的博客做引用。主要的流量都是搜索引擎和个人主页上来的。

结论:主要的读者在美国。来自中国大陆的读者比例很低,可能是因为翻墙不方便。

United States FlagUnited States52%
China FlagChina10%
Taiwan, Province of China FlagTaiwan9%
Switzerland FlagSwitzerland7%
Germany FlagGermany6%
United Kingdom FlagUnited Kingdom5%
Netherlands FlagNetherlands3%
Hong Kong FlagHong Kong2%
Japan FlagJapan2%

(1%及以下的就略了)

[2004]9月微博

[2004-05-07]

Summer semester begins for me

[2004-07-13] 食指大动

楚人獻黿於鄭靈公。公子宋與子家將見。子公之食指動,以示子家,曰:「他日我如此,必嘗異味。」及入,宰夫將解黿,相視而笑。公問之,子家以告。及食大夫黿,召子公而弗與也。子公怒,染指於鼎,嘗之而出。公怒,欲殺子公。子公與子家謀先。子家曰:「畜老,猶憚殺之,而況君乎?」反譖子家。

[2004-09-07]

In Dog we trust

read more

[2004]4月微博

[2004-04-01]

8:30-10:30 Install Tomcat for Hu

[2004-04-03]

对许多人, blog是露阴癖的另一种表达

[2004-04-11]

Easter

编程,weka存储arff方面的小bug

复活节, 和Andy, Tang & Ivy吃饭

[2004-04-12]
:D
建立新的weblog

晚上做作业

[2004-04-13]

很早到学校.

男F1变态的几个特征
1- 容易动怒, 现实中和网上世界里. 开车被人嘀一下都觉得不得了了.
2- 泡网,
3- 办事拖拉
4- 见到女生就搭讪,不管说什么话题最后都能转到女人上
5- 极力表现自己的存在, 没事往maillist上发雄文.

read more

关于天才的对话[2004]

【原文写于2004-10-10,经过编辑】

Net.Weblog.20041010.txt

鲍林:“观念是富于创造力的脑子拉的屎,所有人都在拉,但功劳通常不属于创意者,而是属于那些致力于将之变成事实,并为世界接纳的那个人。”

使劲拉吧!

————–

(B是我)

A: 我们现在在做游戏 :)

B: 啥

A: 自己设计游戏。你有做过游戏程序设计吗?

B: 没有。什么游戏 啊

A: 我们才开始学,很基础。opengl ,maya什么的,一些老办法。我想做有新意的游戏,做全新的体验模式。

read more

要搞一个基于wiki和ontology的网站[2003]

Net.Weblog.20031202.txt

2003-12-02

I get tired of HTML and text in only natural language, I get tired of ftp, I also get tired of careful maintenance of my all online resources: Public BBS, Academic Notes, …. , and this homepage. It’s even hard for myself to find useful topics in the homepage, as it becomes bigger and bigger.

It’s time for semantic integration and some intelligence.

I’m trying to build a new site based on Semantic Web. Technologically, it’s a wiki system with the support of a controlled ontology, and some code work to convert old homepage into wiki pages. It will be ready probably in this month.

read more

中美百万人口城市[2004]

Net.Weblog.200402.txt

2004-02-10

US has different statistic standard in urban population counting. Only 9 cities are listed as one-million-population city

  • Los Angles,
  • San Diego,
  • Phoenix,
  • Dallas,
  • San Antonio,
  • Houston,
  • Chicago,
  • Philadelphia,
  • New York

[encarta map|http://encarta.msn.com/encnet/features/mapcenter/Map.aspx?name=United+States]

However, big cities usually covers more than one county, but the sub urban area is not counted in the city’s population. Whilst in China, lots sub urban agriculural population is also counted in.

In 2000, 49 cities in USA have more than 1 million population<br>
[Citation|http://www.demographia.com/db-usmet2000.htm]<br>

read more

看Signs[2004]

【原文写于2004-12-10】Net.Weblog.20041210.txt

Mel Gibson的这部片子非常非常的弱智

符合他从<爱国者>以来片子的一贯风格

也非常的小布什
愚蠢而可笑
还自以为伟大崇高
神圣使命

外星人出场和他们打架那一场, 让我笑得打滚 – 明明是搞笑片吗! 演员越严肃, 搞笑效果越是好!

最后男主角又当了牧师, 重抄传播精神鸦片的伟大使命, 实在是搞笑之极品, 和至尊宝去西天取经是一个道理.

read more

睡觉记

(Guest Post from 妞妈)

妞妞每天9:00PM才上床,10:30-11:30才睡着。在她睡着之前,妈妈总得和她耗上,搞得妈妈每天精疲力尽。从今天开始,我们下定决心,培养她早睡早起。今天第一天,还比较成功。

1)爸爸妈妈不car pool,妈妈下班回家先给小妞做好饭。

2)爸爸下班去接妞妞,半个小时的样子到家。

2)妞妞一到家妈妈就陪妞妞吃饭。然后开始洗澡,玩到8点上床。在手机上玩angry bird 和flash。

read more

ISWC数据的24种武器[2010]

原文写于2010-11-08

http://tw.rpi.edu/weblog/2010/11/08/15-ways-to-explore-iswc-2010-data/

15 (and counting) Ways to Explore ISWC 2010 Data

This year at ISWC, when we worked on the metadata, we have a Data Consuming task force to develop tools that can browse/visualize the data many different ways, e.g., faceted browser, filter browser and mobile browser.

As soon as we have the basic dataset published, we immediately get feedback from people on off-the-shelf tools that can work with the data. The list is quickly growing. I collected the screen shots of some working instances (including tools the metadata committee has built) in a slides. I have no doubt that the number “15″ will be changed when the main conference begins …. in 2.5 hours! So expect some updates very quick.

read more

ISWC Twitter数据动态[2010]

原文写于2010-11-08

http://tw.rpi.edu/weblog/2010/11/08/quick-update-on-iswc-twitter-data-1/

At ISWC 2010, there are several on-going efforts to leverage Twitter data. Some ones that I’m aware of are:

Joshua Shinavier has helped to build a triple store (powered by AllegroGraph) that contains tweets related to the conference, along with basic ISWC metadata. Here is an example of SPARQLing with the triple store (details about tweets with tag #iswc2010 and #iswc). More examples and guide on how to use the triple store will be out soon.

read more

ISWC元数据上线[2010]

原文写于2010-01-05

http://tw.rpi.edu/weblog/2010/11/03/iswc2010-metadata-is-online/

ISWC2010 Metadata is Online

Below is an announcement I just sent for the ISWC2010 Metadata.

========

Dear SWers and LODers

ISWC2010 is around the corner and we are very excited about the coming week!

As in previous years, ISWC 2010 provides its basic metadata in RDF. The dataset gives details about authors, organizers, papers, events (e.g., sessions and talks), and some mappings to other linked data. The data is freely available at http://data.semanticweb.org/conference/iswc/2010, and can be downloaded as a single RDF file. There is a SPARQL endpoint [1] for this dataset, as well as for some previous ISWC/ESWC/WWW conferences. For more details about access, please refer [2].

read more