LinkedIn地图:一年来变化

去年1月试用了一个LinkedIn的应用: InMaps (http://inmaps.linkedinlabs.com/),可以把你的社交网络转化为一个图,并根据相互关系做聚类。见《我的LinkedIn联系人的可视化》。今天比较了一下这一年来我的LinkedIn网络的变化。

去年(2012-01) 的版本

 

linkedinmaps

现在(2013-01)的版本,大约增长了100出头节点

inmap2013

对InMaps聚类算法的几点观察

  • 基本就是三块:同行,同学,同事。这一年来的增长主要是同事和同行。
  • 这一年新增了在三星的同事这一类; 在BBN的同事也被单独划出来了
  • 在同行里,原来还有semantic wiki这个分类,今年没有被单独聚出来
  • 在两个版本里,最主要的链接枢纽(连接不同的聚类)都是博士导师。稍次要的枢纽节点是做博士后期间的两个导师。还有一个枢纽节点是最重要的合作伙伴。InMaps的会把枢纽节点画得比较大,具体到我这个例子还是很精确的。
  • 同行里的中国人被单独分为一类,同学里的中国人也如此。但同事的中国人就没有。可见中国人的圈子相互比较紧密。同事里中国人比例还不够多,聚不成类
read more

Elastic Search与语义网

过去半年关于Elastic Search的几条微博。更多

最近几天在玩Elastic Search集群。现在还很小,只有5,6台机器。和Solr比起来,实在是太方便了。如果已经熟了Solr Could设置,那可能没多大区别。可对新手,ES几乎可以做到零配置构建集群,完全封装的数据分片、自动冗余复制、自动发现、分布式查询、负载均衡,就太友好了。2013-01-06

Elasticsearch拿到了1000万美元投资。单月下载量达到了20万 http://t.cn/zjE6VmFElasticSearch和Solr有什么区别?Solr 是一个搜索引擎,而ES是一个NoSQL数据库,有比其他数据库更好的搜索能力 2013-01-04 14:12

read more

关于忽悠

汇总几条微博

想不被人忽悠,读万卷书,行万里路。读万卷书增加历史的纵深感,知道事情的沿革,不静态地看事情。行万里路,实地接触不同的人群和社会,不孤立地看事情。不过,许多人读了万卷书,行了万里路,豁然开朗,就摇身一变成“导师”,接着去忽悠别人去也。

20岁的人不不靠谱,那是没良心。30岁的人还不靠谱,那是没头脑。40+岁的人又不靠谱,那八成是揣着明白当糊涂,想忽悠20岁的人

read more

2012年语义网相关领域新成立的公司

在CrunchBase上做了一个搜索 http://www.crunchbase.com/search/advanced/companies/1869976 (结果中有些和语义网无关的,过滤了)

有这么一些2012年成立的,和语义网切实有关的公司

  • Meronymy:高性能SPARQL数据库,创始人Inge Henriksen
  • Silk:数据质量提升,结构化数据
  • Comenta.TV: 用本体做电视内容导航。BTW, 这个Google也在做,NoTube结束后Dan Brickley就去了Google
  • SindiceTech:这个不是新产品了,DERI的好东西,RDF数据存储和检索
  • SpazioDati: 数据集成与curation
  • Modusly: 又一个用语义技术的客户关系管理CRM公司
  • SQMOS: 客户建模,做移动平台上的精准广告投放

当然,这肯定是一个不完全统计。单是在SemTech 2012上出场的几家公司就没有被包括进去。总的来说,语义网领域的创业还在早期阶段,不过重点已经从早年的提供工具为主转向为具体的问题域提供解决方案。这是个可喜的变化。

read more

转移博客到自己的主机

从2011年3月起,“语义噪声”就托管在Wordpress.com。对它的服务很满意,不过为了更大的自由度,决定把这个博客转移到我自己在Amazon EC2的主机上。

转移后有这样几个好处

  • 可以安装任意插件(plugins)
  • 可以和其他的组建更好地合作。比如现在的搜索是基于Elastic Search
  • 更好的中文环境支持,如Denglu评论
  • 数据自由度更好,比如视频,不需要先上传到Youtube上了
  • 数据更安全些

原来的域名blog.baojie.org不变。原博客baojiebaojie.wordpress.com会保留一段时间再关了

P.S. 2012-01-06 Elastic Search的分词有问题,默认把每一个汉字都作为一个词。换为paoding分词系统,加上自己的词典就好了。我用了medcl的ES RTF (ready to fly) https://github.com/medcl/elasticsearch-rtf/

read more

小可人儿妞妞

妞妞快三岁了。近期一些言论如下

1) 妞:爸爸你还没下班吗?你快回来吧,我想你抱我

2) 妞:爸爸给你吃

爸:为什么啊

妞:因为我喜欢你啊。我们是好朋友

3)妞(看电视):我不要老鼠(摆手),我要黑猫警长。黑猫警长是我的好朋友

4)妞:丫丫妹妹不要哭,姐姐帮你找牙齿

5)妞:我要吃棒棒糖!

妈:好,但只能吃一下。吃多了牙齿会长黑虫

妞(舔了几分钟):好了,我吃好了,你给我没收了吧

read more

关于Graph Database

2012年4月到12月间一些关于Graph Database微博的汇总

http://www.weibo.com/xiguadawanzitang/profile?is_tag=1&tag_name=GraphDB

OWL推理一个思路是通过hypertableau,做模型构造。另一个思路是作为图论问题,通过图的构造,最大化可并行性任务(如“或”)。在推理任务的另一端,简单如 semantic wiki的推理,我们也发现推理的所有任务都可以归结到图的路径计算。http://t.cn/zjVMZsw 用图数据库做语义网的数据平台是很自然的

read more

Microdata, RDFa, 语义超摩尔定律

HTML Working Group和RDFa主席反对Microdata的文章: Objection to Microdata Candidate Recommendation

Microdata是schema.org的数据格式。几个有趣的论点:1)Microdata和RDFa基本重叠,而RDFa已经是标准 2)除了Google,几乎没有人用Microdata(<1%)。我的观点:其实,不是已经有JSON了?

Peter Mika和Tim Potter今年关于Web上元数据统计: Metadata Statistics for a Large Web Corpus

30%的网页有语义元数据。几个主要的元数据网站是Facebook, tabelog,venere, yahoo, tripadvisor(含中文网站daodao), answers, myspace。基本就是两个领域:交友和旅游。从数据总量看,Facebook和tripadvisor是两个最大的语义网上的公司

read more

语义网的高级语言

在谈论语义网的时候,要和RDF路线区分开来。

和一些人谈到语义网,他们说:“语义网死了”。如果从RDF的角度来说,是的——虽然W3C路线的支持者还不承认。

但是这种观点,就如同计算机在只有机器语言,没有高级语言的时候就断言:“计算机死了”。

我大胆提出两个假设

  • RDF是一门低级语言,只适合机器使用——如同机器语言或者汇编语言
  • 语义网需要一门高级语言,面向工程师(人),用来做大规模知识库的写作、重用

为什么说RDF是低级机器语言?

  • 用URL来寻址并不错。但是把精确寻址的任务交给人,要求人来设计URL,就如同在C编程中要求人对每个变量赋予内存地址。
  • RDF是一个“平坦”(flat)的语言,缺少内部的组织单元。有很多建议,引入诸如package, named graph这样的组织单元,但目前还没有达成共识或广泛采用。
  • RDF的语法,即使是Turtle,也没有可读性,理解和重用起来非常困难。
  • RDF缺少“宏”或者构造高层次组织的能力。其实SPARQL弥补了一点,就是graph pattern;一些语言如SPIN,把graph pattern作为可重用的单元,甚至可以生成新的数据。如果把这个能力作为RDF原生的能力就好了。

2010年RDF Working Group开预备会议,我也与会了。现在回来看,我那时的想法是错误的:为RDF引入更精确的语义,基于上下文(context)的组织和寻址,并不合适——虽然Pat Hayes后来很喜欢这个想法并在工作组内推一个类似的想法

read more

一个个人知识管理系统

今天看这篇文章:《个人提升方法三部曲:行动,记录、总结

过去这半年来,其实我一直在按这篇文章说的步骤来管理自己的知识。开发这个系统用了我大概一个月的业余时间,随时记录,每天生成总结。现在已经完全离不开它了。

基本技术路线:用semantic wiki做数据录入,用Python API(mwclient)做报表、分析。一点点自动化,每个知识点还是要人产生摘要,然后就可以用各种预先定义好的graph pattern推送到各个页面去。有一点点entity extraction,算是知识提取自动化。语义查询、检索、faceted browsing,可视化,支持知识的进化和重组。这些是知识管理的基本功能。半年多下来,大体每天能积累7-8个新的知识点,现在有上千个了。

read more

通信的语法,语义和语用层次:一封推荐信

以前在研究“语义信息论”(Semantic Information Theory)的时候,涉及到通信的三个层次:技术的,语义的和效果的。这个层次划分是(Weaver 1949)说的。香农的传统信息论只涉及技术这个层面。

从语言学的角度,这三个层次可以大致对应于语言的语法Syntax、语义Semantics和语用Pragmatics三个层次

今天在看《语言本能》(The Language Instinct)这本书,里面举了个很有意思的例子,可以做这三个层次的范例

read more

统计机器学习的一点感想

最近看了两篇文章,有些感想。

Chomsky和Norvig都是人工智能界的泰斗级学者,他们各执一辞,论述自己对统计机器学习的看法。两篇文章看完,都让人深受启发。

争论的大意是,Chomsky认为统计方法虽然在工程上有效,但是太“肤浅”,没有展示问题的本质。Norvig说,可是这玩意就是有效、有效、有效,这里是例子、例子、例子。

其实两个人说得都没错。这里我做个类比:

一天24小时,一年365天多一点,这个是统计学习。古人从海量的数据里得到了这些规律,用来指导生活,简单有效。伟大的天文学家如第谷,编制了大量的星表来表述这些统计发现,在一定范围内是准确的。

read more

语义网是NonRDF: not only RDF

为什么会有人认为仅仅做个d2rq,rdf就能解决关系数据库不能解决的问题呢? 这种对rdf的迷信,恰恰是语义网迄今普及不利的原因。技术之间的竞争,往往不仅是能力的竞争,而是整个工具系统之间的竞争。语义网的rdf阵营,在工具系统上的劣势,不是几年能弥补上的

过高的期望自然导致失望。语义网的核心是结构化数据,高质量结构化数据,可以产生新数据的高质量数据(即推理)。在从其它格式到rdf的转换中,如果没有数据质量的提升,就期望解决诸如数据集成,语义理解之类的问题,那很典型的,一年以后项目就被砍掉或死撑。

read more

用Python发博客

本文是用Python发的

(下面是后来手工改的)

用的是这个包 https://github.com/charlax/wordpresslib

需要手工安装

git clone https://github.com/charlax/wordpresslib.git
cd wordpresslib
python setup.py install

Python代码是

import wordpresslib

url = "http://yourblogurl.com/xmlrpc.php"
wp = wordpresslib.WordPressClient(url, 'user', 'pass')
wp.selectBlog(0)

post = wordpresslib.WordPressPost()
post.title = '用Python发博客'
post.description = '本文是用Python发的'
post.tags = ["wordpress", "lib", "python"]
idPost = wp.newPost(post, True)
print "posted as", idPost
read more

语义网与HCI

胡乱写几句。不列推理过程,不列参考文献

貌似资本市场已经开始炒知识Web这个方向了。诸位语义网同仁的马甲大概快可以扒下来了

在今后1-2年内,语义网技术推向大众市场(企业市场和专有领域是另一会事),机会在哪里?我以为其一是智能界面,一些全新的服务形式。或许是,或许不是对现有服务,如搜索和社交网络,的扩展。更有可能不是。

Siri是一种,但不是唯一的一种。Tom Gruber说Intelligence at Interface (I@I),语音个人代理只是一种表现形式。

read more

语义网相关文章:一年汇总

今天整理了一下过去一年写的和语义网相关的一些博文。分类如下

为什么最近写的少了?两个原因

  • 最近3个月太忙,基本没有时间写长文;各种短的火花,都写在微博上了
  • 条条框框很多,带着脚镣跳舞,还不如不写
里面有些文章是坑。很抱歉,估计一时半会是填不了了。

目录

  • 1 形而上学
    • 1.1 旧讨论贴
    • 1.2 旧英文贴
    • 1.3 反思
    • 1.4 产业评论
    • 1.5 新思维
    • 1.6 新思维2
  • 2 工程实践
    • 2.1 问答系统
    • 2.2 会议元数据
    • 2.3 其他应用
    • 2.4 语义网语言
  • 3 产业化
    • 3.1 语义网的公司
    • 3.2 创业
  • 4 个人研究
    • 4.1 描述逻辑
    • 4.2 Context
    • 4.3 域态逻辑
    • 4.4 语义信息论
    • 4.5 语义维基
    • 4.6 Web Science
    • 4.7 咬文嚼字
    • 4.8 胡思乱想
  • 5 杂谈
    • 5.1 入门与普及
    • 5.2 八卦
    • 5.3 活动
    • 5.4 其他

1 形而上学

旧讨论贴

究竟什么是Semantic Web?[2008] http://blog.baojie.org/2011/11/23/what-is-semantic-web-2 语义网: 检讨与展望(2008) http://blog.baojie.org/2011/04/06/semantic-web-2008/ read more

大宝宝,大宝宝

【妞妈作品】

最近爸爸为了鼓励妞妞自己干活,就说“妞妞是大宝宝了,应该自己吃饭(刷牙等)”。没想到妞妞学得真快,大部分事情都要自己做,比如洗脸,刷牙等。大多数情况下是件美事,但是也有让爸爸妈妈很无奈的时候。比如早上出门,挑好的衣服,她硬是不穿,理由是“妞妞是大宝宝了,自己找衣服”。她花好久,终于决定穿什么衣服,爸妈一看,衣服上下颜色样子不搭配,很滑稽。接下来,爸爸妈妈争分夺秒想赶快给她套上出门,结果,在她哭哭啼啼要求“妞妞是大宝宝了,要自己穿”的时候,爸爸妈妈怕上班迟到,给她强行套上,她一定要扯下来,自己重新花N倍的时间套上。

read more

安全网与冒险

最近想,有些聪明的年轻人,为什么不去冒一点点风险?不一定要象Bill Gates, Steve Jobs那样本科辍学,象Larry Page那样,发现有一个好的想法,又有实现的可能,赶快去实现,即使意味着推迟甚至不要学位了?

然后我问自己,我自己当年能不能做到?大概也是做不到的。今天能不能做到?要有多少准备才能承担相应的风险?

一个人敢冒多大的风险,通常取决于他有多大的安全网。

从小受到的教育,基本都是追求安全和避险。这些概念往往是根深蒂固在头脑里了,清理起来非常困难。

read more

博客读者的地理分布

刚发现Wordpress现在可以看博客读者的地理分布了。下面是最近一个月(也许不到一个月)我的博客“语义噪声”的地区分布(地图在后)

最近一个月我基本没有在社交媒体上给我的博客做引用。主要的流量都是搜索引擎和个人主页上来的。

结论:主要的读者在美国。来自中国大陆的读者比例很低,可能是因为翻墙不方便。

United States FlagUnited States52%
China FlagChina10%
Taiwan, Province of China FlagTaiwan9%
Switzerland FlagSwitzerland7%
Germany FlagGermany6%
United Kingdom FlagUnited Kingdom5%
Netherlands FlagNetherlands3%
Hong Kong FlagHong Kong2%
Japan FlagJapan2%

(1%及以下的就略了)