一个数据创业的小公司

今天去一个很有特色的小公司访问。本来想写一个长一点的,但没时间了,就随便写几句。小公司的ceo以前还开了一家,被大公司买了,非常成功,反正是一个 家喻户晓的成功产品。在大公司干了几年,想实现自己的理念,认为数据应该人人都可访问,就跳出来开了这家公司。又支持了几个开源项目也是这个理念。

小公司的ceo且称为A, 乍一看根本不象个亿万富翁,就和个数学系的研究生似的,和我们见面仿佛见教授的那种眼神。然后自我介绍,非常低调,说我上一个公司,也不知道自己能做什么,反正搞搞数学,试试。现在这家,也是想试试。压根就不提被大公司收购,挣了几亿刀的事。

read more

2012年语义网相关领域新成立的公司

在CrunchBase上做了一个搜索 http://www.crunchbase.com/search/advanced/companies/1869976 (结果中有些和语义网无关的,过滤了)

有这么一些2012年成立的,和语义网切实有关的公司

  • Meronymy:高性能SPARQL数据库,创始人Inge Henriksen
  • Silk:数据质量提升,结构化数据
  • Comenta.TV: 用本体做电视内容导航。BTW, 这个Google也在做,NoTube结束后Dan Brickley就去了Google
  • SindiceTech:这个不是新产品了,DERI的好东西,RDF数据存储和检索
  • SpazioDati: 数据集成与curation
  • Modusly: 又一个用语义技术的客户关系管理CRM公司
  • SQMOS: 客户建模,做移动平台上的精准广告投放

当然,这肯定是一个不完全统计。单是在SemTech 2012上出场的几家公司就没有被包括进去。总的来说,语义网领域的创业还在早期阶段,不过重点已经从早年的提供工具为主转向为具体的问题域提供解决方案。这是个可喜的变化。

read more

语义网相关文章:一年汇总

今天整理了一下过去一年写的和语义网相关的一些博文。分类如下

为什么最近写的少了?两个原因

  • 最近3个月太忙,基本没有时间写长文;各种短的火花,都写在微博上了
  • 条条框框很多,带着脚镣跳舞,还不如不写
里面有些文章是坑。很抱歉,估计一时半会是填不了了。

目录

  • 1 形而上学
    • 1.1 旧讨论贴
    • 1.2 旧英文贴
    • 1.3 反思
    • 1.4 产业评论
    • 1.5 新思维
    • 1.6 新思维2
  • 2 工程实践
    • 2.1 问答系统
    • 2.2 会议元数据
    • 2.3 其他应用
    • 2.4 语义网语言
  • 3 产业化
    • 3.1 语义网的公司
    • 3.2 创业
  • 4 个人研究
    • 4.1 描述逻辑
    • 4.2 Context
    • 4.3 域态逻辑
    • 4.4 语义信息论
    • 4.5 语义维基
    • 4.6 Web Science
    • 4.7 咬文嚼字
    • 4.8 胡思乱想
  • 5 杂谈
    • 5.1 入门与普及
    • 5.2 八卦
    • 5.3 活动
    • 5.4 其他

1 形而上学

旧讨论贴

究竟什么是Semantic Web?[2008] http://blog.baojie.org/2011/11/23/what-is-semantic-web-2 语义网: 检讨与展望(2008) http://blog.baojie.org/2011/04/06/semantic-web-2008/ read more

语义网的公司 True Knowledge

http://www.trueknowledge.com/

https://market.android.com/details?id=com.trueknowledge.android.evi

网站实验效果——很不错

(坑,待填)

P.S. 2012-04-17 这个坑一时填不了了,反正现在不填。

语义网的公司(9): Garlik

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

read more

语义网是给人用的

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Web approach instead develops languages for expressing information in a machine processable form.

read more

知识与智能

有一段时间,我很纠结于语义网的应用有没有用到推理。连推理都没有,叫什么“语义”网呢?

今天看禅宗故事,赵州和尚说:“放下著。”猛然想,其实应该放下“推理”,语义网并不一定需要推理,至少现在还不需要。

推理是什么?是从一些已知的知识得到一些隐含的知识。这是智能的一种。

知识和智能有什么区别?古人和现代人(更精确些,他们中最聪明的那一小撮),知识上可能有区别,在智能上,其实差别就不见得有多大。“上知天文,下晓地理”,“前知五百年,后知五百年”,这大部分是知识,不是智能。“道旁苦李”、“想君小时,必当了了”,这是智能(某种推理),不见得需要太多知识。

read more

schema.org可能面临的几个挑战

本篇是我《schema.org浏览笔记》(2011/06/13)的续。

首先声明,我和schema.org的参与组织(Google,Yahoo,Microsoft,新近又加了Yandex)没有任何直接接触,我的信息可能是不充分或者过时的。特别是,我没有看到schema.org的市场统计数据。因此,我的观点主要是形而上的思考,而不是实证的结果,可能是不正确的。我的观点,和我这个博客上所有一切其他文章一样,不代表任何我过去、现在、将来雇主的观点。

read more

语义网的公司(8):Chevron

Chevron(雪佛龙)是一家石油公司,不是互联网的公司。之所以在这个系列里写这个公司,是因为Chevron是一个很有代表性的传统行业的公司试图做语义网应用的例子。写了它,其他很多公司都不必写了。

我素材主要来自下面这些

先说一个基本评价:到目前为止,语义网在雪佛龙的应用,只获得了非常有限的成功。这种成功,主要是技术的而不是商业上的。公平地说,这不是雪佛龙的错,而是语义网界早期提供的样板模式,真的不大靠谱。

read more

SIRI的贡献和价值

11月9日,techcrunch上有一篇很好的讲SIRI的文章:Gary Morgenthaler Explains Exactly How Siri Will Eat Google’s Lunch。文章内容很丰富,很值得一读。

我以前也写过一篇《语义网的公司(6)Siri》。Morgenthaler的文章从商业和战略的角度更好的解释了SIRI的意义。

总结有这么几点

  • SIRI直接引导到Transaction(比如订票)而不是查询。通过Transaction的自动化,广告的需要会下降。
  • SIRI引导了用户界面的新革命:语音控制,而且不是传统的机器人似的的语音控制
  • SIRI可能会成为一个开放的平台,尽管目前只支持15个应用领域(如音乐,日历);这会成为安卓系统的强大不利因素。

关于SIRI的技术贡献,文章说:

Ultimately, Siri’s value is that of automation and removing “friction” on the Internet. Siri achieves this by: (1) understanding speech input in natural language form, (2) mapping user requests against its knowledge base (i.e., ontological domains) and (3) activating software “agents” to interact with Internet service providers to fulfill user requests.

read more

口碑问题

搬家到湾区来,几乎所有的决定都要看评价(Review)或者问朋友:
* 公司待遇好不好?Glassdoor
* 找房子,看 city-data, zillow, trulia, padmapper, yelp,问熟人,mitbbs
* 找托儿所,看yelp,问熟人

* 吃饭,看yelp,chinesefoodmap,问熟人
* 找儿医,看yelp,ratemds, healthgrades 等

感觉现有的评价网站有如下问题
* 数据集成不好,要我看很多网站(前提是我知道这些网站!)
* 用户界面不够灵活,比如不能做地图,图表;不能比较,过滤
* 不能针对我的个人背景自动匹配。比如某中餐馆,评价很好,但是去了才发现,全美式,难吃至极。
* 不能深入区分不同的评价人,如按年龄,种族等。比如某人抱怨某地亚裔太多,对我却是好事。
* 不能区分评价的不同侧面。比如有人抱怨诊所停车位不够,给了一个低分;我就不会关心这个。
* 不能考虑评价的时效性。比如有人说某公寓很吵,给一个低分。因为2008年的某时那里施工;这个对我现在的找房子,本应该没有影响。

read more

要命的Tetherless World

我老人家在地球上这些年来,有那么几次对某种技术产品着魔。何谓着魔?就是韦小宝见到阿珂的那感觉:

韦小宝一见这少女,不过十六七岁,胸口宛如被一个无形的铁锤重重击了一记,霎时之 间唇燥舌干,目瞪口呆,心道:“我死了,我死了!哪里来的这样的美女?这美女倘若给了 我做老婆,小皇帝跟我换位也不干。韦小宝死皮赖活,上天下地,枪林箭雨,刀山油锅,不 管怎样,非娶了这姑娘做老婆不可。”

read more

语义网的公司(7)BBN

BBN的总部在Cambridge, MA (马萨诸塞的剑桥市),也就是MIT所在的地方;在DC有一个分部,以方便和大客户(也就是美国政府)打交道。它的几个创始人(也就是B、B和N),是MIT的校友。BBN并不大,600多人吧,但是小而精,网罗了很多第一流的人才,比如John McCarthyMarvin Minsky都在BBN工作过。最近20年,它被大公司卖来买去,现在是雷神( Raytheon,造战斧导弹的那个)的一个子公司,所以全称是Raytheon BBN Technologies.

read more

语义网的公司(6)Siri

Siri是iPhone上的一个应用。主要的用处是你对着iPhone说一句话,比如“MIT附近的意大利餐馆”,它会做语音识别+自然语言理解,然后查一些数据库(比如OpenTable, Yelp, Tickets.com),把结果以友好的方式,比如地图,展示给你。

下面这个视频演示了Siri的基本用法:

[youtube=http://www.youtube.com/watch?v=MpjpVAB06O4]

这家公司成立于2007年12月,到2010年4月就被Apple给买了。Siri的背景很强大,她的母体是SRI International(原斯坦福大学研究所),成果部分产生自CALO(Cognitive Assistant that Learns and Organizes)工程(主页在此,RPI也参与了CALO,见此)。CALO是一个军方资助的项目(SRI大部分项目都是政府或者军方的,这也是为什么它被迫从斯坦福大学独立出来),目的是开发Personalized Assistant that Learns (PAL),钱特别多,足足养了300多人,先后发了500多篇文章。最后附带产生一个Siri,那是小儿科——尽管它最后的产业化还是花了5年并让开发团队平均每人长了14磅肉

read more

语义网的公司(5)Vulcan: Project Halo

Vulcan Inc.是一家投资公司,由微软的共同创始人Paul Allen创建,在西雅图(Seattle, Washington)。

Vulcan投资很多事情,比如宇宙飞船。Allen的钱已经足够多,有些投资看起来纯粹是兴趣或者好奇,并不打算挣更多的钱。他对语义网和知识管理的投资,大概就属于这一类。

这个方向,主要是一个Project Halo,主页在http://www.projecthalo.com/。长期目标是开发一个数字亚里斯多德(Digital Aristotle)系统,一个可以解决复杂的科学问题或者日常问题的推理系统(a reasoning system capable of answering novel questions and solving advanced problems in a broad range of scientific disciplines and related human affairs.)现在,它的主要应用域是教育,并试图解决知识获取和自动推理中的若干问题。

read more

语义网的公司(4)Revelytix

Revelytix也是一个小公司(主页TwitterFacebook),成立于2005年。公司在DC北边不远Sparks, MD。我和他们接触不多,主要信息来自一个听他们一个talk。但是我用knoodl很久了,很喜欢,一直不知道是他们公司的。

先说Knoodl。这是一个基于语义维基(semantic wiki)的本体编辑器。你可以建一个帐号,然后建本体,支持OWL,也支持SPARQL查询,可视化(OntVis),版本功能等。Protege有一个在线的版本,功能很差,没有Knoodl好用。我自己其实很饭这个基于维基的本体合作开发,用jspwiki和SMW都试过。这个事,说起来容易做起来难,特别是用户界面的事(我试过表单+受控自然语言)。Knoodl用户已经不少。我个人觉得,在线编辑和合作编辑是方向,Protege和TopBraid Composer只适合专家用户,对大多数公司的大多数人,用wiki做一个简化的本体编辑器,比较靠谱。Revelytix似乎也用Semantic MediaWiki (SMW)。

read more

语义网的公司(3)Franz

这家公司在硅谷Oakland,主页是http://www.franz.com/。很小的公司,不到十个人,有tech geek的工作作风,有点象硅谷其他的startup;很多活是请顾问(consultant)和实习生(intern)来做——这也是很多小公司的工作方法。

主打产品是AllegroGraph(AG),一个TripleStore。AG是基于Lisp的,有很好的编程界面。从学术的角度,AG是有独到的地方的,很多传统的AI的东西都可以加进来。比如时态推理和空间推理,AG都支持。SPARQL当然是支持的,尽管有人认为不是最好的。推理上,他们称为RDFS++,就是RDFS加owl:sameAs,owl:inverseOf和owl:TransitiveProperty。现在他们还做社交网络数据的支持,比如Twitter的数据。应用也蛮多,比如交通。

read more

语义网的公司(2)Oracle

Oracle的语义网组(称为Oracle Semantic Technologies)在Nashua, NH。Nashua是个小城市,离波士顿大概1个小时的样子。

我以前住在Oracle公司的街对面,散步的时候经常会溜达过去。我和他们的接触,开始来自和Alan (Zhe) Wu在OWL Working Group(工作组)的共事。他们和RPI关系很好,我们常有学生去实习。双方对对方的研究进展,还是比较了解的。

Oracle数据库从10g开始(现在是11g),支持RDF。工业界是很实用的,所以对OWL DL之类,他们并不实现。有一个OWL Prime,是对RDFS的一个小扩展,是他们支持的一个OWL的子集。他们还和Jim Hendler一起提出了RDFS 3.0 ,算是他们认为有用而又可以比较经济地实现的。后来的OWL 2 RL和OWL 2 QL,设计的理念和这个不同——OWL工作组的主流认为,这些OWL的子集是以技术为准绳的,凡是是理论上可以加进去的(也即,不破坏多项式时间复杂性的)元素,都要加进去;凡是理论上不能加的(比如OWL QL中的owl:sameAs),都不能加。那Oracle(或者其他工业界的公司),并不怎么在意这两个凡是的,反正我的产品里,用户最需要什么,我就要支持什么。他们现在也支持OWL RL和OWL QL,而且往里面加了一些可能逻辑学家觉得不能加的东西——不过工程吗,总有工程的办法。谁会在乎最坏时间复杂性呢?能用,就好。比如去年他们的ISWC 2010文章 [1],就讲了对owl:sameAs推理的一些技巧。

read more

语义网的公司(1)Openlink

今天开始整理一些和语义网相关的公司的情况。并不是系统的介绍,只算是我知道多少讲多少。有些公司的业务和运行模式或许有借鉴意义。语义网的公司太多,我接触的很少,只能只挂一漏万地做一点笔记。找这些公司,最好的渠道是Semantic Technology Conference (SemTech)。

先说Openlink。公司的网址是 http://www.openlinksw.com/

先说它是因为它离我家很近——Oracle更近,下一个讲。这个公司注册在美国Burlington, Massachusetts,在欧洲也有几个点——其实这更多是一家“虚拟”企业,用网络联系起来工作的一种模式。很小的一个公司,大概五、六十人的样子(可见每个点都很小),历史倒不短(相对而言),成立于1992年。公司目前最主要的产品是Virtuoso Universal Server,是一个语义数据库(semantic database, or triple store),功能很强大,RPI的开放政府数据网站用的就是Virtuoso。这个系统现在又有很强的互联数据支持(linked data),可视化模块等。软件是免费的,主要通过服务赚钱。还有一个开源的版本,在SourceForge上。搭中小型的应用,个人觉得这个数据库系统很好用;大的应用我没接触过,没有经验。

read more