学习的陷阱

最近两个月主要的工作就是学习,学习到脑子要爆炸的程度。

到了企业工作以后,工作的重心发生了改变。从做最前沿的探索,到怎么搭系统解决问题,我需要了解很多以前不熟悉的领域

  • 自然语言理解
  • 用户界面和用户体验
  • 新型数据管理的方法,如文档数据库(document database)和三元组数据库(triple store)
  • 多种数据通信与交换协议
  • 新的编程语言和工具,如Python
  • 非技术的,方法论问题,企业文化问题,产业环境和市场动态问题

上述问题的解决都似乎是建立一个可用的产品必要的前提条件。

在杀死一棵树后,看着堆积如山的一堆打印文稿,我突然感到一种危险:我又要进入学习的陷阱了。(为什么要说“又”?)

我可以一直学习下去,学上一整年,还是不能做出一个有用的系统。

read more

语义网的公司(9): Garlik

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

read more

执行力与组织研讨会

还是不理解什么是执行力。拿组织研讨会(workshop)来类比

  1. 资历,所在机构——信誉,资源,实在不济拉大旗作虎皮
  2. 合作人(vs. Co-chair)
  3. 团队(vs. PC)
  4. 定位,认识,预期(vs. proposal)
  5. 技术手段
  6. 烦而不难的事务性工作
  7. 营销(vs. Publicity)- 录音里没提,也非常重要

语义网是给人用的

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Web approach instead develops languages for expressing information in a machine processable form.

read more

SIRI背后的关键人物Adam Cheyer

Adam Cheyer 的历年工作
http://adam.cheyer.com/demos.html

Ontolog 上两个谈话:

Ontology Management in CALO, a Cognitive Assistant that Learns and Organizes
http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2006_05_04

Siri: An Ontology-driven Application for the Masses
http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2010_02_25

From his LinkedIn

I have a passion for inventing, integrating, and applying advanced technologies to solve real business problems. I also have experience managing research and development teams for large and small companies.

read more

Siri Patents

Method and system for generating an ontology

http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=8,027,948.PN.&OS=PN/8,027,948&RS=PN/8,027,948 

Another article summarizes some key high-level designs of Siri

http://www.unwiredview.com/2011/10/12/how-siri-on-iphone-4s-works-and-why-it%E2%80%99s-a-big-deal-apple%E2%80%99s-ai-tech-details-in-230-pages-of-patent-app/ 

which is based on a 230-page SIRI patent application titled Intelligent Automated Assistant (also attached)

read more

语义网的一些形而上学

me: 语义网的一些形而上学,就是怎么和数据走得更近一些, 和用户走得更近一些。什么技术其实都是末节,模式的变迁才是最关键的。TBL发明Web的时候,也不是有什么特别牛逼的技术发明。关键是把好的技术整合到一个合理的模式上。LOD, schema.org等等,都算不上模式的变迁。长远看,价值都很有限。

问:SW用在了什么模式上呢

me: Siri。这个特别值得注意。Apple提交了一个230页的专利。里面有很深刻的东西。

read more

执行力与卖饺子

和搞创业的朋友聊体会,都说“执行力”的重要。点子重要吗?不重要,因为好点子太多了。什么时候会因为一个产品点子好而叹服?只要平常留心技术发展,这种事情是很少的。更多的时候,是“这个我好几年前就想到了,怎么给他们先做出来了?

我就想什么是执行力?我们家妞妞原来的保姆很会做饺子,我们都说,阿姨,你该去开个店,一定挣钱。做饺子其实很简单,我也“会”做,但是做出来就是没有阿姨做的好吃。这个差别就是技术了:和面,擀皮,做馅,开蒸,每一步都有小窍门,非动手多做,学不会。阿姨听我们说她饺子好吃,很高兴,但是让她去开店,一时是开不成。如果她再年轻二十岁,英文过关,慢慢摸索进货,招工(“团队”),财务,相关法规这些,未必不能试一试。只是就算店开起来了,未必卖得出去——因为我们中国胃爱吃的,美国人不一定爱吃;阿姨的饺子,只怕要改进得“难吃”一点,才能广开销路。其他的困难,我没干过餐馆,拍脑袋也想不出来。

read more

Towards Webtop [2008]

http://tw.rpi.edu/wiki/Blog:Baojie/Item-50

http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/

2008-07-25

Some of our Tetherless World researchers including me have just written a short paper to sell the idea of constructing a “webtop” using semantic technologies. In short, a webtop is a desktop on the web, that does similar jobs such as managing files, doing word processing, managing contacts, scheduling tasks, emailing, etc. Please see some examples of webtops with pretty GUIs.

Almost one decade ago, there has been hot for a while for the concept of “network computer”. At that time, a network computer means some low-end computer with limited storage and computational capacity that relying on the network to get great power. The webtop idea reminds me of network computer as they, while are different in many aspects, share the same idea of powering users with networked infrastructure. Ten years ago, this vision was tested with physical computers but largely failed, while today, with the advance of technologies, is revived by allowing users to create virtual computers that only exist on the websphere. I have many reasons to believe this time it will not only survive, but also prevail.

read more

好想法和执行力

今天有人问我,你为什么要写博客?你在博客里有时候写你自己的一些专业想法,不怕别人抄吗?

我解释道,我写的东西,都是些不值钱的泛泛之谈。重要的不是想法,而是如何实现想法,以及如何把想法和盈利模式结合起来。如果真的有什么可以商业化的想法,公司的知识产权政策也不允许我写出来——我就是自己不去执行,卖给公司也有一万美元可以赚呢(专利奖金)。硅谷这里,一天有不止一万个新奇的想法冒出来,真正有几个人能把这些想法实现?

read more

海归谈海归

妞妈的一个以前的同事两三年前回国创业。这次同事(以下称为“海归”)回美国“考察”,顺便吃个饭,聊聊生活、事业。

杂七杂八谈了一个晚上,什么都谈了些,实在没有时间细写。写几个要点。

海归和妞妈一样,是搞半导体的。具体一点,是搞射频芯片设计的。海归说,现在国内有不少小公司搞起来。从技术上说,并不比美国的这几个公司(RFMD,Skyworks, Triquint, Avago等)差太多。国内的公司,大多当然搞不了制造,专于设计,制造都到台湾搞。人才方面,当然没有美国的素质高,不过开始有点差距,努力努力也就缩小了。别看几百个人,一年的销售可以上十亿(忘了问是人民币还是美元)。海归看,美国这几个公司,今后几年至少一个完蛋一两个。这和我的看法一样:美国的射频芯片设计产业,长远看一定会被中国的竞争对手全面搞垮;这个行业的美国工程师,其实是无法养老的。

read more

语义网的红旗能打多久?

1) 语义网的头10年(2001-2011),是成功的10年,也是失败的10年。语义网的后一个10年,要强调实事求是、群众路线和“武装”斗争。

2)语义网的头10年是成功的,因为10年前除了在少数专业领域(比如医学和生物),几乎没有对广大Web用户有价值的数据集的存在。在10年中,各种标准语言,如OWL, SPARQL, RIF, SKOS, RDFa等被制定出来,并出现了数以百计的实现。专门从事语义网相关产业的公司有上百家,而主要的大IT公司和很多传统领域公司都有相关的团队进行语义网的应用或者预研。现在,有很多的开放域数据可供我们使用,例如DBPedia, Freebase, 和几百个Linked Data数据集。这些数据集,在提高某些问题解决方案(比如问答系统)的实践中,被证明是有价值的。数以千计的语义网的研究和技术人员被培养出来并进行各行各业,一些人已进入了决策阶层。

read more

schema.org浏览笔记

schema.org是最近三大搜索引擎公司(Google, Yahoo, Microsoft)推出的元数据网站(参2006年三大联合推出了sitemaps.org的模式)。就目前的市场看,G是主,Y和M是陪客。这个东西在语义网界争议很大,在SemTech上听到的词都是step back, embarrassing, bizarre, terrible 等——因为它没有用W3C的标准。所以有人(Michael HausenblasRichard Cyganiak)建了个Schema.RDFS.org,把那些schema转化成RDF。

先说我的屁股:我的屁股不在W3C那边,虽然也不一定在Google这边。

read more

Web3.0:互联用户产生的结构化资源

Web3.0就是互联用户产生的结构化资源

Jie Bao

2011-05-03

==Web1.0和Web2.0的成功==

Web的成功,来自它是“Web”:它将资源互联起来。HTML,HTTP, URL这些东西是Web应用早期的支持技术,但是它们不是Web本身。后来的Web应用,比如QQ,P2P,GoogleMaps,它们用了很多更新颖的通信技术,并不是说,浏览器里的应用才是Web应用。用了HTML或者别的标记语言(Markup Language)的应用,如果不遵循Web的互联原则,它不能算Web应用: 比如Latex(至少到目前为止)。

read more

语义网与国学

我长久以来有一个理想,就是把国学经典给形式化了,比如二十四史。我曾经试图做过《史记五帝本纪》的语义化,和《论语》的语义化,都是用semantic wiki来做。AURA似乎也是这个思路。

这个思路很难做下去。因为,第一,你要看得懂问题域,对知识背景要求高,成本一下就上来了。第二,随着标注的增多,词汇表越来越大(先不论公理axioms),管理很麻烦。第三,如果很多人搞,那基本不可能用统一的建模方法——三五个人你还可以用行政命令强迫他们用一个词汇表;人多了,词汇混乱那是一定的。

read more

几个日常生活中的元数据应用域

流水帐一下我最近觉得特别需要元数据metadata的地方

找房子:要知道哦有哪些社区;要去city-data看收入,看犯罪率,看人口结构;要去trulia, zillow 看历史房价和周边情况。

找工作:要看人家的主页,有哪些人在那个组里,这些人有什么文章。最近有哪些talk。要看DBLP,Google Scholar,看很多人的主页。

选股票/基金:要去morningstar看趋势、财务等,去fidelity看分析师意见(pdf),去fool.com看社区的意见,去Twitter看实时评论。如果一个股票价格变化了,要看这种新闻里理解为什么有这些变化,还要关注产业链(上下游,竞争对手),大盘等的相关新闻。选基金或者ETF,要看它的投资组合,和每个组合里证券的基本面。这样看一个基金,都要好几个小时。

read more

语义网、蒸汽机、电视电话

关于语义网的讨论,往往从技术的角度。其实技术的问题都不是问题。钱才是问题。如果一个技术真的能给人挣钱,那还会没有发展吗?反之,一个技术,10年了,发展到本行的人都不敢说是做这行的,那真要问一下,这个技术的挣钱能力在哪里?

Semantic web或者linked data如何帮助企业盈利了?目前有些小的例子,比如原来搞一个文档,要5个星期,现在用了semantic wiki,3个星期就够了。但是对于大的企业,大的项目,涉及的人员成千上万的应用,生产效率有没有提高?生产成本有没有下降?

read more

从语义内联网到语义互联网(零散笔记)

今天又和另外一个传统公司的语义网研究人员谈语义网在这个公司的应用问题。涉及的话题太多,现在没有时间细写。先放个稍做整理的原始笔记在这里

==语义内联网==

企业为什么会有想法做语义网?试试看,反正不能错过。

语义网在企业中应用,首先只要提高企业的效率,要能挣钱

如何挣钱?节约时间就是挣钱,比如用semantic wiki。或者降低成本cost。

内部推广语义网,涉及mindset的改变。在不同的BU(bussiness unit)之间做,要先搞定人。两种搞定法,自上而下,先搞定经理,或者自下而上,先搞定技术人员,让他们和自己的经理谈

read more

语义网是一层数据的皮

今天和一个学术界的同仁(某君)谈语义网的前景问题。他们做的有几个很好的数据集成系统,很实用。有的数据有RDF的输出。

某君说了语义网这么几个问题。

首先,语义网第一个要解决的问题是“数据怎么来”。你没有数据,后来做推理、查询不是空谈吗?有标注工具——可是那些工具这么复杂,一般人谁会去用呢?某君把数据用RDF输出,那不过是一层皮。我同意,就象BestBuy, Amazon把自己的一些数据包一包,你可以用RDF看,这不是什么核心的东西。真正有价值的数据,你是看不到它的RDF的,而且也不需要RDF。

read more

Web 3.0:基础与基础之基础

我很赞成一个说法,就是语义网是一个基础技术。作为基础技术,往往工作在底层,在表面上你却看不到。这一点,Frank van Harmelen黄智生讲的很好,我无需狗尾续貂。

Web 3.0,有人说是数据网data web,也有人说是语义网semantic web。按上面的观点,web 3.0并不是semantic web – 就像web 2.0并不是AJAX、Interactive Web Form、Flash一样。语义网是Web 3.0的一个支持技术,而不是web3.0本身。

问题是,语义网的基础又是什么?如果你说,根据层次蛋糕,是URI,XML乃至RDF等,那我认为,这是答错了。

read more