想做这样一个在线历史地图 [2008]

http://tw.rpi.edu/wiki/Blog:Baojie/Item-75

标 题: Re: 想做这样一个在线历史地图
发信站: BBS 未名空间站 (Mon Jun 30 21:39:07 2008)

 喔,想到一起来了。这个我想了很多年了。

最近看到一个基于wiki的Google Map的东东 http://map.rpi.edu。可以由大家输入地点,由Google Map自动绘图。可以很方便的进行查询。几个设想的例子如:
* 返回“南京”在历史上的各个名称
* 按月绘制1644年各政权的疆域
* 计算宋江从郓城流放到江州延当时官道行进的距离,按北宋的里计算
* 显示汉书记载的每个郡的人口

read more

执行力与卖饺子

和搞创业的朋友聊体会,都说“执行力”的重要。点子重要吗?不重要,因为好点子太多了。什么时候会因为一个产品点子好而叹服?只要平常留心技术发展,这种事情是很少的。更多的时候,是“这个我好几年前就想到了,怎么给他们先做出来了?

我就想什么是执行力?我们家妞妞原来的保姆很会做饺子,我们都说,阿姨,你该去开个店,一定挣钱。做饺子其实很简单,我也“会”做,但是做出来就是没有阿姨做的好吃。这个差别就是技术了:和面,擀皮,做馅,开蒸,每一步都有小窍门,非动手多做,学不会。阿姨听我们说她饺子好吃,很高兴,但是让她去开店,一时是开不成。如果她再年轻二十岁,英文过关,慢慢摸索进货,招工(“团队”),财务,相关法规这些,未必不能试一试。只是就算店开起来了,未必卖得出去——因为我们中国胃爱吃的,美国人不一定爱吃;阿姨的饺子,只怕要改进得“难吃”一点,才能广开销路。其他的困难,我没干过餐馆,拍脑袋也想不出来。

read more

中产移民是仅次于跳楼的傻事

看到一篇文章《中产精英已成移民主力军 拼爹拼妈不如拼出国》,忍不住说一句。

中国有两部分人适合出国,一部分(也就是绝大多数)是社会底层的,农民或者底层城市平民。另外,就是大中官僚,或者净资产500万美元以上的主。“中产”阶级,奔四了,有老婆有孩子,还靠工资吃饭的,出国十有八九是跳火坑。国内有很多不顺心的事,可以理解;但是因此而被人忽悠,只看到外国的好想不到长远的问题,那就是仅次于跳楼的傻事了。

read more

韩国初印象

其实没什么特别的。大城市全世界都差不多,没什么好写的。

航班特别空,基本上每个人都可以占三个位子,躺倒睡觉。波音777新飞机蛮好,座椅舒服多了。电视很大,有10寸吧(IPad这么大),有几十部电影可以选。我心一横,反正今天是星期天,不工作,就一口气看了四部电影:猿猴星球之猿猴崛起(很引人思考,以后写),哈里波特大结局,蓝精灵,波普先生的企鹅(现在作为爹,看了之后还满有感触)。还浏览了几部烂片:美国队长,关云长,弓(韩片),都是烂到看三分钟就关的那种。

read more

今天去韩国

第一次去韩国,对这个小国还是很好奇的。小时候,这个国家叫“南朝鲜”——和以色列等一样,是我们不友好的国家。然后突然,到1992年,中国和韩国建交了。第一次看到这个国家叫“大韩民国”,觉得很有趣。差不多那个时候,我看了一本讲南朝鲜现代史的书——在此之前,我对韩国的认识于1952年朝鲜停战到1988年汉城奥运之前,基本为零。这三十年的历史,其实对中国参考意义极大。也就是看完了这本书,我才韩国已经是“第六共和国了”——比法国人还能折腾。

read more

涸辙之鲴

今天晚上和一个中国同事吃饭,难免又说到中国美国比较的问题。我们有同感,感觉美国这边研发的位置长期看也很危险:在硅谷养一个人要30万美元,在北京5万美元,至多10万美元就够了。难道美国的研发人员,真有三头六臂,一个人可以抵上中国同行3个或者6个?其实单独比个人,在现在互联网这么发达的条件下,大家的科研条件是差不多的。美国这边如果说还有优势,那就是历史积淀下来的科研人才储备,还有离主要市场近。这两点在不远的将来都可能发生改变。

read more

OWL or OLD? [2008] P.S. OWL2的一些检讨

原文:http://tw.rpi.edu/weblog/2008/07/22/owl-or-old/ 

22nd July 2008, 05:33 pm

I just noticed the “OWL 2 Web Ontology Language: Requirements” document from the OWL Working Group. Interestingly, while the “W” in OWL stands for “Web”, I didn’t see any use case from web applications in the usual sense. As the leading requirements are from the need for domain knowledge bases, I would suggest the name of the new language, instead of OWL 2, to be Ontology Language of Domains (OLD) — Just kidding. OWL claims to be needed by common web users, but such users are surprisingly under-represented in the specification process. We have already seen many specially designed, highly expressive, but, narrowly applied languages in the old KR schools. Do we need to invent yet another one here, again?

read more

Towards Webtop [2008]

http://tw.rpi.edu/wiki/Blog:Baojie/Item-50

http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/

2008-07-25

Some of our Tetherless World researchers including me have just written a short paper to sell the idea of constructing a “webtop” using semantic technologies. In short, a webtop is a desktop on the web, that does similar jobs such as managing files, doing word processing, managing contacts, scheduling tasks, emailing, etc. Please see some examples of webtops with pretty GUIs.

Almost one decade ago, there has been hot for a while for the concept of “network computer”. At that time, a network computer means some low-end computer with limited storage and computational capacity that relying on the network to get great power. The webtop idea reminds me of network computer as they, while are different in many aspects, share the same idea of powering users with networked infrastructure. Ten years ago, this vision was tested with physical computers but largely failed, while today, with the advance of technologies, is revived by allowing users to create virtual computers that only exist on the websphere. I have many reasons to believe this time it will not only survive, but also prevail.

read more

Captcha, Turing Test, and Semantic Web [2008]

摘要:这篇主要讲语义网也许可以帮助机器通过某种图灵测试,反而使很多人不能通过。

http://tw.rpi.edu/wiki/Blog:Baojie/Item-67,

http://tw.rpi.edu/weblog/2008/08/06/captcha-turing-test-and-semantic-web/

2008-08-06

On the web nobody knows you are a dog, …… or a human. That’s why there are programs on the web to identify one as a human (from bots or dog or cats or……). Most popular ones are captcha. They are based on a simple assumption: no OCR agent so far can be as smart as a human is. To me, it looks like a super-simplified Turing test: an AI program has “real” intelligence as a human has, if being asked by the same question, another human can’t tell who is AI and who is human.

read more

Nova Spivack谈语义网(2008)Part II

Nova Spivack谈语义网(2008)Part I

第21页:The Semantic Web = Open database layer for the Web。看起来很好理解,但是很容易误解。我能想到的几种常见的误解

  • 语义网的设计和数据库类似,就是先设计好本体(schema),然后大家按这些规定好的本体来写网页的元数据
  • 语义网就是一种新型的数据库。(然后会陷入和数据库社区鸡生蛋,蛋生鸡的辩论)
  • 语义网就是要求开放数据互联。(能这样做当然好,但是不开放的数据一样是有极大价值的)

22-27页,介绍RDF等,意义不大,跳过

29页,Why has it Taken So Long? 为什么语义网应用发展这么慢?【括号是我的话】

  • The original vision was too focused on A.I. 【不是说不要AI,而是不要太逻辑;自然语言理解,机器学习,这些都是AI,都要来补充语义网】
  • Technologies and tools were insufficient 【是的,语义数据库还很原始;很多开发工具,比如本体编辑器和语义维基,和成熟的软件工程工具比,还处于婴儿时期。所以在技术选型上,保守最好。BBC 2010 World Cup网站提供了一种技术配置样板,可以参考。】
  • Needs for open data on the Web were not strong enough 【完全可以从非开放数据搞起。说实在的,大的网站为什么要有动力开放数据?数据要和商业模式结合起来,难道非要是开放数据才有商业价值?难道非要是往网页加元数据这一种方式?其实长远看,Web上的主体会不再是网页,而是各种各样的传感器(比如手机,冰箱,汽车)。语义个体本地数据(semantic desktop等),到现在也没有做出个像样的东西,大概是元数据添加方式不对】
  • Keyword search and tagging were good enough…for a while 【渐进改进现有系统,不一定要有模式突变——用户难以接受】
  • Lack of end-user facing killer apps 【现在有了,Siri;以后一两年,会出现更多】
  • Lots of misunderstanding to clear up 【嗯。这个估计跳到黄河洗不清了。大概唯一的办法是换个马甲。所以大概以后语义网的人会集体改名字,然后接着做以前的事——过去几十年都是这么活下来的,屡试不爽了。】

30页,啊哈,Nova对上页问题的解决方案。可以和我的对比一下。

32页,开始介绍Twine【可惜Twine第二年就下课了】。Twine自称是interest network。2008年我刚到RPI的时候,头要我们大家都要试试。说实话,我用了大半年,越来越觉得这个工具对我没啥帮助,也没感觉到语义在它里面有什么出彩的表现。2009年它关门,我并不奇怪。Nova这么高瞻远瞩的人,关键问题都看到了,还是难免在几个技术设定上没有想全——他后来写了一个很长的blog,检讨经验教训,非常非常值得一读。后人创业,看花容易绣花难,Twine的案例,一定要正面反面都仔细学习。——以后我会详细写对Twine的心得。

read more

Jesse Weaver谈语义网的两个普遍误解

Jesse Weaver现在是RPI的博士研究生,我以前的同事。他最近的Blog《Two Misconceptions about the Semantic Web》讲了两个语义网的普遍误解

1. “One ontology to rule them all” ——其实不存在万灵药本体这种东西

2. “Triples all the way down” ——RDF是一种好的格式,但不是唯一的选择。

我的留言: Now I begin to believe that another biggest misconception about semantic web is “formatism”: if you use RDF/OWL, then you are building a semantic web app, and vice versa. I cannot agree more with your “RDF at the top” thesis – and what matters most is typically not the top, but the things inside the app.

read more

究竟什么是Semantic Web?[2008]

http://tw.rpi.edu/wiki/Blog:Baojie/Item-117 , 2008-11-13

我的看法比较极端。我觉得RDF和OWL在很大程度上,阻碍而不是促进了语义网的实现。语义网的核心精神,在我看无非是web数据的结构化和一定形式的推理。在当前的技术条件下,我觉得 tagging + 分类树 + 弱关系表(如RSS之类)是最可能大规模实现的。

我还觉得有必要把领域本体的研究,e-science的研究等等和语义网区别开来。这些方面的工作更接近于以往的知识库方面的工作,工作重心,方法,目的,都是和语义网有重大区别。OWL 2的失败(大胆的预言一下),就在于其设计是面向领域本体开发而不是真正的语义网应用。

read more

开始整理2008-2009的Blog

2008-2009的Blog在TW wiki上,大概有100篇的样子。这个我自己用Semantic MediaWiki搭的一个简单的blog系统,放在RPI Tetherless Wiki上。这个系统,到目前为止也只有我自己一个用户。做这样的eat your own dog food的尝试,我还做了不少,比如semantic email, semantic tasks。最后都不太成功,这里面有很多教训,以后再说。以后如果有机会,我会换个方法再试试。

以后逐步把我这个阶段的blog转到这个站来,也包括我在TW官方Blog上的英文blog。

read more

恍然大悟之镇江水战

【这篇是2011年4月的旧文,今天才贴出来】

今天上多处(微博,开心网)看到这个恍然大悟文:

鸦片战争时,英国海军和清军水师在镇江江面上交战,岸边聚集了大批中国百姓围观,当清军舰船被击沉时,岸上百姓并不悲伤反到不时爆发出喝彩声,英军登陆后 正为食物和淡水发愁,百姓们争相将食物和淡水卖给英军。英军指挥官百思不得其解问中国翻译,翻译答曰:“国不知有民,民亦不知有国”,统治者除了收税,没有给百姓任何恩惠。百姓当然不知有祖国

read more

语义网与推荐(3)推荐系统基础

找了一些入门的slides来看。语义不语义,其实关系不大

Recommender Systems http://www.slideshare.net/T212/recommender-systems-1311490 【非常基础】

Recommender Engines http://www.slideshare.net/antiraum/recommender-engines 【同上,一般方法综述】

Tutorial: Recommender Systems http://www.recommenderbook.net/media/Tutorial_IJCAI_2011.pdf 【IJCAI 2011上的教程,by Dietmar Jannach & Gerhard Friedrich】

王守崑 – 豆瓣在推荐领域的实践和思考 http://www.slideshare.net/clickstone/ss-2756065 【挺不错,有些经验之谈】

read more

光荣与梦想2

光荣与梦想》我有两部,中英文各一部。这本介绍1930年代到70年代美国社会变迁的书,写得很生动细致。一个伟大的民族与国家,成就世界霸权的种种不朽业绩,并非不需要经过艰苦的考验:牺牲精神,努力劳动与建设,社会的妥协与改良。

轮回

现在的美国,经历一次轮回,越来越象《光荣与梦想》开始的场景。由经济危机引发的社会动荡,让人们走上街头。所变的,是在街上的是退伍老兵或者“99%”人群;所不变的,是警察国家维护秩序的铁的意志。也许和30年代一样,这次经济危机将慢性发酵,成为一代人的痛。《光荣与梦想》描述到30年代的儿童身体普遍发育不良,以致40年代带来很多征兵的麻烦;经济萧条到让女孩子为了一顿饭就出卖自己的身体。这一次,究竟会发展到什么程度?美国中产阶级的收入,在过去20年里,扣除通货膨胀,已经没有增长了。这是100多年以来,头一次出现这样的情况——即使是30年代和70年代的动荡年代也不是这样。长久以来,美国人已经习惯了每一代的收入高过上一代,整个社会的运作,如个人贷款和国家社保,都是基于这样的假设。如果这种收入停滞与下降的情况再维持10年甚至更久,美国的财务危机会恶化到什么程度?美国的社会动荡与裂痕,或许才刚刚开始?

read more

包子之思

晋朝的张翰有“莼鲈之思”。他说:“秋分起兮佳景时,吴江水兮鲈正肥,三千里兮家未归,恨难得兮仰天悲。”据说为了这个,他辞官不做,回家了。当然,有历史学家说“莼鲈”不过是借口,真实原因是张翰看出了天下要乱的兆头。

我和妞妈去买菜的时候,又一次感慨到:“如果现在能吃合工大门口的肉包子,该是多么的好。我一顿要吃七个。”美国这里,就算能买到包子,要么是冷冻的,要么是广东风味,没有一次让我吃得满意。自己做,也从来做不出来那种味道的陷和松软的皮。

read more

那些开心不开心的人们

我离开中国久了,知道自己邯郸学步(美国的生活没融入,中国的往往忘了),常说些“何不食肉糜”的荒唐话。我尤其困惑的是,为什么我在中国的亲戚们,有些活得这样不开心,有些又活得这样开心。其实,按理说,我和妞妈在中国都是最普通的家庭出身,我们的亲戚也都是差不多背景的普通人(没有在社会最低层的那种,也没有特有权有势的),何以有这样大的区别?

有时候,我甚至不大愿意和一些亲戚打电话,因为听完一到两个小时对各种事情的抱怨(社会,政府,上司,家庭),自己那一天的心情也都会不好。他们会羡慕我们在美国。当然,人家和我说,是真把我当亲人。不过,我每次都想,难道人生非要是那种活法,让自己永远不开心下去吗?

read more