认字记

妞妞今天实现伟大的战略突破:认字。

每天从幼儿园回来,妞妞都会带当天的“作业”回来——贴纸啊,涂颜色啊。每张纸上都会写上“妞妞”的名字。老师是中国人,所以就直接写汉字了。

今天妞妞在玩的时候突然指着自己的“作业”说:“妞妞”。我发现她的小指头指着自己名字,就问:“什么是妞妞啊?”妞就指着那两个字又说了一遍“妞妞”。

我在纸上写了一个“好”字,一个“妞”字,问:“哪个是妞啊?”妞正确地指出来了!

read more

哄觉记

(作者:妞妈)

2012-01-17:昨晚睡觉的时候,妞妞嚷嚷身上痒。妈妈给她挠了前胸后背,还痒,妈妈纳闷不是才洗澡么?后来妈妈抓遍了她身上每个可以触摸到的角落,包括鼻子,耳后跟,脚丫。最后妈妈说“好了,所有的地方都挠了,都不痒了,赶快睡觉吧”没想到,她小手一指,小嘴一噘,让妈妈挠她嘴唇。妈妈就顺便亲了一下“好了,该睡了”。接着她边翻白眼(想问题呢)边呲牙咧齿,把牙齿送过来…再后来,把小嘴做出N种形状送过来,还包括吐舌头。有人听说过舌头痒的吗?

read more

随想:Web的诞生与TBL(4)

续《随想:Web的诞生与TBL(3)

(4)加上人后的可扩展性

在接着回顾Web诞生之初的一些选择之前,我想简单说几句可扩展性。

在过去十多年里,我接触过人工智能的几个不相干的领域:神经网络,机器学习,形式逻辑。许多模型,从理论上计算能力是没有问题的。比如神经网络,可以等价为图灵机,理论上可以解决图灵机可以解决的一切问题。逻辑,比如一阶逻辑或者描述逻辑,表达力非常得强,不乏专用领域成功应用的实例。

read more

URL, URN, URI, IRI

“网址”到底是什么?一般的理解是URL(Uniform resource locator),但是Tim Berners-Lee和他影响的世界里(如W3C)都用URI( Uniform Resource Identifier)。URI更体现了Tim原始的对自由地互联世界的理念。为了URL和URI的哲学差异,当年他和IETF吵了很多架,所以后来决定另起炉灶,建立W3C ​​​​。

如在RDF/OWL1/OWL2中却使用了不同的概念

还有一个相关概念 URN(Uniform Resource Name)。他们有什么区别?

read more

Twitter能预测股市吗?[2010]

这是早先对印第安纳大学的Twitter预测股市的研究的感想。原文写于2010-10-19

总结为

  • Twitter可能预测过去,但很可疑能不能预测未来
  • 预测本身就是对未来的干扰,不可证伪
  • 过去的相关性不能代表未来的因果性

我要是那个作者,就不发文章,先自己通过Twitter预测赚100万,然后把自己的交易记录贴在文后,比什么图啊,表啊,公式啊,都有说服力。

我的原文:

To be honest, I’m skeptical about the work in a couple of ways.

First, as some others already pointed out, correlation does not necessarily
mean causality.

Second, I’m not sure if it is more accurate (in predicting) than existing quantitative measurement of market calmness (or the lack of it) such VIX [1], or put/call ratio for an individual stock. While I don’t have any statistics, I personally find put/call ratio of GOOG is usually more informative (and direct) than reading tweets about $GOOG. Of course, their work is about the market as a whole, which I have no clue. Why their result is for 2-6 days later,
but not the next day?

read more

语义网是时候了

这是我在写《随想:Web的诞生与TBL(3)为什么在1991年》时产生的想法。

Web在1991年产生,首先是因为平台已经成熟了,比如Internet, SGML, TCP/IP,在上面再搞一点点创新,不是什么火箭科技。其次,是需求已经成熟了,信息不再只是几个人给几个人看(如Email),或者一群人给自己一群人看(如Usenet),而是全互联的,你无法预测谁会来看你的信息。

Gopher就是一个尝试,它失败了,我觉得主要因为两个原因:高估人的能动性和分类能力(多层菜单);试图收费。

read more

Groupon是泡沫

想到这个是因为看到:Groupon’s fall to earth swifter than its fast rise (2011-10-21),其实是旧闻。文章说了Groupon的几个问题

  • 高层分裂和动荡
  • 购物体验问题
  • Deal多面向女性,
  • 参与商家得不到实际的好处
  • 很少回头客。虽然有超过1.4亿用户(现在可能更多了),只有20%买过东西,10%买过超过一次东西。
  • 利用会计手段夸大营收。2011年上半年,开始Groupon报了15亿收入;经SEC质疑后,这个数据缩小到不到7亿。
  • 获得新客户极为昂贵。2011年上半年,Groupon花了3.45亿美元在营销(marketing)上,占真实收入的一半(先不谈盈利)。
  • 债务过高:102%。相比之下,LinkedIn是30%。

我觉得,Groupon,准确的说是现在的Groupon,有一个内在的矛盾

  • 团购,就是要组团
  • Deal要理解用户才能起作用。如果10个deal里有9个我用不着,我还会再去看?直接自动过滤到垃圾邮件箱里。

要有足够多的交易,就要既要能组团,又要能理解用户。要能组团,就需要对用户深入理解,生成聚类。这个前提,是有足够多的数据。有足够多的数据,需要每个用户有足够多的交易。

鸡生蛋,蛋生鸡。

read more

LinkedIn流水帐

今天去LinkedIn找人聊了聊。由于最近去了很多Web公司,大同小异,工程师文化之类,毋庸赘言。

几点流水帐。

LinkedIn总部就在Google总部边上,短兵相接。

LinkedIn的食堂很小,伙食一般,和Facebook一个档次,和Google不能比。

LinkedIn现在也不算大,2000号人吧。研发队伍占的比例并不高(嗯,所以我看到很多小姑娘?),其中更以“发”为主。这类成长性企业是不怎么养“研”这种闲人的。

read more

随想:Web的诞生与TBL(3)

续:随想:Web的诞生与TBL(2)

(3)为什么在1991年

很少有一种情况,一个重大的技术,是一个天才先知先觉独立发明的。更多的是在某个时候,几年甚至几个月前后,有若干个人想到这个想法。其中有一个,具有最好的执行力或者干脆就是幸运,最先把它实现。

水到渠成的时候,没有张三来发明,也会有李四来发明。

而在这之前,即使有最聪明的头脑和权势,也不见得能够做到。

read more

随想:Web的诞生与TBL(2)

续:随想:Web的诞生与TBL(1)

10年前学习网络课程,实现HTTP协议,写了一个简单的服务器和客户端。写完了觉得,原来Web浏览器并不神秘,就是是在TCP上加了一层协议,传些文件、文本。

当时并不知道HTTP是TBL在1991年发明的。那一年,TBL还发明了HTML和URL

关于这些最初的发明的技术说明,还有世界上第一个Web网站的存档,可以看这里:

http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html

read more

我的LinkedIn联系人的可视化

第一个是LinkedIn一个工具InMaps,详见 http://blog.linkedin.com/2011/01/24/linkedin-inmaps/

http://inmaps.linkedinlabs.com/share/Jie_Bao/6599659045253981471532836668384358686

看来我的联系人主要是两块:语义网领域和艾奥瓦州立大学。图里除了我之外,还有一个大点联系这个两大块联系人,就是我的博士导师Vasant Honavar

第二个是Connected,可以生成我的联系人的地图

美国的

欧洲的

亚太的

注意,在中国的联系人并不是都集中在兰州,只不过不知道是在中国哪里,就放在中间了。

read more

数据奴隶制

原文是《LinkedIn数据小结》的一部分,现在分出来。

今天试了一下Connected (http://connectedhq.com),可以在线管理分散在各网站,比如LinkedIn, Facebook, Twitter,Google,的联系人。觉得做得很不错。

进一步想:这些联系人信息,是属于我的还是属于那些网站的?他们为什么可以拿去卖钱?

当我的联系人加我为联系人的时候,我被授权看到一些数据。我有没有权力把他们保存下来?同时,我有没有给对方对称的授权来看一些数据?如果我不是一个人,是一个程序,我得到了这些授权,我可以做什么,不可以做什么?

read more

W3C的中国会员

腾讯今天加入W3C。好奇有哪些中国公司在W3C里,就去查了一下。

W3C所有的成员列表说来自中国的成员是7个,占1.6%。我数了一下,应该不止,至少有下面10个:

  • Academia Sinica (台湾)中央研究院
  • Baidu, Inc. 百度
  • Beihang University 北航
  • Beijing University of Technology 北工大
  • China Electronics Standardization Institute 中国电子技术标准化研究院
  • China Unicom 联通
  • Chinese Academy of Sciences 中科院
  • Huawei 华为
  • iFLYTEK 讯飞
  • Zhejiang University 浙大

看W3C中国办事处的列表,不太一样,一共13个。

  • UC优视
  • 华为
  • 百度
  • 联通
  • 北航
  • 北工大
  • 电子标准所
  • 中科院
  • 广州中间件研究中心
  • 讯飞
  • 倍多科技(IPEDO )
  • 太原工大
  • UncoverChina (这个不知道是什么)

八卦:W3C中国办事处的人对360的申请回复很有意思:

早晨看到了奇虎360加入W3C的申请,哪位360的亲告诉我你们是认真的么?

我相信随着中国互联网企业的继续成长,对参与W3C工作的重要性会进一步感到迫切,会有越来越多中国面孔出现在W3C的工作组和各种会议中。

read more

随想:Web的诞生与TBL(1)

什么样的发明是人类最伟大的发明?那些能对存在的三种基本形式:物质、能量和信息的传输和转化做可扩展到为每一个人服务的发明。

对于信息,这意味着那些使信息可以更有效的转化和传输的方法:语言、图画、文字、纸、印刷术、电报、电话、电视、…、Internet、Web。

想改变人类历史吗?做一件能促进人与人的信息交换的事吧!

Tim Berners-Lee (TBL)就做了一件这样的事。他发明了Web。

read more

罚站记

自从妞妞舅舅指出我们对妞妞太惯了,我们决定要对妞加强革命纪律性教育。

琢磨了怎么搞,决定还是用在美国最常用的:Timeout,就是罚站或者罚坐规定的时间。

由于妞妞还小,我们先定了惩罚时间是一分钟。

这不,刚刚定好规矩,妞妞就开始挑战规则了:发脾气把平板电脑摔掉,把妈妈的膝盖打青了。

只好执行家法:掏出一块半米见方的垫子(playmat),严肃地对妞妞说:“妞妞你太调皮了,不可以乱扔东西,更不可以打妈妈”(心里其实顺着说:“扔掉会污染环境;就算没有砸到妈妈,砸到那些花花草草也不好…”)。

read more

为什么我不用Foursquare?

今天看到Foursquare的融资演讲(2009-07-06)
This Is The First Pitch Deck Foursquare Ever Showed Investors (Businessinsider)

回去看我的记录,最早是在2009-07-27,看到一篇文章
Foursquare: Why It May Be the Next Twitter (Mashable)

我自己在2010-11-03注册了Foursquare,可是到目前为止,我很少用它——尽管我理论上算是它上千万用户的一员。我的朋友里,用它的也很少。同样的现况适用于Google Latitude。 (注:Google Latitude的前身Dodgeball和Foursquare都是由Dennis Crowley创建的)

read more

检讨我的语义维基尝试

以前我提到过很多次我在语义维基(Semantic Wiki)上的一些尝试,详参文后列表。

我最早的semantic wiki的尝试是在2003年,写WiKiOnt系统,后来转移研究方向,不了了之。到2007年又开始对Semantic MediaWiki感兴趣,2008年转到RPI后,继续研究,是我在2008年到2009年的主要研究方向。但是,我创建的所有的基于semantic wiki的系统,用户都非常的少。特别是TW Wiki,也就是RPI Tetherless World Constellation自己的Wiki,也很少人用它的语义特征,也即,大部分用户是把它当普通wiki来用的。

read more

语义网的公司(9): Garlik

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

read more