从大数据到小数据

本文原文:http://baojie.org/blog/2015/04/05/from-big-data-to-small-data/

今天参与中国计算机协会YOCSEF举办的从硅谷看IT技术未来发展趋势论坛。其中panel discussion阶段谈大数据时代中国的创新机遇。这里记一下我的立场。

1) 数据的发展,看过去五十年的历史,是分久必合,合久必分。大数据往后发展,十年以后是什么样?我想是再度去中心化,从现在数据中心化的,企业端,数据中心端的存储和分析,成为一个分布式的系统。数据产权的概念会清晰起来,来支持数据交换,或者说数据市场经济,这样一种分布式系统。

read more

周期性的破坏重构是一种必然

我读东汉晚年政治,也颇感一个稳定良好运转的政治体制,在各种利益集团形成后,不管当初的设计多么优秀,也不免不能行动(福山称为“政治衰败”),半身不遂。盖执行比制度的明文重要,而执行不能离开具体的人或者机构。周期性的革命和破坏,于是不可避免。美国文明也不会例外。

【张维为:福山眼中的美国病】四年前,福山携新著《政治秩序的起源》来上海,与我有过一场关于中国模式的辩论。四年后,他又携新著《政治秩序与政治衰败》来华,与中国知名政治学者李世默在观察者网进行了一场很有意义的对话……http://t.cn/RAboc3m

read more

微信能构建新web世界吗?(1) 历史总是重复两次…或者三次

微信如今如日中天。如果说2013年的话题还是微信能不能取代微博,从2014年开始,话题已经变为因为有了微信,“不需要搜索引擎”,“不需要电子邮件”,甚至“由微信构建的新web世界”这种级别了 [1]。

历史总是重复两次…或者三次

这种“由x构建的新web世界”的话在Web世界里我们并不陌生。甚至早在还没有公开Web之前(也就是1991年之前),已经有了因特网服务提供商ISP,比如CompuServe和美国在线(AOL)。他们提供了类似Web的服务,用户可以在他们的系统内看新闻,聊天,下载软件,甚至订机票。他们试图为用户提供一揽子的信息服务,希望用户可以舒适地在一个封闭花园里生活。但是Web的出现一下子就打破了这种幻想。ISP的“准Web”在全球性Web的冲击下很快就销声匿迹。AT&T抵抗到最后,据说前后投入了600亿美元,进行各种收购和开发,想建立一个“由AT&T构建的新web世界”。这个计划完美地失败了,老AT&T也就此破产。

read more

无为、无事、无味,才是个好知识管理系统

老子曰:图难于其易 ,为大于其细 ﹔ 天下难事 ,必作于易,天下大事 ,必作于细 。是以圣人终不为大, 故能成其大 。

这句上的上一句:为无为,事无事,味无味。我体会这就是知识管理的核心,就是不要生事。任何人都有自己的习惯和价值观,一定不要试图去改变别人的现有行为。让每个都按已经习惯的方式去做事(至少一开始),然后知识管理的成本就降下来了。无为、无事、无味,才是个好系统。

read more

战略的错误与战术的弥补-天国反思录

战略的错误与战术的弥补-天国反思录

(1) 定都天京

2002-06-08

战略的错误是不可以用战术的努力来弥补的.

太平天国选择在南京定都无疑是最大的战略错误. 以当时太平军势如破竹的进军, 攻克南京后直接进攻北京, 清政府几乎是没有办法的: 无兵可用, 无将可使. 但是洪教主定都南京恰恰挽救了清政府.

所谓六朝古都,龙盘虎踞, 只是字面上好看, 在现实的军事考验前, 南京在历史上就几乎没成功过. 为了南京的安全, 必须进行西征, 控制上游, 为了百万大军的生存, 必须建立根据地. 从全国的战略来看, 北伐是最重要的,  但从南京的生存来看, 西征却是最重要的, 最后不得不牺牲了北伐而将石达开这个预备队用于西征方面, 最后的结果是北伐先胜后败, 而西征先胜后败(遭遇湘军)最后胜利. 但是西征的胜利在全国战略的角度, 依然只是一个战术性的胜利, 太平天国已经从主动走向了被动, 无论是武昌, 九江, 安庆, 还是后来的常州, 苏州, 杭州, 一切战事的核心思想就是拱卫天京, 一切军事行动的最后原则就是有利于天京的安全.

read more

关于知识管理和语义搜索的一些思考

知识管理的坑

做知识管理最容易陷进去的坑就是满足1%用户的要求

做知识管理最容易陷进去的另一个坑就是满足99%用户的要求

知识库的构造中,当目标是满足全人类的需要,就没办法满足(几乎)任何人的需要。Wikidata, freebase, dbpedia和yago都有这个问题。

wikidata至少做对了一件事:不用RDF

众包是一个建设文本百科的好办法,但是对于建设结构化数据就没有成功的先例,因为世界观的冲突很难用结构化表示融合。详见我的《The Unbearable Lightness of Wiking》http://www.slideshare.net/baojie_iowa/2010-0522-smwcon

read more

Twine经验和教训

一句话总结:Twine就是一次换四个引擎死掉的典型案例。从内容分享一下要跳跃成Web语义搜索,技术,市场全部更新,就自己把自己玩死了

download (12)

 

2011-12-8 09:19
重读 @徐涵W3China 的2008旧文《Twine试用感想》。http://t.cn/SqjlG2 看了真是颇有感慨。我真想有一个会,专门谈失败的语义网应用案例。

2014-2-4 09:59
今天又温习了一遍Nova Spivack2 2010把Twine卖掉的时候的总结http://t.cn/zO7yXgP 还是又很多收获。

read more

可胜在敌,不可胜在已

这篇是和另一个创业者讨论的记录,附加了后来我的一点想法。里面并不是我一个人的想法。

这篇续《关于创业最近的一些想法》 http://baojie.org/blog/2014/11/01/startup-thoughts/

==可胜在敌,不可胜在已==

创业就是战争,哪怕只是一个人的战争,见Peter Thiel的Class 12: War and Peace  。战争有战争的逻辑。战争必须要求资源的集中,要求效率。战争不是绣花(比如搞工程美学),不是请客吃饭,不是议会开会。要避免作战的伤亡,不打阵地战,但是要按战争的方式运转。

read more

吐槽微信

原微博 2014-09-14 15:29
有人居然认为微信公众号能取代网站,搞笑。一,微信上的排版限制决定了它上面基本发不了有深度的东西。二,公众号是单向星型结构的东西,无法成为信息广场。三,从“熟人”社交关系出发的媒体,决定了上面病毒传播的东西只能是熟人的交集关心的东西,到底是什么东西大家都清楚。四,信息牢房,毫无自由

原微博 转发于2014-09-16 04:19
问题一,排版。那上面除了最简单的字体,颜色,其他格式基本不支持。特别是不支持链接,把web最基础的非线性阅读都给干掉了。强制配图,搞的乱七八糟的灌水图横行。还不如长微博

read more

“小数据”处理方法

=&0=&   原微博 2014-12-21 05:30 基于以前那个Lean Semantic Web提纲,最近的新思路是“小数据”处理方法。小数据最强调的是small is beautiful, beautiful = valuable + worthing + understandable 大数据是因为决定扔不扔的代价超过了存储的代价,所以天然的是垃圾场。要淘金就不应该去垃圾场,应该先找矿。找矿就是小数据思路。=&0=& 原微博 转发于2014-12-21 05:33 Lean Semantic Web 提纲http://t.cn/zYsf10g 。小数据强调找矿,就是找到价值特别大,浓度特别高的数据源,把大数据带来不必要的复杂性(比如hadoop之类)砍掉。小数据方法强调数据本身的成本,不搞垃圾数据,降低采集存储处理全过程成本=&0=& 原微博 转发于2014-12-21 05:39 小数据强调Lean,尽可能缩小问题边界,优先处理那些需求强烈,价值突出的问题,不追求通用解。把大数据问题拆成小数据问题,就能提高模型的可理解性和可维护性。=&0=& 原微博 转发于2014-12-21 05:44 套用软件工程里的名言,过早寻找通用解是万恶之源。世界上大多数价值是少数的人,少数的问题,少数的数据创造的。少量的ad-hoc解决方案的组合足以构成系统的骨干。剩下的问题就交给解释性很差的大数据系统,让它们自生自灭。=&0=& 原微博 转发于2014-12-21 05:51 小数据方法是面向人的解决方案。这句话有两层含义。首先它强调以需求为导向的迭代和试错,优先解决被用户感知的问题。用户感知不到的问题都是车库里的飞龙。其次,它强调对工程师的可理解性,系统要简,模型要简,工具要通用(不求新),语法要好懂。

我对关联数据的看法

(有人问我对关联数据的看法,这是我的回信)

关联数据是指Linked Data吧?这个话题很大,很难一次说清楚。我的博客上有些零散的文章。总的来说,我认为RDF为代表的路线在实践中是行不通的。URI为基础的命名的标准化,现阶段是超越产业发展规律的东西,商业上没有需求。语义网所要求的推理,在实际部署中也是行不通的,对机器的计算复杂性,对数据质量的要求,对程序员的认知复杂性要求都太高了。因为有这些脱离实际的设想,无论是早年的Semantic Web还是现在的Linked Data,都缺少来自Web企业的兴趣,缺少主流程序员的参与(虽然有少数例外),造成的后果是工具链缺失,使这些技术还有的一点价值在实际部署中也困难重重。诸如Protege、Pellet和RacePro这些工具,在我看来都是普通程序员和数据处理人员很难接受的、难用的东西。

read more

Lean规则系统

@好东西传送门 整理于 2014-12-16 http://ml.memect.com/remix/3787206361520255.html

 

7 条精选讨论(选自36条原始评论和转发)

 =&0=&   2014-12-13 05:55 这两天在玩规则系统。以前写过两个开源的规则系统:php-rif是一个RIF的parser http://t.cn/RzH8JRGSemanticQueryRDFS++ http://t.cn/RzH8InX 一个semantic wiki上基于Logic Programming的规则推理插件。无论是RIF还是LP,可用性都很差,数据质量要求太高。这次采用不同的实现方法,考虑噪声容忍=&0=& 转发于 2014-12-13 06:05 规则系统的设计,语义的完备性和推理的高效性,在应用中,都要让为于1) 良好的可阅读性 2) 对低质量,无结构数据,混合结构数据的容忍性——尽可能降低数据投资上的代价 3) 尽可能从现有系统演化,多改良少革命。=&0=& 转发于 2014-12-13 06:09 Python是实现规则系统的好语言,因为它几乎天然就是类RDF的。比如在Python中类是个体的一个属性,甚至是可以动态修改的。pyDatalog就是很好的例子 http://t.cn/RzHRPtc 充分利用python语言本身的特性实现了简洁的规则写作和推理。=&0=& 转发于 2014-12-13 10:28 read more

今后几年的趋势应该是小数据颠覆大数据,不是深度学习

1) 我觉得无论是从技术还是市场,到了拼系统的程度,就只有数据奴隶主,主要是大的数据奴隶主才能搞。但是这反而是颠覆他们的机会。因为他们的规模依赖他们的渠道和市场(不然哪里来那么多免费数据浪费)。但是现实市场中大多数问题并不需要这么大规模。这会是一个典型的创新者的窘境

 

2) 绝大多数的机器学习问题的制约瓶颈不是算法,也不是系统,而是数据。能到拼系统阶段的都是土豪了,大多数公司还没到这个奢侈的阶段就死了。在此阶段前,只要数据好,什么烂算法和烂系统都能somehow work。但是数据是最贵的,上量贵,清理贵。找一个理解数据,算法和系统的人更贵

read more

《面向语义搜索的文本、图像、视频信息的结构化处理》读后感

原文http://www.weibo.com/p/1001603782125668144212 作者:宋飞良

先赞作者,思路清晰,显然深入思考过。略微谈一点个人的看法。

“一、建立统一标准的语义词典”,公共语义词典的工作其实dbpedia, freebase等都在做。但是作为语义搜索感觉还是不够。主要是成本高,长尾覆盖面不够的问题。而且历史上upper ontology少有成功的例子。

“二、文本内容的信息处理”。里面提到新闻的元数据和元信息,可以认为分别对应与metadata和provenance,目前都有相应的标准,如rNews http://t.cn/RzJrOXV 和 W3C的PROV http://t.cn/RzJrOXc

read more

衰落始于金字塔底座开始松动

我发表了文章《光荣与梦想》http://t.cn/Rzfc5lN 一个伟大的民族与国家,成就世界霸权的种种不朽业绩,并非不需要经过艰苦的考验:牺牲精神,努力劳动与建设,社会的妥协与改良。现在的美国,经历一次轮回,光荣之消灭,全球化的陷阱,“梦想之再现”本身会是一个梦想吗?

写美国的书很多,但有些难免已经刻舟求剑了。美国从70年代进入瓶颈期,2000年前后进入加速衰落期,美国的文化,美国人的生活在过去15年或者40年里也有了很大的变化,主要是负面的。美国是大国,各阶层各地区衰落的速度不同。我常想以后以后也许能读到一本《美利坚帝国衰落史》,描绘这复杂的历史进程

read more

有富爸爸的去学法律,没富爸爸的去学计算机

微博:http://www.weibo.com/1932835417/Bvg7gdXlx

因为有90后问我大学选专业的问题,我想了一下。把我的偏见写在这里。

这个社会上有贫富,一部分人占有比其他人多得多的财富,本质还是基于一些人可以占有另一些人的劳动。当然,社会分工可以让总财富增加,但是在分配上谁多谁少,这是靠各种各样的转移和占有机制。

比较主流的机制我想有这样几种:血缘和婚姻,暴力,剥削(或者中性一点说杠杆),收智商税(利用他人之愚蠢)

血缘和婚姻很好理解,不用解释。暴力,小到土匪,大到国家,也很好理解。

剥削这个词比较有歧义。剥削不总是发生在个体这个层次上,某个人群中的弱势群体也一样可以间接地剥削另一个人群,比如说一个美国的理发师剃一个头要15美元,而中国的理发师只要10块人民币,实际上美国的理发师他是间接地利用了美国的核武器和航母来剥削中国的理发师。更好的词可能是“杠杆”,就是人利用所处的资源环境,直接或者间接以非暴力的方式获得别人的劳动。这个这里不展开说。Paul Graham 《How to Make Wealth》里有阐述,推荐。http://www.paulgraham.com/wealth.html

最后一项:收智商税,这是基于利用人类的普遍愚蠢。人类有四套认知系统:爬行动物的,智人的(5万年前后语言发展后),符号的(5000年前文字发展后)和“科学的”(500年前科学方法论发展后)。每一套都比前一套更偏离生物的本性,更难掌握,更消耗能量,更慢速。所以人们总是倾向于使用低层次的认知系统,只是程度不同而已。人需要长期的训练才可能克服动物的本能,习惯性地去使用高层次的认知方法。这个过程非常的缓慢,比如文字从发明到在全人类普及,用了5000年的时间——二战前后人类的主体还是文盲。科学这500年来,普及也是及其缓慢的,能掌握科学的方法去理解世界的,我估计1%的人都不到(好吧,1%这个数字只是假说)。这就为收智商税提供了基础。

人类最古老的智商税收集者就是神棍,在没有政府的时候就有了宗教。直到今天,世界上大多数人口依然相信某种宗教或迷信。这从一个侧面证明了即使在现代化的今天,收智商税依然是一个很有前途的职业。

收智商税的另一个群体是政客,特别是民主体制下的政客(其他体制下的政客更喜欢用暴力)。人民虽然一个个个体都是有思想的,但由于相对的缺乏组织,从总体上和一群空气分子没啥区别,政客可以在总体上操纵这些分子,调控社会的热力学指标对自己有利。奥巴马就是这种政客的典型。

政客之所以能够在社会中上下其手,是利用社会的复杂性。这种复杂性是原始的爬行动物脑或智人脑不能理解的,可能大部分连识字的脑也不能理解,要用科学的方法来扒开表面看本质,才能得到真相。可是社会上大多数人并没有这个资源(时间,金钱)来使用这些科学的方法,更没有这个能力来掌握这些方法。最后政客就可以用早上三个栗子,晚上四个栗子的方法,让人民乖乖的把自己的银两和其他的东西交出来。

那么政客必然会倾向于把社会搞得越来越复杂,让普通人越来越不懂。比如汉朝时候的经注之学,因为经可以说就是那时候的宪法,大儒们把经上一个字就写上万字的注,让普通人彻底看不懂,自己就能把握话语权向上爬。袁绍家的四世三公就是代表。美国的法律条文极其浩烦,里面充斥拉丁文,本质上和刘歆,马融这些经学家一样,把社会搞复杂,自己来收智商税。这样的人在政权里我们称为政客,在政权外我们称为律师。刘歆,马融和袁绍的高祖袁安,就是当时的律师,当然后来也都成了政客。

这就开始触及题目的第一句话:有富爸爸的去学法律

之所以要有“富爸爸”这个前提,是因为把社会搞复杂是很需要花钱的事情。所以现在在西方,律师的家庭出身依然是富家子弟居多。

好在1990年代以后事情起了变化,没有富爸爸的人也开始有可能收智商税了。这是因为有了计算机网络。

在没有网络之前,人类的愚蠢(好听一点的说法是”认知惰性”)是分散的,征收起来非常麻烦,所以征收它的渠道也很有限,除了政府和教会,只有少数大公司能分一杯羹。但是互联网把这个愚蠢给暴露出来了。不是有句话话吗,微信暴露了熟人中的愚蠢,微博暴露了陌生人中的愚蠢。这是前所未有的机会。这种机会就好像人类初入美洲,到处都是不知道人类为何物的大型动物,捕杀起来从来没有这么容易。现在通过互联网来收智商税就是这么个局面。

所以题目的第二句话是:没富爸爸的去学计算机

网络在把人类的愚蠢暴露出来的同时,对大多数人也同时把一个更复杂的世界展现在他们面向。大多数人完全无法理解这种复杂性。比如说没听说有人抱怨报纸看不完的,但是在社交网络上大家就会觉得压力山大。比如说大数据这个概念,即使有Hadoop、Spark这些开源项目,所有的一切都是公开的,对大多数人而言,这种东西的复杂性超出了他能接受的范围,信息越多他越糊涂。整个计算机世界其实现在就是袁安,马融之辈的机会,他们有足够的时间来创造复杂性,哪怕一切都是阳谋,依然可以光明正大地去收智商税。

现在再回过头来看律师职业,本质上,他们也是软件工程师,只不过这个软件不是电子的形式。人类社会运作的规则,到底是儒家经典也好,美国宪法也好,其实也都是软件。今天的网络创业者,就有一个机会来创造对自己最有利的经典或者宪法,去营造一个四世三公的未来

政府迟早有一天会把这种权力也收为己有,正如现在铸币税只是政府的专利。但是在这一天到来前,我们可能还有十年,二十年,或者更久的时间。对于具体生活在2014年的人,这个时延其实足够了。

计算机是一种工具,或者说也是一种杠杆,它在一个短暂的时间窗口内(在政客和神棍们的有限大脑还没有完全理解发生了什么时),为普通人也加入到收税的主体里来,提供了便利。也许在下一代人,这种窗口就消失了,那时候通过网络收智商税也变成了一个需要富爸爸的特权。

所以我们要感谢这个时代,给了我们学计算机的理由和机遇。

read more

关于创业最近的一些想法

最近理了理思路,下面先说一部分。有些话题可能比较有争议,求轻喷

1)黑魔法。首先创业是为了什么?有情怀的说法是要改变世界,比较现实的说法是拿到F*** U money,实现人生高一层次的自由。情怀这个东西比较激动人心,也比较容易空洞。斯坦福的富家子弟们天天喊要改变世界,但是他们并没有兴趣去改变几公里之外的East Palo Alto的贫穷、犯罪和文盲。创业象一个宗教,必然需要一些忽悠,否则理性的人谁会来和你一起冒险?但是作为创始人,一定不要自己把自己给忽悠了,要清楚“革命”(也就是改变世界)的目的,革命的队伍,革命的步骤和那些细节里的黑魔法。在创业公司工作不能算创业,只有那些关心并搞清楚那些黑魔法的人才是真正的创业者。Zero to One这本书就是在讲这些黑魔法,大大方方的阳谋。

read more

那些美好的东西

昨天我们的微博帐号 @好东西传送门 出了点问题,忙了半夜试图解决问题。新浪的很多从未唔面的朋友,很热心地帮助看系统内部的数据,找到问题的根源,告诉我解决的途径。也有很多新浪外的朋友主动帮我联系从第一线工程师到高级主管,今天北京一上班都开始忙,很快就解决了问题。真的衷心感谢他们。

团队一起努力,好东西传送门做了三个月,机器学习日报做了一个月,总用户数其实并不算大,一万多人。这次事件从正面看,是发现确实有一批很喜欢我们的用户。我们有了困难,他们会很主动地来帮我们想办法,解决问题。这让我非常开心。大部分这些人是以前从来不认识的,因为共同的兴趣才在这里形成了一个社区。一个小的社区的内核形成了,我相信这是进一步扩张的基础。而且建设这个社区的经验,是可以复制到以后的社区去的。现在这个一万多人的社区,他们和其他社区有很多交集,从这些交集出发,很有希望形成新的社区内核,实现新的增长。这使我非常有信心。

read more