公开数据的一些零碎

把一些和公开数据有关的微博汇总了。没有整理,先放这。

——————————

公开数据是当代最重要的基础设施,是和高铁一样的国家核心竞争力。只是现在各地被虚无缥缈的大数据忽悠,对公开数据的作用、内容、产业链都了解太少了。

公开的数据没有真正地开放出来,这极大阻碍了中国金融服务业的发展。在投资机构中,很多金融实习生还做着把非格式化的PDF文档包括公司报表、研报等等,整理为Excel、PPT等其他格式的工作,这种机械的“脑力体力劳动”在当前时代是必须革除的

read more

知识图谱开发的核心是迭代

《爬升知识图谱技能树》 http://vdisk.weibo.com/s/qDHytUlgU_Pb

上次的讲座提 到知识图谱开发的核心是迭代,稍作补充:线上可用的系 统,一般经过统计、规则、编辑三步提取。统计方法粗过一遍,但一般难以达到可用程度,后面还是要靠人工。规则是可重复的人工投资,编辑是不可 重复的人工。迭代就是提高可重复的人工投资的比例,并反馈到统计系统

拿炼 钢做比喻。统计相当于选矿,提供些可用的原材料。规则相当于炼出铁,勉强可用。编辑相当于锻打,让材料达到做零件可用的特性。我们要用各种方 法来改进炼铁和锻打的效率,但是这不是加强选矿就能替代的。有多少人工才有多少智能。

read more

记忆的互联

(1)Memect的愿景

Memect成立两年多了,现在准备要进入一个新的阶段了,我觉得有必要来解释一下,当初要离职开始做这件事情的愿景是什么,以及我们打算通过一个什么样的路径来达到这个愿景。

当然,对大多数人,这个愿景可能是无所谓的。以前我们也只和很少的亲近的朋友聊过。在具体战术上,也许不必拘泥于这个愿景;不过愿景这个东西,说它不重要也不对,它代表了一个努力的方向,也许我们永远都到达不了那里,可是它会给我们一个导引,让我们不要在纷繁芜杂的噪声中过于迷失。一个有意思的愿景,在我们面前挂一个胡萝卜,引诱我们未来可能有什么特别有意思的事情在前面。做创业,最重要的驱动力不就是去做有益而又有趣的事吗?这是各种快乐的源泉。

read more

从大数据到小数据

本文原文:http://baojie.org/blog/2015/04/05/from-big-data-to-small-data/

今天参与中国计算机协会YOCSEF举办的从硅谷看IT技术未来发展趋势论坛。其中panel discussion阶段谈大数据时代中国的创新机遇。这里记一下我的立场。

1) 数据的发展,看过去五十年的历史,是分久必合,合久必分。大数据往后发展,十年以后是什么样?我想是再度去中心化,从现在数据中心化的,企业端,数据中心端的存储和分析,成为一个分布式的系统。数据产权的概念会清晰起来,来支持数据交换,或者说数据市场经济,这样一种分布式系统。

read more

无为、无事、无味,才是个好知识管理系统

老子曰:图难于其易 ,为大于其细 ﹔ 天下难事 ,必作于易,天下大事 ,必作于细 。是以圣人终不为大, 故能成其大 。

这句上的上一句:为无为,事无事,味无味。我体会这就是知识管理的核心,就是不要生事。任何人都有自己的习惯和价值观,一定不要试图去改变别人的现有行为。让每个都按已经习惯的方式去做事(至少一开始),然后知识管理的成本就降下来了。无为、无事、无味,才是个好系统。

read more

关于知识管理和语义搜索的一些思考

知识管理的坑

做知识管理最容易陷进去的坑就是满足1%用户的要求

做知识管理最容易陷进去的另一个坑就是满足99%用户的要求

知识库的构造中,当目标是满足全人类的需要,就没办法满足(几乎)任何人的需要。Wikidata, freebase, dbpedia和yago都有这个问题。

wikidata至少做对了一件事:不用RDF

众包是一个建设文本百科的好办法,但是对于建设结构化数据就没有成功的先例,因为世界观的冲突很难用结构化表示融合。详见我的《The Unbearable Lightness of Wiking》http://www.slideshare.net/baojie_iowa/2010-0522-smwcon

read more

Twine经验和教训

一句话总结:Twine就是一次换四个引擎死掉的典型案例。从内容分享一下要跳跃成Web语义搜索,技术,市场全部更新,就自己把自己玩死了

download (12)

 

2011-12-8 09:19
重读 @徐涵W3China 的2008旧文《Twine试用感想》。http://t.cn/SqjlG2 看了真是颇有感慨。我真想有一个会,专门谈失败的语义网应用案例。

2014-2-4 09:59
今天又温习了一遍Nova Spivack2 2010把Twine卖掉的时候的总结http://t.cn/zO7yXgP 还是又很多收获。

read more

“小数据”处理方法

=&0=&   原微博 2014-12-21 05:30 基于以前那个Lean Semantic Web提纲,最近的新思路是“小数据”处理方法。小数据最强调的是small is beautiful, beautiful = valuable + worthing + understandable 大数据是因为决定扔不扔的代价超过了存储的代价,所以天然的是垃圾场。要淘金就不应该去垃圾场,应该先找矿。找矿就是小数据思路。=&0=& 原微博 转发于2014-12-21 05:33 Lean Semantic Web 提纲http://t.cn/zYsf10g 。小数据强调找矿,就是找到价值特别大,浓度特别高的数据源,把大数据带来不必要的复杂性(比如hadoop之类)砍掉。小数据方法强调数据本身的成本,不搞垃圾数据,降低采集存储处理全过程成本=&0=& 原微博 转发于2014-12-21 05:39 小数据强调Lean,尽可能缩小问题边界,优先处理那些需求强烈,价值突出的问题,不追求通用解。把大数据问题拆成小数据问题,就能提高模型的可理解性和可维护性。=&0=& 原微博 转发于2014-12-21 05:44 套用软件工程里的名言,过早寻找通用解是万恶之源。世界上大多数价值是少数的人,少数的问题,少数的数据创造的。少量的ad-hoc解决方案的组合足以构成系统的骨干。剩下的问题就交给解释性很差的大数据系统,让它们自生自灭。=&0=& 原微博 转发于2014-12-21 05:51 小数据方法是面向人的解决方案。这句话有两层含义。首先它强调以需求为导向的迭代和试错,优先解决被用户感知的问题。用户感知不到的问题都是车库里的飞龙。其次,它强调对工程师的可理解性,系统要简,模型要简,工具要通用(不求新),语法要好懂。

我对关联数据的看法

(有人问我对关联数据的看法,这是我的回信)

关联数据是指Linked Data吧?这个话题很大,很难一次说清楚。我的博客上有些零散的文章。总的来说,我认为RDF为代表的路线在实践中是行不通的。URI为基础的命名的标准化,现阶段是超越产业发展规律的东西,商业上没有需求。语义网所要求的推理,在实际部署中也是行不通的,对机器的计算复杂性,对数据质量的要求,对程序员的认知复杂性要求都太高了。因为有这些脱离实际的设想,无论是早年的Semantic Web还是现在的Linked Data,都缺少来自Web企业的兴趣,缺少主流程序员的参与(虽然有少数例外),造成的后果是工具链缺失,使这些技术还有的一点价值在实际部署中也困难重重。诸如Protege、Pellet和RacePro这些工具,在我看来都是普通程序员和数据处理人员很难接受的、难用的东西。

read more

Lean规则系统

@好东西传送门 整理于 2014-12-16 http://ml.memect.com/remix/3787206361520255.html

 

7 条精选讨论(选自36条原始评论和转发)

 =&0=&   2014-12-13 05:55 这两天在玩规则系统。以前写过两个开源的规则系统:php-rif是一个RIF的parser http://t.cn/RzH8JRGSemanticQueryRDFS++ http://t.cn/RzH8InX 一个semantic wiki上基于Logic Programming的规则推理插件。无论是RIF还是LP,可用性都很差,数据质量要求太高。这次采用不同的实现方法,考虑噪声容忍=&0=& 转发于 2014-12-13 06:05 规则系统的设计,语义的完备性和推理的高效性,在应用中,都要让为于1) 良好的可阅读性 2) 对低质量,无结构数据,混合结构数据的容忍性——尽可能降低数据投资上的代价 3) 尽可能从现有系统演化,多改良少革命。=&0=& 转发于 2014-12-13 06:09 Python是实现规则系统的好语言,因为它几乎天然就是类RDF的。比如在Python中类是个体的一个属性,甚至是可以动态修改的。pyDatalog就是很好的例子 http://t.cn/RzHRPtc 充分利用python语言本身的特性实现了简洁的规则写作和推理。=&0=& 转发于 2014-12-13 10:28 read more

今后几年的趋势应该是小数据颠覆大数据,不是深度学习

1) 我觉得无论是从技术还是市场,到了拼系统的程度,就只有数据奴隶主,主要是大的数据奴隶主才能搞。但是这反而是颠覆他们的机会。因为他们的规模依赖他们的渠道和市场(不然哪里来那么多免费数据浪费)。但是现实市场中大多数问题并不需要这么大规模。这会是一个典型的创新者的窘境

 

2) 绝大多数的机器学习问题的制约瓶颈不是算法,也不是系统,而是数据。能到拼系统阶段的都是土豪了,大多数公司还没到这个奢侈的阶段就死了。在此阶段前,只要数据好,什么烂算法和烂系统都能somehow work。但是数据是最贵的,上量贵,清理贵。找一个理解数据,算法和系统的人更贵

read more

《面向语义搜索的文本、图像、视频信息的结构化处理》读后感

原文http://www.weibo.com/p/1001603782125668144212 作者:宋飞良

先赞作者,思路清晰,显然深入思考过。略微谈一点个人的看法。

“一、建立统一标准的语义词典”,公共语义词典的工作其实dbpedia, freebase等都在做。但是作为语义搜索感觉还是不够。主要是成本高,长尾覆盖面不够的问题。而且历史上upper ontology少有成功的例子。

“二、文本内容的信息处理”。里面提到新闻的元数据和元信息,可以认为分别对应与metadata和provenance,目前都有相应的标准,如rNews http://t.cn/RzJrOXV 和 W3C的PROV http://t.cn/RzJrOXc

read more

Siri有关的微博

2012-1-24 Evi出场,要和Siri比一比. http://t.cn/z0F9yci 不过不知道什么原因,它连”1+1″ 和 “Obama’s age”都回答不了。

2012-1-28 http://t.cn/z0s1M2s Apple的Siri专利,长,但是对于理解语义网技术如何在终端用户产品中运用,很值得一读。

2012-1-28 讨论Siri而只关心“语音助手”功能的(也即大多数新闻的风格),是错过了Siri具有最大技术突破、市场趋势改变和最大的商业价值的部分。Siri现在还不太实用,但它所代表的对用户数据生态的革命性改变,会是今后各厂商跟进的主要趋势之一。

read more

图数据库2013

关于Graph Database

==趋势猜想==

我觉得大数据会分为四个阶段,kv阶段,csv阶段,json阶段,graph阶段。现在在从kv到csv的过渡中。

无证据的猜测一下,web 3的早期,大行其道的是kv数据库。慢慢人们需要v是各种数据类型,特别是另一个kv,于是redis的各种富类型和文档数据库就主流了。又过了几年,基于数据和应用的分离,文档库的prejoin不够用了,图数据库就开始流行。然后有个牛公司出来,白菜化了分布式图索引。于是天下大治。

read more

语义网的工具演化

汇总了一些这个题目上的微博,组织了一下

瘦语义网的几点想法

==工具,工具,工具==

不有个笑话吗,乘客:“去卡内基音乐厅最短的路是什么?”出租车司机:“练习,练习,练习!”

对于语义网也是一样。到语义网最短的路是什么?练习,练习,练习。

练习就需要工具。

语义网这个领域不缺理论,就缺系统和工具。现有工具分为三类1 学校搞出来的代表是Protege,做NSF项目还行,对开发人员不友好。2 小公司面向政府和行业用户搞出来,代表是TopBraid Composer & Pellet,也对开发人员不友好。3 大公司总结搞出来内部用的,代表是Trinity & Graphd,一般人看都看不到

read more

面向人机交互的内容理解

看到 Chris Manning和Oren Etzioni等就是否“Texts are knowledge”的论战。我的观点是:

基于NLP的结构化是太难了,但是文档的结构分析相对容易,篇章段落句子本身就是人的智能分割过的。仅仅把这些结构变成可查询的东西就会有很大的应用

这里收集了以前关注这个主题的一些微博,按时间逆序。很抱歉没有时间来组织,部分内容在以前一些帖子里也引用过了。

我们在Memect就在实践这些原则,希望在工程的可实现性和商业的可持续性间找到一个平衡点。不管最后的探索结果如何,这个探索的过程是非常有趣的。

read more

论集体记忆

原文 http://baojie.org/blog/2013/07/31/on-collective-memory/

  • 1 原则
    • 1.1 以人为本
    • 1.2 Web 3.0基本属性
      • 1.2.1 Smart Data
      • 1.2.2 Distributed
      • 1.2.3 Refined and Personalized
      • 1.2.4 Open
      1.3 个人记忆 1.4 集体记忆2 技术手段
      • 2.1 RDF的地位
      • 2.2 知识库的构造与增长
      • 2.3 HCI的重要性
      • 2.4 知识索引

      原则

      以人为本

      知识管理的第一要务不是知识提取(例如机器学习,自然语言处理),不是知识表现,而是知识重用。重用包括时间上的,也即记忆,和空间上的,也即分享。总体的,知识重用是研究集体记忆的科学和方法论。

      知识重用的核心并非对机器友好的知识表现,而是对人友好的知识表现。传统KR领域往往忽视了人机交互以及人际交互中知识表现的特性。前者是hci问题,后者是tbl讲的social machine问题。解决了这两个,知识管理中最瓶颈的地方就好办了。再说一遍,解决AI问题的核心是人而不是机器,有多少人工就有多少智能

      read more

Fielding博士论文(REST API)论文读后感

汇总了一些老微博(一年前的):Fielding博士论文(REST API)论文读后感  http://baojie.org/blog/2013/04/02/rest-api/  传统语义网方案的精神和REST的精神不同。两个技术技术同时开始发展,对人友好的REST API蓬勃了,对机器友好的语义网衰落了。能不能改造语义网,让它变得对人更友好呢?

原微博发于2012-02-18

Roy Fielding实在是太让人嫉妒羡慕恨了。HTTP, URI, Apache, REST, 一般人有其中一项工作就足以青史留名了。

read more

一个数据创业的小公司

今天去一个很有特色的小公司访问。本来想写一个长一点的,但没时间了,就随便写几句。小公司的ceo以前还开了一家,被大公司买了,非常成功,反正是一个 家喻户晓的成功产品。在大公司干了几年,想实现自己的理念,认为数据应该人人都可访问,就跳出来开了这家公司。又支持了几个开源项目也是这个理念。

小公司的ceo且称为A, 乍一看根本不象个亿万富翁,就和个数学系的研究生似的,和我们见面仿佛见教授的那种眼神。然后自我介绍,非常低调,说我上一个公司,也不知道自己能做什么,反正搞搞数学,试试。现在这家,也是想试试。压根就不提被大公司收购,挣了几亿刀的事。

read more