“小数据”处理方法

=&0=&   原微博 2014-12-21 05:30 基于以前那个Lean Semantic Web提纲,最近的新思路是“小数据”处理方法。小数据最强调的是small is beautiful, beautiful = valuable + worthing + understandable 大数据是因为决定扔不扔的代价超过了存储的代价,所以天然的是垃圾场。要淘金就不应该去垃圾场,应该先找矿。找矿就是小数据思路。=&0=& 原微博 转发于2014-12-21 05:33 Lean Semantic Web 提纲http://t.cn/zYsf10g 。小数据强调找矿,就是找到价值特别大,浓度特别高的数据源,把大数据带来不必要的复杂性(比如hadoop之类)砍掉。小数据方法强调数据本身的成本,不搞垃圾数据,降低采集存储处理全过程成本=&0=& 原微博 转发于2014-12-21 05:39 小数据强调Lean,尽可能缩小问题边界,优先处理那些需求强烈,价值突出的问题,不追求通用解。把大数据问题拆成小数据问题,就能提高模型的可理解性和可维护性。=&0=& 原微博 转发于2014-12-21 05:44 套用软件工程里的名言,过早寻找通用解是万恶之源。世界上大多数价值是少数的人,少数的问题,少数的数据创造的。少量的ad-hoc解决方案的组合足以构成系统的骨干。剩下的问题就交给解释性很差的大数据系统,让它们自生自灭。=&0=& 原微博 转发于2014-12-21 05:51 小数据方法是面向人的解决方案。这句话有两层含义。首先它强调以需求为导向的迭代和试错,优先解决被用户感知的问题。用户感知不到的问题都是车库里的飞龙。其次,它强调对工程师的可理解性,系统要简,模型要简,工具要通用(不求新),语法要好懂。

我对关联数据的看法

(有人问我对关联数据的看法,这是我的回信)

关联数据是指Linked Data吧?这个话题很大,很难一次说清楚。我的博客上有些零散的文章。总的来说,我认为RDF为代表的路线在实践中是行不通的。URI为基础的命名的标准化,现阶段是超越产业发展规律的东西,商业上没有需求。语义网所要求的推理,在实际部署中也是行不通的,对机器的计算复杂性,对数据质量的要求,对程序员的认知复杂性要求都太高了。因为有这些脱离实际的设想,无论是早年的Semantic Web还是现在的Linked Data,都缺少来自Web企业的兴趣,缺少主流程序员的参与(虽然有少数例外),造成的后果是工具链缺失,使这些技术还有的一点价值在实际部署中也困难重重。诸如Protege、Pellet和RacePro这些工具,在我看来都是普通程序员和数据处理人员很难接受的、难用的东西。

read more

Lean规则系统

@好东西传送门 整理于 2014-12-16 http://ml.memect.com/remix/3787206361520255.html

 

7 条精选讨论(选自36条原始评论和转发)

 =&0=&   2014-12-13 05:55 这两天在玩规则系统。以前写过两个开源的规则系统:php-rif是一个RIF的parser http://t.cn/RzH8JRGSemanticQueryRDFS++ http://t.cn/RzH8InX 一个semantic wiki上基于Logic Programming的规则推理插件。无论是RIF还是LP,可用性都很差,数据质量要求太高。这次采用不同的实现方法,考虑噪声容忍=&0=& 转发于 2014-12-13 06:05 规则系统的设计,语义的完备性和推理的高效性,在应用中,都要让为于1) 良好的可阅读性 2) 对低质量,无结构数据,混合结构数据的容忍性——尽可能降低数据投资上的代价 3) 尽可能从现有系统演化,多改良少革命。=&0=& 转发于 2014-12-13 06:09 Python是实现规则系统的好语言,因为它几乎天然就是类RDF的。比如在Python中类是个体的一个属性,甚至是可以动态修改的。pyDatalog就是很好的例子 http://t.cn/RzHRPtc 充分利用python语言本身的特性实现了简洁的规则写作和推理。=&0=& 转发于 2014-12-13 10:28 read more

今后几年的趋势应该是小数据颠覆大数据,不是深度学习

1) 我觉得无论是从技术还是市场,到了拼系统的程度,就只有数据奴隶主,主要是大的数据奴隶主才能搞。但是这反而是颠覆他们的机会。因为他们的规模依赖他们的渠道和市场(不然哪里来那么多免费数据浪费)。但是现实市场中大多数问题并不需要这么大规模。这会是一个典型的创新者的窘境

 

2) 绝大多数的机器学习问题的制约瓶颈不是算法,也不是系统,而是数据。能到拼系统阶段的都是土豪了,大多数公司还没到这个奢侈的阶段就死了。在此阶段前,只要数据好,什么烂算法和烂系统都能somehow work。但是数据是最贵的,上量贵,清理贵。找一个理解数据,算法和系统的人更贵

read more

《面向语义搜索的文本、图像、视频信息的结构化处理》读后感

原文http://www.weibo.com/p/1001603782125668144212 作者:宋飞良

先赞作者,思路清晰,显然深入思考过。略微谈一点个人的看法。

“一、建立统一标准的语义词典”,公共语义词典的工作其实dbpedia, freebase等都在做。但是作为语义搜索感觉还是不够。主要是成本高,长尾覆盖面不够的问题。而且历史上upper ontology少有成功的例子。

“二、文本内容的信息处理”。里面提到新闻的元数据和元信息,可以认为分别对应与metadata和provenance,目前都有相应的标准,如rNews http://t.cn/RzJrOXV 和 W3C的PROV http://t.cn/RzJrOXc

read more