Boosting和香农信道编码定理

今天看了:周志华教授特邀报告PPT: BOOSTING 25年 http://vdisk.weibo.com/s/FcILTUAi9m111

有个想法(发在微博上):

我觉得Boosting和香农信道编码定理很像,都是讲一个很烂的(信道/分类器)如何通过冗余来得到精确的效果.读书少,想必有人已经做过比较和证明了.[有噪信道编码定理的证明是统计上最杰出的证明之一]

这里展开再说几句思路

从信息论的角度,一个分类器的训练过程本质上就是一个信道,它的噪声就是错误.把很多个有错误的分类器组合起来得到一个错误率任意低的分类器,这本质上就和反复使用一个有噪信道,得到一个误码率任意低的信道,可能是一个原理.

read more

Google Plus

2012-2-22 15:43  看了 Google Wave前员工的一些心得文章后,更坚定了我对 Google   Plus不看好的看法。 Google 并没有从Wave的失败中吸取足够的教训:和Wave一样,G+就不适合八卦。一个社交网络,如果不能用来八卦、消耗青少年利比多和拉皮条,是不会成功的

2012-2-28 15:44 #LeanStartup#
感想20: Google   Plus 没有遵循lean startup的原则,而基本是重新走了 Google Wave的老路,企图密集推出大量新技术来吸引用户。现在的局面和2004年Facebook上线的时候不同,基本矛盾已经变了:人们已经过于相互连接,信息过载。G+的教训,如果做pretotyping,也许本不需要n亿刀的学费

read more

Siri有关的微博

2012-1-24 Evi出场,要和Siri比一比. http://t.cn/z0F9yci 不过不知道什么原因,它连”1+1″ 和 “Obama’s age”都回答不了。

2012-1-28 http://t.cn/z0s1M2s Apple的Siri专利,长,但是对于理解语义网技术如何在终端用户产品中运用,很值得一读。

2012-1-28 讨论Siri而只关心“语音助手”功能的(也即大多数新闻的风格),是错过了Siri具有最大技术突破、市场趋势改变和最大的商业价值的部分。Siri现在还不太实用,但它所代表的对用户数据生态的革命性改变,会是今后各厂商跟进的主要趋势之一。

read more

什么有些东西会被疯转?(上)

这是一篇读后感,灵感来自 Jonah Berger 的《疯传:让你的产品、思想、行为像病毒一样入侵》 (Contagious:  Why Things Catch On)。文中提到的有些是他书里的内容,有些是我自己的观点,分不大清楚了。Niubility都归他,Shability都归我。

摘要:传播从社交角度是美化个人形象的行为,甚至不一定是真正美化了,只要主观上产生了这种期望就会激发传播行为。从个人满足的角度,传播是那些有唤起性的感情导致的动作,或是小剂量压力-释放带来的快感。观点比事实更容易被分享,具体比抽象更容易被分享。客观公正是传播自杀。

read more

总结Python正文提取的工具包

本文短链接 http://memect.co/B1DWuNo

一年来我们试用了很多正文提取的工具,准备在这个系列里做一个总结。相关的资源一共有15条,列在这里 http://memect.co/python-text-extraction 会在今后十几条微博里介绍我们的经验教训。

首先推荐看Tomaž Kovačič’2011年很棒的总结。他的网站已经宕了,这里有一个pdf备份 http://python.memect.com/?p=3449

Kovačič的survey里,比较了两类产品,开源算法有Boilerpipe,Goose,Webstemmer等 商业API有Alchemy, Diffbot, Readability, Extractiv等 他做了benchmark测试,认为商业API在precision和recall上并不比当时的商业API强,Boilerpipe表现甚佳,详细列表如下

read more

5 Ways of Calling Java from Python

Some of my notes on calling Java from Python, only lightly edited from the raw notes. Short, mostly installation script and hello world code, but should serve the purpose.

Short answer: Jpype works pretty well, but Pyjnius is faster and
simpler than JPype

Summary

2013-05-21T22:38:11 (PDT) Pyjnius is faster and simpler than JPype

  • JCC, javabridge, Jpype and Jnius are all JNI wrappers.

2012-06-14T10:33:00 (PDT) Jpype works pretty well. I can call Stanford parser and OpenNLP from Python

2012-05-05T17:57:57 (PDT) close for now. At lease I can use Jpype. Reopen a Py4j task in the future if Jpype is not enough

read more

Peter Thiel CS183: Startup 笔记

2013-2-25 09:20 Peter Thiel: 做一家从 0 到 1 的创业公司需要的金钱成本和非金钱成本都很低,至少能学到很多东西,付出的努力也值了。而做一家从 1 到 n 的创业公司,虽然金钱成本不高,但非金钱成本会很高,比如你想做一家马达加斯加的团购网站,如果失败了,那可不太妙。 http://t.cn/zY0ULES

2013-2-25 10:17  我刚刚在#爱问共享资料#上传了资料Peter Thiel’s CS183: Startup—Stanford (斯坦福创业课程)完整讲义,欢迎大家下载分享! “peter_thiel_startup.pdf” http://t.cn/zY0n8iJ

read more

常见自然语言语法分析器总结

特性总表

 
FeaturesSatisfied byNote
Web-scale parsing: for both training and parsing time, should be able to handle TB or higher text volume efficientlyLink, MiniPar, Malt, DeSR, MST, pfp, MBSPLinear-time parsing is generally possible with dependency parsing; also parallelism support is important
Potentially support both statistical and knowledge-based parsingLink, NLTK, Malt, DepParse, MBSP
High accuracyStanford, Collins and Bikel, Berkeley, Charniak-Johnson, RASP, Malt, Link, DeSR, MST, pfp, Senna
Active developmentStanford, Berkeley, Link, NLTK, Malt, DeSR, pfp, MBSP, OpenNLP, Senna
Production-friendly licenseLink, NLTK, RASP, Malt, DepParse, OpenNLPSome others with GPL can be used in production as a web service without opening source other parts
Good documentationStanford, Link, NLTK, Malt, DeSR, MBSP, OpenNLP
Code Reusability: easy-to-use API or easy-to-understand codeStanford, Link, NLTK, MiniPar, DeSR, DepParse, pfp, MBSP, Senna

Continue reading

创业一年

从辞职创业开始快一年了。一直都有进步,进步一直很慢。随便说几句真实的想法。

第一个就是创业这件事,结婚生孩子之前做,和结婚生孩子之后做,那是完全不同的做法。

做任何一件事想成为专家都大概要一万个小时,创业也不例外,里面有有规律性的东西,绝对不是看书或者听别人说就能领会的,就是以前在大公司工作的经验都不能直接转化过来。时间投入不到,别指望有捷径。年轻人可以一周7天,一天工作16个小时,有家庭一周5天,一天能工作8个小时就很不错了,你工作的每一分钟都是从老婆孩子那里借来的。所以对中年大叔,年轻的竞争对手比你时间投入至少多一倍,怎么和他们竞争?这个就要想好怎么做那些即使对手多花一倍时间也不容易做好的事情,那些他们不理解或者不重视的问题。

read more

开放的阳谋

1 初创公司怎么才不怕巨头抄袭呢?我觉得这个不能靠保密。保密再好,产品一推出来,巨头想抄也就是一个星期的事——只要它觉得是值得做的事。所以要靠阳谋。就是这个想法,如果有产品经理和巨头的O们说,咱们做这个吧,会被一个大耳光子扇回来。如果O们能被气到再踢两脚,那就值得做。

2 比如共军的法宝,官兵平等,土地革命,这个国军知道但是不能用。哪个敢向委员长说,咱们这么干吧!那一定会被大耳光子扇回来,再踢上两脚。委员长也不笨,共军的法宝也确实好,可要是委员长这么干,下面的官们可就全跑了。这就叫被现有的市场绑架,被现有的渠道绑架,被现有的干部绑架。

read more

美国与全球化

1)在全球化中,美国和西方主要国家一样,经历了一个产业转移的过程。低附加值,高污染产业转移或外包,本来是一个经济的理性选择。但是这里面很大一块是基础工业,基础工业转走了,下游的企业慢慢也就转走了,随之而来就业机会也走了,而且一去不复返

2 《创新者的窘境》里分析过在炼钢行业,领先企业如何优化资源配置,放弃低端区段,最后被在低端发生的创新颠覆。《创新者的解答》里说,竞争力的本质在于客户价值,而不是只做自己擅长的事…最大的挑战是要在海上修理船体,而不是把船板拆下来。可是美国号的船板已经被拆的七七八八了

read more

图数据库2013

关于Graph Database

==趋势猜想==

我觉得大数据会分为四个阶段,kv阶段,csv阶段,json阶段,graph阶段。现在在从kv到csv的过渡中。

无证据的猜测一下,web 3的早期,大行其道的是kv数据库。慢慢人们需要v是各种数据类型,特别是另一个kv,于是redis的各种富类型和文档数据库就主流了。又过了几年,基于数据和应用的分离,文档库的prejoin不够用了,图数据库就开始流行。然后有个牛公司出来,白菜化了分布式图索引。于是天下大治。

read more

一些常用的JSON命令行处理工具

再复杂一些的,就用EJDB好了(可以认为是SQLite for JSON)

jq

command-line JSON processor.

Totorial http://stedolan.github.io/jq/tutorial/

Manual http://stedolan.github.io/jq/manual/

Install

sudo wget http://stedolan.github.io/jq/download/linux32/jq -O /usr/bin/jq && sudo chmod +x /usr/bin/jq

Or 64-bit (EC2 machines are all 64-bit)

sudo wget http://stedolan.github.io/jq/download/linux64/jq -O /usr/bin/jq && sudo chmod +x /usr/bin/jq

Now on ubuntu 13.10 can use

sudo apt-get install jq

Use

read more

语义网的工具演化

汇总了一些这个题目上的微博,组织了一下

瘦语义网的几点想法

==工具,工具,工具==

不有个笑话吗,乘客:“去卡内基音乐厅最短的路是什么?”出租车司机:“练习,练习,练习!”

对于语义网也是一样。到语义网最短的路是什么?练习,练习,练习。

练习就需要工具。

语义网这个领域不缺理论,就缺系统和工具。现有工具分为三类1 学校搞出来的代表是Protege,做NSF项目还行,对开发人员不友好。2 小公司面向政府和行业用户搞出来,代表是TopBraid Composer & Pellet,也对开发人员不友好。3 大公司总结搞出来内部用的,代表是Trinity & Graphd,一般人看都看不到

read more

《The Information》读后感(2)

《The Information》读后感(1)

最近又读了一遍《The Information》。这次读的是中文版《信息简史》。把一些零碎的笔记,和以前的胡思乱想汇总在这里。按时间排序。

—-

http://t.cn/zOMXkNx 我们关于语义信息论的第二篇文章:Preserving Quality of Information Using Semantic Relationships 文章主要是说为什么语义多义性可以用来做语义压缩(扩展香农信源编码定理)[信道编码在上篇文章里说过了]。然后给出了一个简单的基于规则的语义压缩算法。

read more

面向人机交互的内容理解

看到 Chris Manning和Oren Etzioni等就是否“Texts are knowledge”的论战。我的观点是:

基于NLP的结构化是太难了,但是文档的结构分析相对容易,篇章段落句子本身就是人的智能分割过的。仅仅把这些结构变成可查询的东西就会有很大的应用

这里收集了以前关注这个主题的一些微博,按时间逆序。很抱歉没有时间来组织,部分内容在以前一些帖子里也引用过了。

我们在Memect就在实践这些原则,希望在工程的可实现性和商业的可持续性间找到一个平衡点。不管最后的探索结果如何,这个探索的过程是非常有趣的。

read more

论集体记忆

原文 http://baojie.org/blog/2013/07/31/on-collective-memory/

  • 1 原则
    • 1.1 以人为本
    • 1.2 Web 3.0基本属性
      • 1.2.1 Smart Data
      • 1.2.2 Distributed
      • 1.2.3 Refined and Personalized
      • 1.2.4 Open
      1.3 个人记忆 1.4 集体记忆2 技术手段
      • 2.1 RDF的地位
      • 2.2 知识库的构造与增长
      • 2.3 HCI的重要性
      • 2.4 知识索引

      原则

      以人为本

      知识管理的第一要务不是知识提取(例如机器学习,自然语言处理),不是知识表现,而是知识重用。重用包括时间上的,也即记忆,和空间上的,也即分享。总体的,知识重用是研究集体记忆的科学和方法论。

      知识重用的核心并非对机器友好的知识表现,而是对人友好的知识表现。传统KR领域往往忽视了人机交互以及人际交互中知识表现的特性。前者是hci问题,后者是tbl讲的social machine问题。解决了这两个,知识管理中最瓶颈的地方就好办了。再说一遍,解决AI问题的核心是人而不是机器,有多少人工就有多少智能

      read more

Fielding博士论文(REST API)论文读后感

汇总了一些老微博(一年前的):Fielding博士论文(REST API)论文读后感  http://baojie.org/blog/2013/04/02/rest-api/  传统语义网方案的精神和REST的精神不同。两个技术技术同时开始发展,对人友好的REST API蓬勃了,对机器友好的语义网衰落了。能不能改造语义网,让它变得对人更友好呢?

原微博发于2012-02-18

Roy Fielding实在是太让人嫉妒羡慕恨了。HTTP, URI, Apache, REST, 一般人有其中一项工作就足以青史留名了。

read more