《创新者的解答 》笔记

本文网址:http://baojie.org/blog/2013/02/23/innovators-solution/

《创新者的解答 》(Innovator’s Solution)是《创新者的窘境》(Innovator’s Dilemma)的姊妹篇。《窘境》一书主要是分析原因,《解答》一书主要是提供方法论。他们可以看作是《精益创业》(Lean Startup)的另一个侧面:为什么精益方法在大企业中也是需要的?但是为什么这种方法一般又在大企业中失败?精益创业是从小企业的角度论证在创新中验证式学习validated learning的重要性,这两本书从大企业的角度论证了为什么违反这些原则会导致企业在遇到颠覆性创新企业进攻时会失败。结合实际经验,这本书可以说是 字字血泪,都是大企业的尸体磊起来的,非常真切。

read more

一个数据创业的小公司

今天去一个很有特色的小公司访问。本来想写一个长一点的,但没时间了,就随便写几句。小公司的ceo以前还开了一家,被大公司买了,非常成功,反正是一个 家喻户晓的成功产品。在大公司干了几年,想实现自己的理念,认为数据应该人人都可访问,就跳出来开了这家公司。又支持了几个开源项目也是这个理念。

小公司的ceo且称为A, 乍一看根本不象个亿万富翁,就和个数学系的研究生似的,和我们见面仿佛见教授的那种眼神。然后自我介绍,非常低调,说我上一个公司,也不知道自己能做什么,反正搞搞数学,试试。现在这家,也是想试试。压根就不提被大公司收购,挣了几亿刀的事。

read more

在家工作的好处

作为一个码农,我喜欢在家工作。理由如下

  1. 家里网速快,比公司的网快10倍
  2. 没有网络封锁。公司的防火墙误伤以百记的技术网站,永远别想从正规流程获得解封
  3. 有一个48寸的显示器(电视),外加5台其他显示器。
  4. 不用为随时可能出现的会议提心吊胆
  5. 至少可以有7个小时的连续工作时间。7个小时远远大于3个小时加4个小时。
  6. 家里有我全部的藏书,资料伸手可得
  7. 随时有东西吃
  8. 穿拖鞋和短裤
read more

精益创业感想

整理了过去一年关于精益创业(Lean Startup)的各种想法

参考

目录

  • 方法论一般
  • 精益的泡沫和陷阱
  • 想法和计划不值钱
  • 假设检验
  • 精益的组织前提
  • 精益与毛泽东思想
  • 精益与学术研究
  • 精益与企业研发
  • 精益精神与语义网
  • 精益与商业计划
  • 精益的正反实例
  • 参考书等

方法论一般

2012-2-24 21:44 好几个人向我推荐Lean Startup这个概念。看了一下,觉得人生的规划不也如此?读书啊,学习啊,积累工作经验啊,其实最后证明,绝大多数都是浪费。Lean Startup就是要有意识地减少这些浪费(注意,不是浮躁)。人最应该学会的技能之一,应该是快速人生轨迹原型,而不是先干几年,再发现没用

2012-2-25 01:01 感想10:指标,指标,指标。在设计产品的时候,就要留自动化的方法,可以精确衡量用户怎样在使用这个产品——而不依赖事后的问卷。以小时,至多以天为单位来进行产品的改进,得到最大的ROI或者UX(最后目标还是ROI)。

read more

HCI Class笔记

2012年参加HCI公开课(斯坦福)的一些笔记

2012-5-31 23:01 HCI Class hci-class.org by Scott Klemmer (Stanford)隆重推荐一下,讲得真不错 https://www.coursera.org/course/hci

2012-5-31 23:59 很多时候,一个技术的被采用与否不仅仅在于本身的强大与否,甚至不是最符合用户的需求,而在于是否方便工程师使用——如果没有工程师的参与,技术是不可能走到用户那里的。这里的核心问题之一就是人机界面——不仅仅是狭义的软件界面。在semantic wiki发展的几个核心阶段,真正的突破都是HCI

read more

Google Glass的意义

关于长期记忆,视觉的并行性等参《HCI Class笔记

关于语义网与人机交互的关系,参《语义网与HCI》(2012-06-02)

2012-12-10 11:01 要是能把短期记忆的哪怕很小一部分持续转化为长期记忆,对人类认知,人类知识积累的贡献可能是仅次于文字发明,大于Web

2012-12-9 20:31 难的是低门槛的,持续转化短期记忆为外在存储,还要加上对这些数据的语义理解与检索。Google Glass之类的平台出来以后,可能带来比Web更大的革命。

read more

妞语录:当姐姐以来

2012年10月以来的妞语录。对啊,就是从当了姐姐(两岁八个月)到三岁。部分内容来自妞妈投稿。

2013-02-10 妞一直不敢吃辣椒。每次问她要不要吃辣的东西,她捂着嘴,一边笑一边摇头。不过今天问她,她说:我长大了,我可以吃辣椒了 [因为三岁了,而且都上中班了] 。我用筷子尖挑了给妞一个辣椒籽,妞小心翼翼地地吃了,又怕被辣到,赶紧喝水。然后说:你看,我会吃辣椒了,大灰狼都怕我!

read more

创新者的窘境:创业者就是穿越者

这是《创新者的窘境》读后感系列的又一篇

前两篇

基本点

2012-12-23 17:01 开始看一本广受推荐的书《创新者的窘境》。具有讽刺的是,许多公司: Sears, DEC, IBM,在其管理备受各种书籍赞扬时,也是其在短短几年内就要进入谷底的前夜——很多再也没有能进入下一个巅峰。今年那些如日中天的典范,Google, Apple 他们的软肋在哪里?创新者如何颠覆他们的领先地位?

2012-12-23 17:07 大公司决策的缓慢无法被其资源的庞大所弥补。为了克服内部的信息摩擦和组织摩擦,仅仅是对上、对下教育工作就可能要半年甚至一年的时间。错过市场窗口,投入十倍的人力也很难挽回。但是对规模的迷信往往使决策者不能意识到人月神话

read more

语义搜索与创新者的窘境

主要是看了《Design the search experience》和《Innovator’s Dilemma 》两书的一些感想,加上一些对Knowledge Graph, Deep Learning在语义搜索上的应用的评价。本来是一些微博,也就懒得系统化了。

另参前文《语义网:重新发明轮子,创新者的窘境

—————————

对于Facebook, Google, Yahoo等在语义技术上初步的涉猎,考察过去若干年他们在这个方向上的缓慢进展,作为市场竞争对手其实并不需要太担心。因为语义技术对他们最有力的主流用户派不上用场。非不能也,为不为也

read more

语义网不需要描述逻辑

写这个是因为被问到,为什么给描述逻辑,比如SHOIQ,加这个那个操作符,对于语义网的会议,在我看来是没有意义的事。

从接触描述逻辑(Description Logic, DL)到现在有差不多10年了,博士论文就是做描述逻辑。又在OWL Working Group工作一段时间,对描述逻辑还算是比较熟悉的。作为知识表现的工具,DL在某些领域是有价值的,特别是医疗等。但越深入了解这个工具,越觉得它对于语义网这个应用领域没有实际意义,是屠龙之技。

read more

语义网:重新发明轮子,创新者的窘境

接着说一点瘦语义网的话题。其实本该是两篇文章,偷懒放一起了。

什么是语义网?不是说用了RDF就是语义网,也不是说没有用RDF就不是语义网。就和任何一门语言一样,如果你只用它的syntax而不追随它的精神,那作出产品来就是四不像。

语义网到底是什么?

我自己的定义:语义网是一系列在Web上应用结构化数据的原则性方法。

既然是结构化数据,那各种结构化数据的表示方法都可能被用到,关系数据库,JSON, XML,RDF,等等。

read more

Lean Semantic Web讲义提纲

前几天写了一个《瘦语义网的几点想法》。今天看到有人贴语义网的教程。现在语义网的课程已经很多了。但是我觉得大多数都不适合工业界受众。想了一下,如果开一个瘦语义网的教程,不讲理论,只讲实战,该包括哪些内容。初步整理了一个讲义提纲,就是不知道有没有机会搞到足够的时间和资源来深入细化。

英文版本: http://blog.leansemanticweb.com/blog/2013/01/31/a-lean-semantic-web-syllabus/

read more

红了樱桃,绿了芭蕉 (1)

今年是我来美国第12年了。12年看似漫长,其实也是弹指一挥间。有时候那些在中国生活时的场景,仿佛就在昨天,或伸手就可见的。但再细一看,又都模糊了。12年来学习、毕业、娶妻、生子,工作,比较中美两个国家的各种相同不同,其实在潜意识里一直都有。今天写一点,算是小结。

道不行,乘桴浮于海

12年前,2001年,为什么要出国?和不少同仁一样,实在是对国内做事的各种环境不满。12年前的中国,做事的硬件环境和软件环境大概比今天要再恶劣很多(当然,再往前更恶劣)。我开始读研究生的时候,实验室里什么都没有,连灯也没有,窗户玻璃都不全,一台486电脑还要两个人一起用。冬天的话,冷风里一个人坐在黑暗里码字,很诡异的感觉。

read more

创造者与“管理”者

Paul Graham有一篇精辟的文章:Maker’s Schedule, Manager’s Schedule (中文翻译:《创造者的日程 经理人的日程》by 王凯),分析了“管理”者与创造者在日程安排上的区别,以及为什么程序员最讨厌开会。

我觉得可以扩展一下,比较一下其他方面这两种人的区别。

注:这里的“管理”是打引号的(下面省略引号)。优秀的管理者一样可以是好的创造者,虽然这种人非常少,特别是在大组织里——大组织的体制总是会倾向于把平庸但容易被“管理”的“管理”者提拔为经理去“管理”,从而创造出更多的“管理”需要,从而需要更多的“管理”者(“The bureaucracy is expanding to meet the needs of the expanding bureaucracy”)。这是人的本性。

read more

深度学习的一些教程

几个不错的深度学习教程,基本都有视频和演讲稿。附两篇综述文章和一副漫画。还有一些以后补充。

Jeff Dean 2013 @ Stanford

jeffdean

http://i.stanford.edu/infoseminar/dean.pdf

一个对DL能干什么的入门级介绍,主要涉及Google在语音识别、图像处理和自然语言处理三个方向上的一些应用。参《Spanner and Deep Learning》(2013-01-19)

Hinton 2009

hinton2009

A tutorial on Deep Learning

Slides http://videolectures.net/site/normal_dl/tag=52790/jul09_hinton_deeplearn.pdf

Video http://videolectures.net/jul09_hinton_deeplearn/  (3 hours)

read more

瘦语义网的几点想法

2013-01-31 增补:整理了一个《Lean Semantic Web讲义提纲》, 提纲全文在Github上。

这一年多来在工业界的实践,我总结经验和教训为“瘦语义网”(Lean Semantic Web)。

顾名思义,这个说法是从“Lean Startup”(精益创业)引申出来的,或者说是Lean Startup在Semantic Web上的应用。所以Lean Semantic Web最合适的翻译还是“精益语义网”。不过“瘦”听起来简单点,就先这么叫吧。

leansemanticweb.com是今后系统总结这个概念的地方。现在还没有什么内容,等以后自由时间多了再去填坑吧。

read more

一年来(1)

新年决心是最不靠谱的文字。好在现在不是新年了,大概可以写一点总结和展望了

去年或者前年某个时候曾经立了个心愿,说要去跑一次马拉松。这个,不出意外的没有实现。不过这一年里也没有闲着,做了一些小事。倘若未来更自由了,还是要去跑马拉松的。

这一年(2012)还是在转型。说得明白一点就是中年危机,意识到这种危机的紧迫性,以及寻找出路。

要是用一句话总结一年探索的心得,只是一句废话:关键在人

read more

Spanner and Deep Learning

Jeff Dean’s talk at Stanford

原始笔记,待整理

Introduction

data center

needs for replication

  • data loss
  • slow machines
  • too much load
  • latency

shared env

  • one machine does many things; increased utilization
  • increases variability

big problems

  • long tail => latency

tolerating faults vs tolerating variability

  • make a reliable whole out of unrelianble parts
  • make a predictable whole out of unpredictable requestts
  • faults happens less often

Latency tolerating

  • The Tail at Scale, 2013 in CACM
  • tied requests: each request id other servers to which might send to
  • [not my interest]

Spanner

Cluster-level services

  • GFS
  • MapReduce
  • etc

Spanner, OSDI 2012

  • worldwide storage
  • consistent replication across data centers
  • single global namespace for data
  • moving data to meet constraints (e.g., where to put it)

Deep Learning

Higher-level system

  • scaling deep learning
  • unlabeled data
  • learn high-level representation from raw data

Scale image processing

  • 10×10 pixels patches – low level, neuron
  • reconstruction layer
    • core idea: reconstruct input from current layer representation
    • layer 2 tries to reconstruct layer 1
    partition model across machines
    • mos densely connecrted areas are on the same partition
    144 machines 2000+ cores

    Asynchronous distributed stochastic gradient descent

    • data shards
    • model workers
    • parameter server : control communication and model update

    Tradeoff (without hurting learning perfomance)

    • precision of arithmetic
    • 1/2 bits vs 32 bits across network
    • drop results from slow partitions
    • hardware – not CPU

    Speech

    Application

    • acoustic modeling for speech recongnition
    • collaboration with Google Speech
    • labeled data
    • training in < 5 days on cluster of 800 machines
    • 30% reduction in Word Error Rate (20 years of speech research)
    • Deployed in Jellybean release of Android

    Image

    ICML paper

    Unsupervised feature learning in images

    • 60k neurons
    • 1.15 billion parameters 50x larger than largest deep network in the past
    • images from youtube videos
    • top level neurons seem to dicover high-level concepts
      • e.g. face, non face — one neuron is good at it
      • cat face

      Semi-supervised feature learning in images

      • unsupervised training as starting point for supervised training
      • ImageNet 2011, 16m images, 21k categories
      • classification: our 16%, best reported 9.5%
      • handling rotation, translation, shifting: neurons will help each other

      Some top neurons each represents a category

      NLP

      high-dimensional space

      read more

Facebook Graph Search笔记

摘抄了一些新闻。尽可能过滤buzz, hype和口水

2013-02-16: 根据Reddit访谈增补了内容: Unicorn, Query Syntax, Question Understanding (NLP)

Source

Facebook’s Bold, Compelling and Scary Engine of Discovery: The Inside Story of Graph Search

中文翻译:Facebook社交搜索Graph Search的幕后故事

Under the Hood: Building Graph Search Beta

Facebook Graph Search: https://www.facebook.com/about/graphsearch

A really tiny explanation of how Facebook’s Graph Search works

What

成为一款发现工具

利用庞大的结构化数据库开发一个完全不同的搜索引擎,从而带来巨大价值

read more

深度学习

更多:http://www.weibo.com/xiguadawanzitang/profile?is_tag=1&tag_name=DeepLearning

http://t.cn/zWLBr3Q 神经网络换了deep learning这个马甲,又披挂上阵了。这次又加上知识库的话,说不定真能杀出一条生路。统计方法和知识方法的综合是一种趋势,在问答系统里,在自然语言解析里,都被证明是行之有效的方法。现在运用在识别领域里,大概也不会让人失望吧 2012-7-1 12:37

声明一下:Google和Stanford的这篇文章本身并没有用知识库。他们得益于巨大的计算能力(16000 core, 1b神经网)和样本集(10m),不是人人都用得起。在一些相关领域(比如语言解析),我们看到小的知识库配合以统计模型,就能极大减少模型复杂性和运算时间。在Deep Learning上可能也会如此。当然只是猜测 2012-7-1 13:00

read more