Lean Semantic Web讲义提纲

前几天写了一个《瘦语义网的几点想法》。今天看到有人贴语义网的教程。现在语义网的课程已经很多了。但是我觉得大多数都不适合工业界受众。想了一下,如果开一个瘦语义网的教程,不讲理论,只讲实战,该包括哪些内容。初步整理了一个讲义提纲,就是不知道有没有机会搞到足够的时间和资源来深入细化。

英文版本: http://blog.leansemanticweb.com/blog/2013/01/31/a-lean-semantic-web-syllabus/

read more

红了樱桃,绿了芭蕉 (1)

今年是我来美国第12年了。12年看似漫长,其实也是弹指一挥间。有时候那些在中国生活时的场景,仿佛就在昨天,或伸手就可见的。但再细一看,又都模糊了。12年来学习、毕业、娶妻、生子,工作,比较中美两个国家的各种相同不同,其实在潜意识里一直都有。今天写一点,算是小结。

道不行,乘桴浮于海

12年前,2001年,为什么要出国?和不少同仁一样,实在是对国内做事的各种环境不满。12年前的中国,做事的硬件环境和软件环境大概比今天要再恶劣很多(当然,再往前更恶劣)。我开始读研究生的时候,实验室里什么都没有,连灯也没有,窗户玻璃都不全,一台486电脑还要两个人一起用。冬天的话,冷风里一个人坐在黑暗里码字,很诡异的感觉。

read more

创造者与“管理”者

Paul Graham有一篇精辟的文章:Maker’s Schedule, Manager’s Schedule (中文翻译:《创造者的日程 经理人的日程》by 王凯),分析了“管理”者与创造者在日程安排上的区别,以及为什么程序员最讨厌开会。

我觉得可以扩展一下,比较一下其他方面这两种人的区别。

注:这里的“管理”是打引号的(下面省略引号)。优秀的管理者一样可以是好的创造者,虽然这种人非常少,特别是在大组织里——大组织的体制总是会倾向于把平庸但容易被“管理”的“管理”者提拔为经理去“管理”,从而创造出更多的“管理”需要,从而需要更多的“管理”者(“The bureaucracy is expanding to meet the needs of the expanding bureaucracy”)。这是人的本性。

read more

深度学习的一些教程

几个不错的深度学习教程,基本都有视频和演讲稿。附两篇综述文章和一副漫画。还有一些以后补充。

Jeff Dean 2013 @ Stanford

jeffdean

http://i.stanford.edu/infoseminar/dean.pdf

一个对DL能干什么的入门级介绍,主要涉及Google在语音识别、图像处理和自然语言处理三个方向上的一些应用。参《Spanner and Deep Learning》(2013-01-19)

Hinton 2009

hinton2009

A tutorial on Deep Learning

Slides http://videolectures.net/site/normal_dl/tag=52790/jul09_hinton_deeplearn.pdf

Video http://videolectures.net/jul09_hinton_deeplearn/  (3 hours)

read more

瘦语义网的几点想法

2013-01-31 增补:整理了一个《Lean Semantic Web讲义提纲》, 提纲全文在Github上。

这一年多来在工业界的实践,我总结经验和教训为“瘦语义网”(Lean Semantic Web)。

顾名思义,这个说法是从“Lean Startup”(精益创业)引申出来的,或者说是Lean Startup在Semantic Web上的应用。所以Lean Semantic Web最合适的翻译还是“精益语义网”。不过“瘦”听起来简单点,就先这么叫吧。

leansemanticweb.com是今后系统总结这个概念的地方。现在还没有什么内容,等以后自由时间多了再去填坑吧。

read more

一年来(1)

新年决心是最不靠谱的文字。好在现在不是新年了,大概可以写一点总结和展望了

去年或者前年某个时候曾经立了个心愿,说要去跑一次马拉松。这个,不出意外的没有实现。不过这一年里也没有闲着,做了一些小事。倘若未来更自由了,还是要去跑马拉松的。

这一年(2012)还是在转型。说得明白一点就是中年危机,意识到这种危机的紧迫性,以及寻找出路。

要是用一句话总结一年探索的心得,只是一句废话:关键在人

read more

Spanner and Deep Learning

Jeff Dean’s talk at Stanford

原始笔记,待整理

Introduction

data center

needs for replication

  • data loss
  • slow machines
  • too much load
  • latency

shared env

  • one machine does many things; increased utilization
  • increases variability

big problems

  • long tail => latency

tolerating faults vs tolerating variability

  • make a reliable whole out of unrelianble parts
  • make a predictable whole out of unpredictable requestts
  • faults happens less often

Latency tolerating

  • The Tail at Scale, 2013 in CACM
  • tied requests: each request id other servers to which might send to
  • [not my interest]

Spanner

Cluster-level services

  • GFS
  • MapReduce
  • etc

Spanner, OSDI 2012

  • worldwide storage
  • consistent replication across data centers
  • single global namespace for data
  • moving data to meet constraints (e.g., where to put it)

Deep Learning

Higher-level system

  • scaling deep learning
  • unlabeled data
  • learn high-level representation from raw data

Scale image processing

  • 10×10 pixels patches – low level, neuron
  • reconstruction layer
    • core idea: reconstruct input from current layer representation
    • layer 2 tries to reconstruct layer 1
    partition model across machines
    • mos densely connecrted areas are on the same partition
    144 machines 2000+ cores

    Asynchronous distributed stochastic gradient descent

    • data shards
    • model workers
    • parameter server : control communication and model update

    Tradeoff (without hurting learning perfomance)

    • precision of arithmetic
    • 1/2 bits vs 32 bits across network
    • drop results from slow partitions
    • hardware – not CPU

    Speech

    Application

    • acoustic modeling for speech recongnition
    • collaboration with Google Speech
    • labeled data
    • training in < 5 days on cluster of 800 machines
    • 30% reduction in Word Error Rate (20 years of speech research)
    • Deployed in Jellybean release of Android

    Image

    ICML paper

    Unsupervised feature learning in images

    • 60k neurons
    • 1.15 billion parameters 50x larger than largest deep network in the past
    • images from youtube videos
    • top level neurons seem to dicover high-level concepts
      • e.g. face, non face — one neuron is good at it
      • cat face

      Semi-supervised feature learning in images

      • unsupervised training as starting point for supervised training
      • ImageNet 2011, 16m images, 21k categories
      • classification: our 16%, best reported 9.5%
      • handling rotation, translation, shifting: neurons will help each other

      Some top neurons each represents a category

      NLP

      high-dimensional space

      read more

Facebook Graph Search笔记

摘抄了一些新闻。尽可能过滤buzz, hype和口水

2013-02-16: 根据Reddit访谈增补了内容: Unicorn, Query Syntax, Question Understanding (NLP)

Source

Facebook’s Bold, Compelling and Scary Engine of Discovery: The Inside Story of Graph Search

中文翻译:Facebook社交搜索Graph Search的幕后故事

Under the Hood: Building Graph Search Beta

Facebook Graph Search: https://www.facebook.com/about/graphsearch

A really tiny explanation of how Facebook’s Graph Search works

What

成为一款发现工具

利用庞大的结构化数据库开发一个完全不同的搜索引擎,从而带来巨大价值

read more

深度学习

更多:http://www.weibo.com/xiguadawanzitang/profile?is_tag=1&tag_name=DeepLearning

http://t.cn/zWLBr3Q 神经网络换了deep learning这个马甲,又披挂上阵了。这次又加上知识库的话,说不定真能杀出一条生路。统计方法和知识方法的综合是一种趋势,在问答系统里,在自然语言解析里,都被证明是行之有效的方法。现在运用在识别领域里,大概也不会让人失望吧 2012-7-1 12:37

声明一下:Google和Stanford的这篇文章本身并没有用知识库。他们得益于巨大的计算能力(16000 core, 1b神经网)和样本集(10m),不是人人都用得起。在一些相关领域(比如语言解析),我们看到小的知识库配合以统计模型,就能极大减少模型复杂性和运算时间。在Deep Learning上可能也会如此。当然只是猜测 2012-7-1 13:00

read more

LinkedIn地图:一年来变化

去年1月试用了一个LinkedIn的应用: InMaps (http://inmaps.linkedinlabs.com/),可以把你的社交网络转化为一个图,并根据相互关系做聚类。见《我的LinkedIn联系人的可视化》。今天比较了一下这一年来我的LinkedIn网络的变化。

去年(2012-01) 的版本

 

linkedinmaps

现在(2013-01)的版本,大约增长了100出头节点

inmap2013

对InMaps聚类算法的几点观察

  • 基本就是三块:同行,同学,同事。这一年来的增长主要是同事和同行。
  • 这一年新增了在三星的同事这一类; 在BBN的同事也被单独划出来了
  • 在同行里,原来还有semantic wiki这个分类,今年没有被单独聚出来
  • 在两个版本里,最主要的链接枢纽(连接不同的聚类)都是博士导师。稍次要的枢纽节点是做博士后期间的两个导师。还有一个枢纽节点是最重要的合作伙伴。InMaps的会把枢纽节点画得比较大,具体到我这个例子还是很精确的。
  • 同行里的中国人被单独分为一类,同学里的中国人也如此。但同事的中国人就没有。可见中国人的圈子相互比较紧密。同事里中国人比例还不够多,聚不成类
read more

Elastic Search与语义网

过去半年关于Elastic Search的几条微博。更多

最近几天在玩Elastic Search集群。现在还很小,只有5,6台机器。和Solr比起来,实在是太方便了。如果已经熟了Solr Could设置,那可能没多大区别。可对新手,ES几乎可以做到零配置构建集群,完全封装的数据分片、自动冗余复制、自动发现、分布式查询、负载均衡,就太友好了。2013-01-06

Elasticsearch拿到了1000万美元投资。单月下载量达到了20万 http://t.cn/zjE6VmFElasticSearch和Solr有什么区别?Solr 是一个搜索引擎,而ES是一个NoSQL数据库,有比其他数据库更好的搜索能力 2013-01-04 14:12

read more

关于忽悠

汇总几条微博

想不被人忽悠,读万卷书,行万里路。读万卷书增加历史的纵深感,知道事情的沿革,不静态地看事情。行万里路,实地接触不同的人群和社会,不孤立地看事情。不过,许多人读了万卷书,行了万里路,豁然开朗,就摇身一变成“导师”,接着去忽悠别人去也。

20岁的人不不靠谱,那是没良心。30岁的人还不靠谱,那是没头脑。40+岁的人又不靠谱,那八成是揣着明白当糊涂,想忽悠20岁的人

read more