一些常用的JSON命令行处理工具

再复杂一些的,就用EJDB好了(可以认为是SQLite for JSON)

jq

command-line JSON processor.

Totorial http://stedolan.github.io/jq/tutorial/

Manual http://stedolan.github.io/jq/manual/

Install

sudo wget http://stedolan.github.io/jq/download/linux32/jq -O /usr/bin/jq && sudo chmod +x /usr/bin/jq

Or 64-bit (EC2 machines are all 64-bit)

sudo wget http://stedolan.github.io/jq/download/linux64/jq -O /usr/bin/jq && sudo chmod +x /usr/bin/jq

Now on ubuntu 13.10 can use

read more

一个个人知识管理系统

今天看这篇文章:《个人提升方法三部曲:行动,记录、总结

过去这半年来,其实我一直在按这篇文章说的步骤来管理自己的知识。开发这个系统用了我大概一个月的业余时间,随时记录,每天生成总结。现在已经完全离不开它了。

基本技术路线:用semantic wiki做数据录入,用Python API(mwclient)做报表、分析。一点点自动化,每个知识点还是要人产生摘要,然后就可以用各种预先定义好的graph pattern推送到各个页面去。有一点点entity extraction,算是知识提取自动化。语义查询、检索、faceted browsing,可视化,支持知识的进化和重组。这些是知识管理的基本功能。半年多下来,大体每天能积累7-8个新的知识点,现在有上千个了。

read more

学习的陷阱

最近两个月主要的工作就是学习,学习到脑子要爆炸的程度。

到了企业工作以后,工作的重心发生了改变。从做最前沿的探索,到怎么搭系统解决问题,我需要了解很多以前不熟悉的领域

  • 自然语言理解
  • 用户界面和用户体验
  • 新型数据管理的方法,如文档数据库(document database)和三元组数据库(triple store)
  • 多种数据通信与交换协议
  • 新的编程语言和工具,如Python
  • 非技术的,方法论问题,企业文化问题,产业环境和市场动态问题

上述问题的解决都似乎是建立一个可用的产品必要的前提条件。

在杀死一棵树后,看着堆积如山的一堆打印文稿,我突然感到一种危险:我又要进入学习的陷阱了。(为什么要说“又”?)

我可以一直学习下去,学上一整年,还是不能做出一个有用的系统。

read more

语义网的公司(9): Garlik

今天看到一个新闻: Experian Buys Garlik

Experian以管个人信用记录闻名——当然还有很多别的生意。在美国,每个人每年都应该去查一次自己的信用记录。Experian就是三家主要的服务提供商中的一家。它买大蒜干什么?

这里Garlik可不是大蒜,是一家老资格的语义网公司,成立于2005年,在英国。根据crunchbase,Garlik前后拿了2500万美元投资。它现在的生意主要是在线个人信息监控,按文章里的说话是

read more

语义博客[2008]

【原文写于2008-05-05 到 2008-05-10】

I will try to use this wiki as a blogging tool.

{{BlogInfo
|page=Blog:Baojie
|title=A Blog test
|visitor=Jie Bao
|date=2008/05/05 01:16:38 AM EDT
|tag=Jie’s Words
}}

I get the basic idea on how to implement semantic blogging on the top of semantic wiki.

If an application — may not necessarily be an enterprise application — can be implemented by a relational database, then it can be implemented on a semantic wiki.

{{BlogInfo
|page=Blog:Baojie
|title=Semantic Blogging
|visitor=User:Baojie
|date=2008/05/09 02:51:24 PM EDT
|tag=Semantic Blog,Jie’s Words
}}

read more

新产业革命[2008]

【原文写于2008-12-18,http://tw.rpi.edu/wiki/Blog:Baojie/Item-129】

抛开纷繁芜杂的表象,人类历史的进步主要是对物质和能源利用的能力的进步。其中的核心,又是对能源的利用:有了新的能源,就能利用以前所不能利用的物质。

2008年种种问题,从历史长程看,很可能来催生一次新的产业革命。从19世纪末开始的石油,内燃机经济时代,很可能会被一种新的能源结构所取代。这种革命,将带来无数我们不能预期的社会变革乃至动荡。

read more

智学八卦之Horrocks[2006]

【Net.Weblog.20060324.txt】

【原文写于2006-03-24。那时候我还不认识Horrocks。2008到2009年,我在OWL工作组,Horrocks是工作组主席,有了更多接触。】

Ian Horrocks (http://www.cs.man.ac.uk/~horrocks/)在描述逻辑界可谓泰山北斗,常人不可望之项背。看他的履历,确也并非一条直线。1981年,Ian在曼彻斯特大学计算机本科毕业,去一家微处理器实验室,后来去一个数据流并行结构工作组工作。1983年他去了一家公司,负责字处理程序和桌面出版软件的开发。 (引自其博士论文)。直到1994年,Ian才回到曼大读硕士,95年毕业。又过了2年,作出了Fact推理机,拿到了博士学位。此时Ian已经40岁上下,无论如何不能算少年得志了。况且,他3年只有2个workshop论文(根据其个人主页),若按美国标准申请教职,怕连面试机会都不会有。

read more

执行力与组织研讨会

还是不理解什么是执行力。拿组织研讨会(workshop)来类比

  1. 资历,所在机构——信誉,资源,实在不济拉大旗作虎皮
  2. 合作人(vs. Co-chair)
  3. 团队(vs. PC)
  4. 定位,认识,预期(vs. proposal)
  5. 技术手段
  6. 烦而不难的事务性工作
  7. 营销(vs. Publicity)- 录音里没提,也非常重要

语义网是给人用的

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Web approach instead develops languages for expressing information in a machine processable form.

read more

SIRI背后的关键人物Adam Cheyer

Adam Cheyer 的历年工作
http://adam.cheyer.com/demos.html

Ontolog 上两个谈话:

Ontology Management in CALO, a Cognitive Assistant that Learns and Organizes
http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2006_05_04

Siri: An Ontology-driven Application for the Masses
http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2010_02_25

From his LinkedIn

I have a passion for inventing, integrating, and applying advanced technologies to solve real business problems. I also have experience managing research and development teams for large and small companies.

read more

Siri Patents

Method and system for generating an ontology

http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=8,027,948.PN.&OS=PN/8,027,948&RS=PN/8,027,948 

Another article summarizes some key high-level designs of Siri

http://www.unwiredview.com/2011/10/12/how-siri-on-iphone-4s-works-and-why-it%E2%80%99s-a-big-deal-apple%E2%80%99s-ai-tech-details-in-230-pages-of-patent-app/ 

which is based on a 230-page SIRI patent application titled Intelligent Automated Assistant (also attached)

read more

语义网的一些形而上学

me: 语义网的一些形而上学,就是怎么和数据走得更近一些, 和用户走得更近一些。什么技术其实都是末节,模式的变迁才是最关键的。TBL发明Web的时候,也不是有什么特别牛逼的技术发明。关键是把好的技术整合到一个合理的模式上。LOD, schema.org等等,都算不上模式的变迁。长远看,价值都很有限。

问:SW用在了什么模式上呢

me: Siri。这个特别值得注意。Apple提交了一个230页的专利。里面有很深刻的东西。

read more

《三体》之发散思维

《三体》读后感

今天和人胡扯《三体》的各种问题。

朋友说,三体有一个大bug。罗辑往宇宙里发一个星图,验证黑暗森林理论,结果那个星星就被干掉了。可是如果有这么一两次,有星星这么被干掉了,别的星星上的文明知道了,就会预防这种事。既然我们不知道哪个星星上有生命,那索性把所有的星星的星图都向宇宙广播,让宇宙亮如白昼。这时,那些“黑点”说不定就是目标。

read more

Raw Thoughts Now!

TBL说:Raw Data Now!

我想说:Raw Thoughts Now! 记录原始思想

每个人类个体,其实都是知识的宝库。不光是技能的,而且是那段历史的知识。每个人的失去,都是人类知识的一个损失。有没有办法在人的去世之前,把他/她的知识全部记录下来?现在的技术条件,只能为少数人做传记;即使是这种传记,也只是这个人人生极小一部分的记录。有没有可能为世界上每一个人,都记录下完整的人生轨迹?有了这样的原始数据,总有办法来产生“摘要”,为后人研究这个个人或者这段历史提供条件。

read more

执行力与卖饺子

和搞创业的朋友聊体会,都说“执行力”的重要。点子重要吗?不重要,因为好点子太多了。什么时候会因为一个产品点子好而叹服?只要平常留心技术发展,这种事情是很少的。更多的时候,是“这个我好几年前就想到了,怎么给他们先做出来了?

我就想什么是执行力?我们家妞妞原来的保姆很会做饺子,我们都说,阿姨,你该去开个店,一定挣钱。做饺子其实很简单,我也“会”做,但是做出来就是没有阿姨做的好吃。这个差别就是技术了:和面,擀皮,做馅,开蒸,每一步都有小窍门,非动手多做,学不会。阿姨听我们说她饺子好吃,很高兴,但是让她去开店,一时是开不成。如果她再年轻二十岁,英文过关,慢慢摸索进货,招工(“团队”),财务,相关法规这些,未必不能试一试。只是就算店开起来了,未必卖得出去——因为我们中国胃爱吃的,美国人不一定爱吃;阿姨的饺子,只怕要改进得“难吃”一点,才能广开销路。其他的困难,我没干过餐馆,拍脑袋也想不出来。

read more

Towards Webtop [2008]

http://tw.rpi.edu/wiki/Blog:Baojie/Item-50

http://tw.rpi.edu/weblog/2008/07/25/towards-webtop/

2008-07-25

Some of our Tetherless World researchers including me have just written a short paper to sell the idea of constructing a “webtop” using semantic technologies. In short, a webtop is a desktop on the web, that does similar jobs such as managing files, doing word processing, managing contacts, scheduling tasks, emailing, etc. Please see some examples of webtops with pretty GUIs.

Almost one decade ago, there has been hot for a while for the concept of “network computer”. At that time, a network computer means some low-end computer with limited storage and computational capacity that relying on the network to get great power. The webtop idea reminds me of network computer as they, while are different in many aspects, share the same idea of powering users with networked infrastructure. Ten years ago, this vision was tested with physical computers but largely failed, while today, with the advance of technologies, is revived by allowing users to create virtual computers that only exist on the websphere. I have many reasons to believe this time it will not only survive, but also prevail.

read more

好想法和执行力

今天有人问我,你为什么要写博客?你在博客里有时候写你自己的一些专业想法,不怕别人抄吗?

我解释道,我写的东西,都是些不值钱的泛泛之谈。重要的不是想法,而是如何实现想法,以及如何把想法和盈利模式结合起来。如果真的有什么可以商业化的想法,公司的知识产权政策也不允许我写出来——我就是自己不去执行,卖给公司也有一万美元可以赚呢(专利奖金)。硅谷这里,一天有不止一万个新奇的想法冒出来,真正有几个人能把这些想法实现?

read more

海归谈海归

妞妈的一个以前的同事两三年前回国创业。这次同事(以下称为“海归”)回美国“考察”,顺便吃个饭,聊聊生活、事业。

杂七杂八谈了一个晚上,什么都谈了些,实在没有时间细写。写几个要点。

海归和妞妈一样,是搞半导体的。具体一点,是搞射频芯片设计的。海归说,现在国内有不少小公司搞起来。从技术上说,并不比美国的这几个公司(RFMD,Skyworks, Triquint, Avago等)差太多。国内的公司,大多当然搞不了制造,专于设计,制造都到台湾搞。人才方面,当然没有美国的素质高,不过开始有点差距,努力努力也就缩小了。别看几百个人,一年的销售可以上十亿(忘了问是人民币还是美元)。海归看,美国这几个公司,今后几年至少一个完蛋一两个。这和我的看法一样:美国的射频芯片设计产业,长远看一定会被中国的竞争对手全面搞垮;这个行业的美国工程师,其实是无法养老的。

read more

The Return of C 复习C语言

有十年没用C了吧。从Hello World开始复习

习题代码在这里 http://codepad.org/users/baojie

资源:

基本功

链表 Linked List树 Tree11 建树  Create a tree read more