AI Magazine Fall 2010 QA专辑

把网上各处的PDF收集在此,和一些阅读笔记

AI Magazine, Volume 31,  Number 3, Fall 2010
http://www.informatik.uni-trier.de/~ley/db/journals/aim/aim31.html

David Gunning, Vinay K. ChaudhriChris Welty
Introduction to the Special Issue on Question Answering. 11-12
http://www.allbusiness.com/science-technology/computer-science/15271882-1.html

Douglas B. Lenat, Michael J. WitbrockDavid BaxterEugene BlackstoneChris DeatonDave SchneiderJerry ScottBlake Shepard:  Harnessing Cyc to Answer Clinical Researchers’ Ad Hoc Queries. 13-32
http://www.cyc.com/technology/whitepapers_dir/Harnessing_Cyc_to_Answer_Clincal_Researchers_ad_hoc_Queries.pdf

read more

笔记:DeepQA (IBM沃森)(1)概览

David A. FerrucciEric W. BrownJennifer Chu-CarrollJames FanDavid GondekAditya KalyanpurAdam LallyJ. William MurdockEric NybergJohn M. PragerNico SchlaeferChristopher A. Welty: Building Watson: An Overview of the DeepQA ProjectAI Magazine 31(3): 59-79 (2010)

http://www.stanford.edu/class/cs124/AIMagzine-DeepQA.pdf

参前文

另参中文新闻宣传(写的蛮好,很多“细”节)

本文概述了Watson系统的一些基本技术问题。DeepQA是Watson的架构。

Watson有这样一些挑战

  • open-domain ,涉及的知识很多很杂
  • 自然语言问题
  • 要能回答尽可能多的问题,同时答对(两者有矛盾);需要对答案做可信度分析

关键指标: It could answer roughly 70 percent of the questions asked with greater than 80 percent precision in 3 seconds or less. 3秒给对70%的问题做出80%准确性以上的回答

read more

几个日常生活中的元数据应用域

流水帐一下我最近觉得特别需要元数据metadata的地方

找房子:要知道哦有哪些社区;要去city-data看收入,看犯罪率,看人口结构;要去trulia, zillow 看历史房价和周边情况。

找工作:要看人家的主页,有哪些人在那个组里,这些人有什么文章。最近有哪些talk。要看DBLP,Google Scholar,看很多人的主页。

选股票/基金:要去morningstar看趋势、财务等,去fidelity看分析师意见(pdf),去fool.com看社区的意见,去Twitter看实时评论。如果一个股票价格变化了,要看这种新闻里理解为什么有这些变化,还要关注产业链(上下游,竞争对手),大盘等的相关新闻。选基金或者ETF,要看它的投资组合,和每个组合里证券的基本面。这样看一个基金,都要好几个小时。

read more

笔记控

刚才老婆起来发现我一晚上居然写了6篇之多的blog,而且其中有一篇是和“学习”毫无关系的,另一篇是大而无当的技术空谈。

幸亏老婆没有见过我上大学时候的笔记。大学四年,我一共用掉了50多个笔记本,每个200页左右,算平均每天写7页。按一个blog一页,我现在的垃圾制造速度和以前也差不多。

老婆如果再仔细看我的大学笔记,只怕更会抓狂。每本笔记,我总是从前往后,写“正经”的东西,同时从后往前,写各种随想,趣闻,文摘,涂鸦,种种无聊的事。什么时候两者相遇,我就换下一本。

read more

笔记: IBM沃森系统摘要的摘要的摘要

沃森系统主页:http://www-03.ibm.com/innovation/us/watson/

摘要看(Ferucci et al 2010, AI magazine)文章 — 这是一个“科普”文章。里面的细节拎出来写,大概可以写一百篇文章。

Building Watson: An Overview of the DeepQA Project

http://www.stanford.edu/class/cs124/AIMagzine-DeepQA.pdf

摘要的摘要看 Deep Question Answering – The AI techniques behind IBM’s Watson

下面是我对摘要的摘要的摘要

问题回答Question Answering (QA)是信息检索Information Retrieval (IR)的子领域。QA的特点

read more

笔记: Inquire for iPad (平板上的教科书)

Aaron Spaulding and Adam Overholtzer and Joh Pacheco and Jing Tien and Vinay K. Chaudhri and Dave Gunning and Peter Clark. Inquire for iPad: A Biology Textbook That Answers Questions. International Conference on AI in Education, 2011.

http://www.ai.sri.com/pub_list/1825

要点:

  • iPad上看课本,可以加Note 。一些词汇(glossary)有定义,点了就能看。【这不算卖点】
  • 词汇的定义看起来是个本体,比如part of, kinds of 。glossary是从KB中来。到底是不是自动生成象IBM Watson那样?不清楚。
  • 对于Q/A部分,很象Watson,有自然语言界面(是不是受控自然语言不清楚)。回答的结果也象是从KB里来。做了自然语言的模板化。
read more

语义网、蒸汽机、电视电话

关于语义网的讨论,往往从技术的角度。其实技术的问题都不是问题。钱才是问题。如果一个技术真的能给人挣钱,那还会没有发展吗?反之,一个技术,10年了,发展到本行的人都不敢说是做这行的,那真要问一下,这个技术的挣钱能力在哪里?

Semantic web或者linked data如何帮助企业盈利了?目前有些小的例子,比如原来搞一个文档,要5个星期,现在用了semantic wiki,3个星期就够了。但是对于大的企业,大的项目,涉及的人员成千上万的应用,生产效率有没有提高?生产成本有没有下降?

read more

利比亚:意大利该出手了

利比亚两群不明真相的群众斗殴,欧洲的几个大流氓来拉偏架,叮叮咣咣,打得好生热闹,丰田的皮卡,水泥的炸弹一起响,却似做了一全堂水陆的道场。

马伯庸替反对派出主意:

利比亚的战事,说白了就是洋人替虚火上升的反对派撸管子,撸时还稍微硬上几分,手一放,还没捅进的黎波里,立刻就一泄千里,变成软趴趴,从扎维耶、米苏拉塔、苏尔特一路溃退,现在连卜雷加也丢了。就该趁大佐陈兵沿海时奇兵突进朱夫拉省,只要控制胡恩,遮断南方诸族,北窥苏尔特,天下不足定

read more

语义网的公司(5)Vulcan: Project Halo

Vulcan Inc.是一家投资公司,由微软的共同创始人Paul Allen创建,在西雅图(Seattle, Washington)。

Vulcan投资很多事情,比如宇宙飞船。Allen的钱已经足够多,有些投资看起来纯粹是兴趣或者好奇,并不打算挣更多的钱。他对语义网和知识管理的投资,大概就属于这一类。

这个方向,主要是一个Project Halo,主页在http://www.projecthalo.com/。长期目标是开发一个数字亚里斯多德(Digital Aristotle)系统,一个可以解决复杂的科学问题或者日常问题的推理系统(a reasoning system capable of answering novel questions and solving advanced problems in a broad range of scientific disciplines and related human affairs.)现在,它的主要应用域是教育,并试图解决知识获取和自动推理中的若干问题。

read more

林昭 《血诗题衣中》

双龙鏖战玄间黄,冤恨兆元付大江。
蹈海鲁连今仍昔,横槊阿瞒慨当慷。
只应社稷公黎庶,那许山河私帝王。
汗惭神州赤子血,枉言正道是沧桑。

以前并不知道这个人。今天偶然看到。单论这首诗,放在旧时代自然是一般的,放在今天,那些靠咋呼搏出位的诸君,我看连这种水平的也一个没有。

如果我要是再年轻十岁,看到这诗,肯定嗟呀不已,反复吟诵。如今正正反反、冷冷热热看得多了,知道理想和热血未必有效,却十有八九被野心家利用;而历史的纵深观察,又往往不是当事人所能获得。本朝阿瞒当年名声颇坏。我小时候,只听说阿瞒不好,往他画像上乱画。林昭心里的那份忧国忧民之情,很可以理解。但是历史的长程后果,往往需要抛开细节和个人的本位。汉朝那位阿瞒,确实招人恨,但是倘若没有他,未必后来是三国,而是十六国,生灵涂炭,又不知多几重。本朝阿瞒,说人间正道是沧桑,六十年后看,其实是一点没有错的。

read more

扩张与衰落(一) [2004][2005]

【原个人wiki,Net.Weblog.20041118】

2004-11-18

大国的衰落, 大部来自于无限扩张. 国力在无限扩张中大量消耗于不能制造产值的不部门, 最后直接间接的造成中产阶级(在古代是自耕农)的破产, 整个经济走向畸形, 最后在某场战争中元气大伤, 衰落下去. 这是一般规律, 考征之于罗马, 汉, 唐, 西班牙, 英, 德, 日本, 苏联, 莫不如此. 美国今日, 是否能跳出这个循环呢?

为什么无限扩张会导致国家的衰落呢? 并不在于扩张的过程中打胜了或者打败了几场战役和暂时的物质人员伤亡. 在扩张的过程中, 开始也并不知道极限在什么地方, 谁也无法实现预言到什么时候就止步. 而历史的事实确告诉我们, 这样一个界限的确存在, 无论你主观承认不承认. 罗马扩张到图拉真以后, 就再也不能在版图上有什么大的进步, 是不是因为周边蛮族如日耳曼人比当年的希腊人, 高卢人或者迦太基人更加强大呢? 为什么罗马在达到这个一个相对稳态后就开始慢慢衰落, 直到瓦解呢? 为什么在汉武帝北征匈奴, 南征南越, 西通西域, 西南夷, 东并朝鲜之后, 就不能进一步发展(比如攻打印度), 而要由他的儿子汉昭帝全面收缩,

read more

笔记:LP几种常见语义的小结

Perfect Model Semantics 完美模型语义

Teodor C. Przymusinski: On the Declarative and Procedural Semantics of Logic Programs. J. Autom. Reasoning 5(2): 167-205 (1989)

对谓词(命题)指定优先级。令M和N是两个Herbrand model。 N<=M(N is preferable),如果对N-M中的每个元素,M-N中都有一个比它大。M是完美的(perfect)如果没有其他模型比它更preferable(<=)

Stable Model Semantics 稳定模型语义

Michael Gelfond, Vladimir Lifschitz: The Stable Model Semantics for Logic Programming. ICLP/SLP 1988: 1070-1080

read more

笔记:LP的自然层化和不动点语义(3)动态层化

Teodor C. Przymusinski: Every Logic Program Has a Natural Stratification And an Iterated Least Fixed Point Model. PODS 1989: 11-21 (download)(citation)

==动态层化 Dynamic Stratification==

层化就是要把一个program里所有的规则rule分分类,有高级的,有低级的,做推理的时候,先低级的工作,然后一层一层往上推。也可以定义为这些rule的head的层。这就叫逻辑程序的不平等,有逻辑的地方就有阶级和阶级斗争。

上面我们说了,我们有一个操作<TI,FI>,不断的迭代的调用,每次会往我们的模型里加一些新的事实fact。这样fact在模型里就有一个先来后到。这个进来的次序,就是这个fact的层。如果把我们合工大看成一个模型,那我就是94层的,比我晚一年的就是95层的。如果94的留级,到了95又进校了,那还算94层的。还要记住,这个模型是是没有毕业一说的(单调增),进去就别想出来!

read more

笔记:LP的自然层化和不动点语义(2)良基模型

Teodor C. Przymusinski: Every Logic Program Has a Natural Stratification  And an Iterated Least Fixed Point Model. PODS 1989: 11-21 (download)(citation)

==Well-Founded Model==

首先,翻译: Well-Founded Model=良基模型

(BTW,我搜索这个词,发现一本书叫《语义网的规划与规则记帐语言》。同志们啊,Rules and Rule Markup Languages for the Semantic Web这个会议伤不起啊!人家不是记帐的有木有!!)

这篇文章先定义良基模型的一个迭代不动点(Iterated Fixed Point)定义。比如现在有一个模型I。我们定义两个操作TI和FI。TI是从I中,我们可以直接得到的新的真T的事实。FI是从I中,我们可以直接得到的新的假F的事实。

read more

笔记:LP的自然层化和不动点语义(1)

今天重温这篇经典文章

Teodor C. Przymusinski: Every Logic Program Has a Natural Stratification And an Iterated Least Fixed Point Model. PODS 1989: 11-21 (download)(citation)

Przymusinski是UC Riverside的教授。他的文章大部分就一个作者,有时有个co-author Przymusinska,我瞎猜是他太太。

==背景==

Perfect model 是LP的minimal model,等价于iterated least fixed points (迭代最小不动点) of natural operators。但是这个语义,只能用在局域层化的LP上(stratified LP)。前面我有笔记说什么是层化(大义是高层次的词汇只能依赖于低或同层次的词汇)。

read more

从语义内联网到语义互联网(零散笔记)

今天又和另外一个传统公司的语义网研究人员谈语义网在这个公司的应用问题。涉及的话题太多,现在没有时间细写。先放个稍做整理的原始笔记在这里

==语义内联网==

企业为什么会有想法做语义网?试试看,反正不能错过。

语义网在企业中应用,首先只要提高企业的效率,要能挣钱

如何挣钱?节约时间就是挣钱,比如用semantic wiki。或者降低成本cost。

内部推广语义网,涉及mindset的改变。在不同的BU(bussiness unit)之间做,要先搞定人。两种搞定法,自上而下,先搞定经理,或者自下而上,先搞定技术人员,让他们和自己的经理谈

read more

语义网是一层数据的皮

今天和一个学术界的同仁(某君)谈语义网的前景问题。他们做的有几个很好的数据集成系统,很实用。有的数据有RDF的输出。

某君说了语义网这么几个问题。

首先,语义网第一个要解决的问题是“数据怎么来”。你没有数据,后来做推理、查询不是空谈吗?有标注工具——可是那些工具这么复杂,一般人谁会去用呢?某君把数据用RDF输出,那不过是一层皮。我同意,就象BestBuy, Amazon把自己的一些数据包一包,你可以用RDF看,这不是什么核心的东西。真正有价值的数据,你是看不到它的RDF的,而且也不需要RDF。

read more

语义网与推荐(1)乱拳打死老师傅

我最近几天又开始神奇地漂移到一个新的题目:语义网在推荐系统(Recommendation)中的应用。没办法,吃饭需要。

首先看了维基百科Recommender system,里面说:

The Netflix Prize, …. The most accurate algorithm in 2007 used 107 different algorithmic approaches, blended into a single prediction:

Predictive accuracy is substantially improved when blending multiple predictors. Our experience is that most efforts should be concentrated in deriving substantially different approaches, rather than refining a single technique. Consequently, our solution is an ensemble of many methods.

read more

家庭理财教育

我刚才在厕所看杂志,教人怎么合法避税。关于税,我父母没有教过我任何知识,因为他们自己从来不交税。前两天,我妈还很高兴地和我说,她很满意自己的收入,因为不用交一分钱(所得)税——和中国95%的人一样(最近起征点提高了)。

不光是税,关于理财的其他问题,我的家庭教育并不包括这些——因为和大多数中国普通家庭一样,一直无财可理。所以到了美国以后,我还是一头雾水。直到某一年,突然恍然大悟,原来这里面有这么多名堂。一算,已经白白多给了美国政府上万刀。更不用说股票,债券,基金,这些名堂了。

read more

Web 3.0:基础与基础之基础

我很赞成一个说法,就是语义网是一个基础技术。作为基础技术,往往工作在底层,在表面上你却看不到。这一点,Frank van Harmelen黄智生讲的很好,我无需狗尾续貂。

Web 3.0,有人说是数据网data web,也有人说是语义网semantic web。按上面的观点,web 3.0并不是semantic web – 就像web 2.0并不是AJAX、Interactive Web Form、Flash一样。语义网是Web 3.0的一个支持技术,而不是web3.0本身。

问题是,语义网的基础又是什么?如果你说,根据层次蛋糕,是URI,XML乃至RDF等,那我认为,这是答错了。

read more