通信的语法,语义和语用层次:一封推荐信

以前在研究“语义信息论”(Semantic Information Theory)的时候,涉及到通信的三个层次:技术的,语义的和效果的。这个层次划分是(Weaver 1949)说的。香农的传统信息论只涉及技术这个层面。

从语言学的角度,这三个层次可以大致对应于语言的语法Syntax、语义Semantics和语用Pragmatics三个层次

今天在看《语言本能》(The Language Instinct)这本书,里面举了个很有意思的例子,可以做这三个层次的范例

read more

语义通信和传统通信的基本区别

引自我正在写的一篇文章:

A semantic information source or destination has a background knowledge base and is able to infer implicit facts from explicitly given facts. The key difference from the classical information theory is that in our semantic information theory, messages are expressions which can be true or false. We are interested in studying how often a message is true and how its truthhood can be preserved in communication; on the other hand, classical information theory studies how often a message appears and how precise its lexical form can be restored in communication.

read more

TF-IDF之极简化信息论分析

昨天看到有人说,TF-IDF本质上是Kullback–Leibler divergence。参《如何确定网页和查询的相关性》by 吴军

问了一个搞IR的教授这个说法的出处。他说,似乎很明显,但搞不清楚谁第一个说的。

我试着做一个最简化的推导。这里用的TF-IDF是最简单的一种定义,实际用的,要比这复杂。

问题描述:一个查询q=(w1, w2…),一个文档d=(w1, w2….),其中w是单词,q和d都是bag of words。所有文档的集合是D=(d1, d2, …) 要求对所有文档,针对与q的相关性进行排序。

read more

从挖地雷到分布式文件存储(删去编码)

erasure channel一般翻译为删去信道或消去信道,Erasure code一般翻译为删去编码或者存疑编码。

(1)删去信道

删去信道是会以一定概率丢失比特或者信包packet的信道。例如二进删去信道Binary erasure channel。输入信号符号是{0,1},输出符号是{0,1,e},e代表信号丢失。对下图BEC,信道容量是1-pe

信道容量的证明:以1-p的概率,传一次就成功。如不成功,再传一次成功,概率为p(1-p),也就是用2次。这样,要以极小出错概率传输,需要传

read more

量子信息论和语义信息论

这两者之间其实有很近的关系

一个量子比特(qubit)是多个纯态(pure state)的叠加。例如|s>= 0.707 |0> + 0.707 |1> 就是说 |s>以概率0.707*0.707=0.5为|0>,以概率0.5为|0> 。也就是,如果进行100次测量,那近似 50次得到|0>。

在语义信息论中,一个消息,也即是一个逻辑的表达式,代表多个模型。每个模型有自己出现的概率。例如,假如模型的集合是一个一个的人,其中20%是小孩,20%是老人。那消息“小孩或老人”的逻辑概率是40%,其中一半的可能是小孩,另一半是老人。

read more

数据压缩方法

数据压缩data compression),或者称为信源编码,对利用数据中的冗余(redundancy),来实现减少数据集大小的方法。

(1)统计冗余

传统的信息论的方法,是利用统计冗余(statistical redundancy)。何谓统计冗余?一般的说法是符号出现的概率不相等。为什么这样就叫冗余呢?因为一个各符号出现概率相等的信源(也即看起来完全随机)是最简洁的,也是我们对它没有任何知识的信源——这对应于物理中的能量均分原理。如果概率不相等,那我们对这个信源有一定的(统计)知识,就可以用来变换这个信源到另一个更接近完全随机信源的的信源,从而实现压缩。

read more

语义通信这篇文章被录用了

不是什么好会议,一个IEEE的workshop。不过这个题目从开始到现在,一年多了,这是第一篇文章,也算是稍有收获。只所以花这么久,第一是因为要学习的东西太多——信息论我已经很多年没有涉猎了。第二是不停地犯错误,曾经在算法信息论(algorithmic information theory)这个分支上晃悠了半年之久,最后发现对工程没有什么价值。现在这个文章,也还是很抽象的,没有说工程的事——不过香农的文章不也没有说吗?关键是下一步(如果我还做这个项目的话),如果指导编码?比如,如何更好的设计ontology来表达要表达的知识而只用最少的长度?

read more

一些关于历代政治制度的疑问

【原文发在个人wiki(Net.Weblog.20051002),2005-10-01】

其实中国封建时代的政治不可以专制而概之。制度之设计与制度之落实,依赖政治系统各要素的博弈和信息处理能力。以下主要参考了《历代政治得失》等。

这里提几个观点。论据有待整理。

【1】汉至清,中央权力提高,同时官僚机构内部监督和分权机制日益完善。

明清地方官制三权分立,与汉代二千石太守比,每个部门的长官权力都大大缩小。就地方长官权力,汉大于唐宋,唐宋大于明清。这似乎符合人类政治发展的一般规律(中央权力相对地方逐渐提高)

read more

为什么假定背景噪声是高斯噪声?

今天温习香农经典文章关于连续信源的一段,结果又恍然大悟(咦,为什么要说又?):为什么当我们不知道背景噪声的性质的时候,假设它是高斯噪声,即服从高斯(正态)分布的噪声。因为是噪声,我们又假定我们不能从一次采样中预测另一个采样的值,也就是不相关(“”)。

注:我以前有一个印象,白噪声就是高斯噪声,错。“白”是指任意两个不同时刻上的随机取值都是不相关的;高斯噪声是指概率密度函数服从高斯分布的噪声。更多分析见这里。为行文简洁,下面提到白噪声都是高斯白噪声。

高斯白噪的概率分布密度函数是(下引公式和图片,不另说明的,均来自维基百科):

这个函数的图示如下:

read more

语义不确定性原理

科学松鼠会上看到一篇精彩的文章《不确定性原理的前世今生》(1,2,3,4),联想到语义信息论上的一些问题。关于测不准,我以前也写过一段介绍

【广告之后马上回来(其实是我要回家吃饭)】

P.S. 2011-04-08 这个坑看来一时半会是填不了了。我主要是在想对一个信号做逻辑的变换, i.e., 信号本身是模型而不是信号(看这话绕的),那获得的最终信号(i.e., 推理结果)的频域特征是什么?不确定性原理还是否有效?BTW, 一个茴字有四种写法,这个“茴”是模型,四种写法是信号…

read more

该亚细胞

2000-01-03。最早发在个人主页,这里修改了几个错别字。

【声明:关于盖亚假说,可以参考维基百科()。学术界存在很多对盖亚假说的批评。尽管过了11年,我依然很喜欢这个假说,而在这篇文章中,做了一些引申。这篇文章中的基本观点,11年以后并没有改变。但要警惕的是,在这个题目上,除了信息论的部分,我是道道地地的民科。】

引子

世界上没有什么事不是相关联的。我们都从混沌中走来,正是由于关联,才渐渐产生今天这个世界。世间万物在统一着。

read more

减排了,全球就不变暖了?

标题党。其实这个帖子讲的是语义信息(semantic information)和信念修正(belief revision)。详见我在Tetherless World Blog上的文章

http://tw.rpi.edu/weblog/2011/03/30/can-cutting-co2-emission-avoid-global-warming/

要义:知道了p → q,那我们对¬P^¬q的信念也增强了,因为p → q包含了对¬P^¬q正的互信息。

P = 减排

Q= 全球变暖

==============

OK, you have been fooled by the title. This post will not talk about environment policies, as I have no courage or knowledge to fight either school about global warming.

read more

《The Information》读后感(1)

The Information: A History, a Theory, a Flood》已经到了,从昨天晚上开始看。Amazon上只要$16,还有语音书版本。

看了两章,还是很有趣的。比如里面说非洲土著有一种鼓语,和莫里斯电码差不多,用高低两种音调模拟单词(这些语言里还没有字母),利用大约8倍的语义冗余,可以向几公里外传递信息。

我用Twitter写了一些很短的读后感,集中在这里,没什么次序。

In fact, semantic msg predated symbolic ones: paleolithic paints of horses expressed models of horses, rather than the word “horse”

read more

什么是复印机?

今天看到一个非常欢乐的法庭记录,详见【1】。这是俄亥俄的一个县政府关于复印机的官司。律师M(arburger)问县政府IT主管P(atterson)知道什么是”photocopying machine”,P说他不知道。为这个词的定义,双方鸡生蛋蛋生鸡了半天,浪费了足足10页法庭记录。最精彩的是最后一段:

Marburger: Have you ever–do you have machines there where I can put in a paper document, push a button or two, and out will come copies of that paper document also on paper? Do you have such a machine?

Patterson: Yes, sir.

Marburger: What do you call that machine?

Patterson: Xerox.

Marburger: Xerox. Is the machine made by the Xerox Company? Is that why it’s called Xerox?

Patterson: No.

Marburger: So Xerox, in the parlance that you’ve described, the language that you’ve described, is being used generically as opposed to describing a particular brand; is that right?

read more

货币代表的是语义信息,而不仅是信息

接着”货币的量纲是焦耳/开尔文“扯。我现在做的这个项目,叫做语义信息论(semantic information theory)。这是一个少有的,我感兴趣又可以拿工资的工作。一起合作的,有人工智能,通信理论和算法方面的几个大牛,都是些极聪明的人。这是背景。

上面讲货币的本质是有序度的测量。哪一种有序度?传统信息论,研究的是随机信号,并不考虑信号背后的意义。DNA上一比特,和AV的一比特,无差别,所谓对错。

read more

货币的单位是焦耳/开尔文

这是我1996-1997年开始的一个观点,2008年金融危机后加深了这个看法。

不记得以前是不是写过文章解释这个观点。基本的思路是这样的

  • 现代社会货币的本质是信用(所以温家宝说,信心比黄金更宝贵)。
  • 美元对黄金脱钩后,目前这个国际货币体系的运转,依赖于对美元本身的信心。人民币发行很大一块是基于外汇储备(其实是被迫的),所以人民币的购买力间接的依赖对美元的信心,当然,对本国经济的信心是主要的。
  • 最根本的技术指标,就是美国国债的利率。这个利率,在各种主权债券中,是非常低的。你去投资发展中国家债券,搞不好可以10%回报,因为它的利率是非常高的。大家都认为美国政府是不会赖帐的–现在这样看的人在减少,据说莫迪也在考虑给美债降级–但是大多数人还是这个看法。
  • 当然,人们以前用其他货币,也是基于信心。
  • 这个信心的培养和丧失,是通过一系列的社会契约。元朝后期不断动用宝钞的准备金,这是公开做的,这个信心就垮了,通货膨胀。美国要杀萨达姆,因为他要搞石油的欧元结算,这是美国履行对他的货币的义务,这个战争行动就是履约。这约履得不好,所以美元指数从120跌到80。所以每一单位的货币,本质上就是对社会契约度,也就是可预测性的一种度量。
  • 具体的技术操作上, M0(纸币硬币),M1(+活期储蓄),M2(+货币市场帐号,小额定期储蓄),M3(+其他各种定期储蓄),就是这个契约性的一步步放大。其他的,还有股票,股票的n阶导数(期权),期货,房子,君子兰,郁金香,QQ币,等等。
  • 货币一级一级的放大,所谓的乘数效应,就是对这个契约程度的数量化。风险大的投资利率高,风险小的利率低。这个风险,就是对未来的不可知性,其中最主要的成分是违约的概率。
  • 所以货币的制造,就是对风险进行的量化。极端的说,如果世界上所有的人都100%不会违约,那我们想制造多少货币就制造多少货币(当然,那时也就不需要货币了),反正利率,准备金,保险都低得可以忽略了。反之,如果世界上的人的行为都是随机的(天下大乱),那也谈不上什么预测,钱就真成了废纸。
  • 数学上,一个变量的风险可以用标准差度量。变量很多的时候,可以用熵。一块钱,我可以拿来做很多事,这个事情越多,这个钱就越“值钱”;这个对可以做的事情的多少的数学期望,就是货币的熵,准确的说,负熵。系统的可预测性越好,选择越多(代表参与契约的人越多),负熵越大,钱更值钱(所以在货币扩张的过程中,国家有铸币税的好处)
  • 回到信息论,负熵就是信息,系统有序度的度量。
  • 熵的单位是焦耳/开尔文,说它是比特也可以。 1 比特 =k ln 2 焦耳 / 开尔文 =0.957 × 10^-23 焦耳 / 开尔文。

最后说一句,有人认为人民币会贬值,我看这种看法盯住了一些短期技术指标,却看不到货币的本质。随着对中国经济整体的信心的增长,中国内部各种契约程度的加深(比如社保),人民币的内在价值那肯定是一个又一个比特地涨。凡是一个国家内部发生这种秩序的增强,而货币长期不升值的,我还没有见到过。

read more

股票和信息论

股票跌了,跌得鬼子哇哇叫。目标:Dow,11000点;SP500, 1180点。奇怪吗?一点不奇怪。从去年年底开始,超买信号就很强,没有日本地震,也有别的第二只靴子掉一来。

对搞博弈论和信息论的,没有比股票市场更有趣,更现实的的样本了。香农40岁退休,后面的35年据说都研究股票了,年化投资回报率28%。(见道升随笔829:信息论鼻祖香农的投资手法)他的文章是没发,我想如果发了,一定得炸药奖。

read more

信源编码与洗脑

据说真理部和中国男足是改革开放后唯二没有进步的部门。对此我深表赞同。

比如说,真理部据说是搞宣传的,可是连个自己的网站都没有,更不用说自己的英文官方译名,弄到自己在维基百科英文版上的名字还是贬义的Propaganda Department而不是中性Publicity Department,叫人想帮它正名都没法。我们中国人最讲究名正言顺,名都不正,还谈什么宣传?

真理部最大的失败,不在于它宣传了什么,或者不准宣传什么,而在于它给人一个印象就是它是搞宣传的。洗脑的艺术,就在于让受众飘飘然不知道自己在被洗脑。赵本山卖拐给范伟,断不会说我是在忽悠你。我到美国十年,最大的感触之一就是美国媒体忽悠的妙处,以及我们勤劳善良朴素勇敢的美国人民不以为自己被忽悠的这份淳朴。

read more