
我们这一代人,完整地见证了互联网的崛起和信息时代的到来。时至今日,每个人都离不开智能设备,连同我们的父母辈甚至祖辈,都被社交平台的信息裹挟。
那么这一切到底是怎么发生的?
机器学习和人工智能的迅速发展,给无论是什么行业的普通人带来了一点震撼。即使钝感力再强,也该意识到,我们或多或少需要提高一下对信息技术的了解。
对比一下今天的世界和十年前的世界,是否感到再不跑快点,就要被抛弃?
反正我是这么觉得的。
>>>信息、熵与不确定性延续本系列第一篇的思路(思维方式|重建正确的学习系统),首先要分清楚数据、信息和知识的区别。在信息论的体系下,我认为大多数人理解的“信息”,其实是数据——一张图片、一组数字、一段文字,以各种形式触达你的,统统被理解为“信息”。“在这三十年间,信息极大地释放了人类的能量,它所创造的价值超过了之前五千年的财富总和,但‘信息’依然是个大家耳熟能详却又含义模糊的词。”——雷军1948年,美国人克劳德香农(Claude E. Shannon)发表论文《通信的数学理论(A mathematical theory of communication)》,提出信息和比特(bit)的概念,为信息论的发展奠定基础,影响延续至今。按照这位天才的理论,信息的定义是“事物运动状态或存在方式的不确定性描述”,且他认为信息具有物理属性,可以被测量,测量单位就是比特。我来翻译一下:能使某件事物的不确定性减少的,即为信息。而如何去度量,则与接收者的观察角度有关,与信息传播的形式无关。举个例子,假如你不知道太阳从哪边升起,而我告诉你是从东边,此事对于你来说,从不确定变成确定,那么我提供给你的就是信息。一个更为准确的例子是,我告诉你太阳不是从西边升起的,这种情况对你来说,从东南西北皆有可能变成仅东南北有可能,不确定性有所减少,那么我提供给你的也算信息。然而对我来讲,我本身就知道太阳从东边升起,那么无论你告诉我关于此事的什么内容,都不会减少我对此事的不确定性,你告诉我的就不是信息。至于熵,是一个与信息数量相等、意义相反的概念,它描述的是事件不确定性的可能数量。获取信息就相当于消除熵。你也许听说过“熵增定律”,说事物总是朝无序状态发展,实际上这对熵的理解有误——熵描述的是不确定性的数量,而不是无序的程度。比如房间总是会乱,而很少整洁,不是因为东西就是倾向于无序,是因为房间乱的可能形式比整洁的形式数量要多得多。熵的概念,给我们理解世间万物发展规律提供一个很牛的角度,浅埋个伏笔。总之,数据可能是信息、也可能是噪音(没有减少不确定性的描述),信息必须能使接收者的熵(不确定性的数量)减少,而知识是输入信息与输出信息之间的规律,通过压缩大量信息习得规律的过程就是学习。
>>>如何计算信息量信息是个可以衡量的物理量,类似质量、温度等等,比特就是信息量的单位。衡量信息的方法也可以参考质量的定义:千克(kg)是选定一个参照物设定的,其他东西的质量就相当于多少(m)个参照物,那么我们就知道该物质重m kg。同理,设定参照事件的不确定性为a,待测事件的不确定性为b,计算出b等于几个a,那么就可以定义待测事件的信息量。其中,参照事件为50%等概率事件(理解为抛硬币,正的概率=反的概率=50%),这就是1比特的定义。那么,怎么计算一条信息有多少比特?如果是质量那样的线性关系,通过b=ma的反函数就可以算出m了,即m=b/a; 然而抛掷硬币的次数与可能结果的个数之间是指数关系,例如抛掷3次硬币可能产生8种结果,即8=23, 那么反函数就是对数函数,即b=log2a(均匀分布)
举个例子,某道问题的答案是ABCD中的一个,不确定事件(熵)共4个,那么正确答案的信息量为log24=2 bits 两比特。需注意的是,不确定事件必须为等概率事件(答案是A的可能性为25%,B、C、D的概率也分别是25%),因为参照事件是等概率事件。
如果不确定事件存在不同概率,那就分别计算每个事件的信息量后乘以对应概率后相加(就是加权),总之公式是:给定不确定事件分别为X1、X2、X3....共n项,各事件的概率分别为P1、P2、P3.....Pn, 则能使该事件确定的信息量Y为:
(一般分布)以上,就是信息量的计算原理,用于表示信息的不确定性程度。#参考资料:1. YJango@bilibili 学习观系列10、10.5、11(公众号、知乎同号)2. 维生素E@小宇宙 《第四期 思维方式:信息与计算》3. 科言君@知乎 《香农的信息论究竟牛在哪里》(原文发表在公众号,找不到)
标题回顾:思维方式|你知道信息到底是什么吗
回顶部