克勞德·艾爾伍德·香農(nóng)(Claude Elwood Shannon),1916年4月30日-2001年2月26日。
今天是香農(nóng)誕辰103年,他是信息論和人工智能的奠基人,他的研究成果深遠(yuǎn)的影響著這個時代,他謙遜的品格也鼓舞著后來人不斷進(jìn)取,這是一個值得被人銘記的名字,正因為信息的傳播打破了時空的限制,像空氣和水一樣廉價,如果世人傳頌我的故事,讓他們說,我曾與英雄同在,我活在信息時代。
1943年,第二次世界大戰(zhàn)正使全世界處于動蕩不安之中,同時也是全球精英突破各種困難之時,克勞德·香農(nóng)和阿蘭·圖靈正是在這階段認(rèn)識的,他們在研究如何破譯軸心國的加密信息。他們曾在貝爾實(shí)驗室餐廳共進(jìn)午餐,他們都相信機(jī)器可以被賦予思考的力量。雙方的討論會很激烈,香農(nóng)提議將有文化的東西灌入電子的大腦中,圖靈則說不,我對建造一顆強(qiáng)大的大腦不感興趣,我只想要一顆普通的大腦。,這些聊天讓人目瞪口呆,機(jī)器能被賦予智能么?
香農(nóng)在研究密碼學(xué)時,發(fā)現(xiàn)任何語言都有一定的統(tǒng)計結(jié)構(gòu)和冗余。比如,在一篇文章中,去掉某些詞,并不影響這篇文章包含的信息。香農(nóng)估計,英語的冗余度是百分之五十。隨著研究的深入,香農(nóng)對信息論的存在逐漸清晰,他興奮的說:對于信息論的研究而言,與信息的'意義'基本無關(guān)。1948年,香農(nóng)發(fā)表了《通信的數(shù)學(xué)理論》,揭示出:信息的意義不是在語義上衡量的,而是數(shù)學(xué)上的。簡單的說,一些信息出現(xiàn)的可能性大或者一些信息更重要,這樣的說法都是建立在概率基礎(chǔ)上的。香農(nóng)又通過數(shù)學(xué)方法定義了信息熵、信道容量等概念,到20世紀(jì)60年代,信息論發(fā)展成為了關(guān)于信息、信息傳輸和信息處理的新學(xué)科。
1949年夏的一天,香農(nóng)用鉛筆在活頁紙上自上而下而下的畫了一條豎線,并在旁邊寫下了10的冪,從100到1013。他將坐標(biāo)軸命名為比特存儲容量。然后他開始列舉一些可以儲存的東西,在103下,香農(nóng)寫下了打孔卡片,在104處,他寫下了單行距打字頁面(有32種可能),在105附近,他寫下了不同尋常的東西:人類的基因構(gòu)成,這種科學(xué)思考可謂史無前例,因為人類的DNA結(jié)構(gòu)要等上幾年才會被提出,香農(nóng)還是猜的太保守了,起碼低了四個數(shù)量級。在107的級別上,是一本厚厚的《無線電工程師學(xué)會學(xué)報》,在109級別,則是《不列顛百科全書》,1011比特是一小時的電視節(jié)目,而一小時的彩色電影,就要超過1013比特了。最后,就在下1014,香農(nóng)寫下了他所能想象的最大信息量:美國國會圖書館。
香農(nóng)的活頁紙
1951年,香農(nóng)則展示了一個機(jī)器人,盡管它不聰明,外表也不像人,但是它給觀眾留下了深刻印象,因為它能學(xué)會走迷宮,他們稱它為香農(nóng)的老鼠?! ttp://27.221.42.30/vhot2.qqvideo.tc.qq.com/ARh_Ifz6l0QICH6LN9_LgXTuizVfR7yqgwmNTTLlBSMI/uwMROfz2r5xoIaQXGdGnC2dfhzktbhdAyZmeukSI5tNswzV1/e1338amyt44.m701.mp4?vkey=C31660F5FA9CE8002202D5133785D5FE1C305C77359F46383B350BEEEA8E691796F35F0927D2F39AB9B30501B62946506EF6A449E1FB74871D84FA8AB5802BD06463ABF2EA86EE1FB57EFEEFE7D6D2427DF9A320B3210B22E86F99E7928AE92E80C1CBEE36EBBD83400963DC1AE1ED63A7A3C87198266F8F81D846698C07EAF4br=29platform=2fmt=autolevel=0sdtfrom=v1010guid=d70faeb08f7946098cc380b58faa6aed
香農(nóng)的老鼠
這些看起來有點(diǎn)不可思議,尤其是香農(nóng)的老鼠,它具有學(xué)習(xí)的能力,不同于以往人類發(fā)明的其它機(jī)器。這些具有開創(chuàng)性的工作,是如何完成的?香農(nóng)和其他信息論的先驅(qū)們到底是怎么開創(chuàng)了一個基礎(chǔ)學(xué)科的?我做一個簡要的介紹。
熵
熵的概念,最早起源于物理學(xué),用于度量熱力學(xué)系統(tǒng)的無序程度,1865年,熱力學(xué)的主要奠基人魯?shù)婪蚴紫仁褂昧嗽撛~,他發(fā)現(xiàn)了一種量,這種量與能量無關(guān),他就稱之為熵。香農(nóng)首先將熵用于描述信息的不確定性,因為無序程度和不確定性,其背后都帶有隨機(jī)分布的特點(diǎn),熵的計算被定義為:
其中,X代表一個離散型隨機(jī)變量,p(x)為其概率分布函數(shù)。當(dāng)對數(shù)函數(shù)以2為底時,熵的單位是比特。熵的大小不取決于X的實(shí)際值,而僅依賴其概率分布。這個公式也被稱為香農(nóng)熵。
當(dāng)有多個隨機(jī)變量表示多個關(guān)聯(lián)的事件時,事件之間相互影響。
以上三個公式分別是兩個隨機(jī)變量(X,Y)的聯(lián)合熵,條件熵和互信息,其證明過程采用香農(nóng)熵、聯(lián)合概率分布函數(shù),鏈?zhǔn)椒▌t。我們使用互信息來衡量不同事件空間,兩個信息的相關(guān)性。熵與互信息存在關(guān)系,通俗的說,任何新信息的增加,都不會使得原有信息的熵增加。就像我們玩德州撲克,不管你的表情如何改變,只要做了改變,都會被精明的玩家窺探到你手中的牌怎么樣,因為你增加了信息,在牌局中,那些面無表情的人是最可怕的,一些人還會帶著帽子、墨鏡來掩飾自己的情緒。另外一個例子,偉大的發(fā)明和公司,往往是使熵降低的,比如互聯(lián)網(wǎng)搜索引擎使人們獲取信息的成本很低,從而解決了信息的不對稱,有利于階層之間的流動,使熵降低。
熵與互信息的關(guān)系
香農(nóng)的通信系統(tǒng)模型
下圖是香農(nóng)提出的通信系統(tǒng)模型。
香農(nóng)模型
信源是發(fā)送信息的主體,信宿是接收者,信道是信息傳送的通道,編碼泛指將信源的信息轉(zhuǎn)換成適合通過信道傳送的信號的設(shè)備,譯碼是編碼的相反的設(shè)備。信道可以分為兩大類:有線信道和無線信道。有線信道包括光纖、電纜等沿導(dǎo)線的電磁波傳遞介質(zhì),無線信道則是依賴于自由空間來傳遞電磁波。此外,信道也可以分為有無記憶、連續(xù)還是離散等方式。信號在通過信道時,會有延時,還有伴有固定或時變的損耗,在通信系統(tǒng)中,這部分信道被成為干擾。干擾的來源可能是人為、自然和設(shè)備內(nèi)部。
信道容量是指該信道中,每個字符平均能傳送的最大信息量,信道容量等于輸入與輸出的互信息的最大可能值。
信道容量
在通信系統(tǒng)中,信息需要編解碼,然后在信道中傳輸,香農(nóng)信道編碼定理,描述了信息傳輸速率與信道容量的關(guān)系:如果信源的信息速率小于信道容量,那么則存在一種編碼方式,能保證發(fā)送信息的誤差任意小。也就是說,通過不可靠的信道,實(shí)現(xiàn)可靠的信息傳輸。在人們不具備更好的信道的條件下,如何將現(xiàn)有信道發(fā)揮到最大的利用價值,香農(nóng)給出了一個極限。在香農(nóng)以前,在這個問題上,物理學(xué)家和數(shù)學(xué)家總是聊不到一起,直到香農(nóng)的三大定理給大家一個評價標(biāo)準(zhǔn)。有趣的是,當(dāng)時香農(nóng)并沒有給出這個結(jié)論的證明,這個證明直到后來才被人推導(dǎo)出來。近些年來,信道編碼取得重要進(jìn)展,已經(jīng)實(shí)現(xiàn)了無誤差編碼方式。
最大熵模型
在信息論中,熵是用來度量信息的不確定程度的,熵增定律說明了一個孤立系統(tǒng)有朝著熵增的方向發(fā)展的趨勢,進(jìn)而呈現(xiàn)出一種最無序的、最不確定的狀態(tài)。最大熵就是使系統(tǒng)處于熵最大的狀態(tài)-滿足已有事件,無偏的對待不確定事件,即對未確定的事件,認(rèn)為是等概率出現(xiàn)的。最大熵原理即是認(rèn)為,在統(tǒng)計學(xué)習(xí)里,所有的模型中,熵最大的模型是最好的模型。
最大熵原理對目前機(jī)器學(xué)習(xí)的優(yōu)化算法而言是舉足輕重的,是訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的指導(dǎo)思想。
=最大熵模型求解過程
因為信息處理和信息傳輸,就像是一枚硬幣的兩面,這枚硬幣就是信息。以上公式看起來繁瑣,實(shí)際上,對于一個給定了數(shù)據(jù)集的機(jī)器學(xué)習(xí)任務(wù),就是構(gòu)建特征f,然后,使用凸優(yōu)化方法求極值。對于一個有等式約束的優(yōu)化問題,使用拉格朗日乘子法,對上式中各變量求導(dǎo)數(shù),然后令各方程為0,并組成方程組,然后對方程組求解。
信息論與人工智能
越是深入的了解前人的工作,越能感受到,信息論和人工智能源起一處,我們可以很容易的將二者聯(lián)系起來,比如機(jī)器學(xué)習(xí)的模型充當(dāng)了信息論中的編譯碼器的角色,引入信息論中的哈夫曼編碼的算法可以加快網(wǎng)絡(luò)的訓(xùn)練速度,使用最大熵或交叉熵構(gòu)造機(jī)器學(xué)習(xí)的代價函數(shù),對抗網(wǎng)絡(luò)很類似于信息論中的信道均衡的抽頭系數(shù)的訓(xùn)練---通信的成功應(yīng)用正在讓人工智能快速成長。
香農(nóng)在成功面前是虛懷若谷的,在20世紀(jì)五十年代,香農(nóng)一邊從事火控系統(tǒng)和密碼學(xué)方面的工作,一邊苦苦思考他對信息的設(shè)想,他獨(dú)自一人住在紐約格林尼治村的公寓里,與同事幾乎沒有交往,因為他們都搬到了新澤西的新總部,而他卻選擇留在西街的舊辦公樓,他不需要向別人解釋自己在干什么,畢竟他從事的是戰(zhàn)爭工作,有時候,他會去辦公樓對面的微波研究組閑逛,并且在那里認(rèn)識了貝蒂·摩爾,1948年,兩人開始約會,隨后在1949年初結(jié)婚,也就是在那個時候,他成為了人人都在談?wù)摰目茖W(xué)家。
http://27.221.42.26/vhot2.qqvideo.tc.qq.com/AvEMPOvV6Z2XyusTYURx9L9FkEx-JXrIfhkHvVeouhE8/uwMROfz2r5xoIaQXGdGnC2dfhzktbhdAyZmeukSI5tNswzV1/x13382nq69y.m701.mp4?vkey=2BF6387674D42068A29C7CF7AC455DCC9B16589730E711212A3F50BFFD64AF06C34D48CF88FACAE33DD3CB6B4845FE555F8CE614F28A7DBB35C8880E2C2CC6F065322BE85281BE137D1F726EA8613B9200D59A886391F4CF9C60FA79EA755483EA67E1BB9D9E20A667D15C8C10C320EB427E9B1E2D2A5ECFA569B90621E82CB7br=28platform=2fmt=autolevel=0sdtfrom=v1010guid=d70faeb08f7946098cc380b58faa6aed
香農(nóng)談?wù)摴ぷ?/div>
香農(nóng)是一個可以與牛頓、愛因斯坦、特斯拉等科學(xué)偉人相提并論的非凡人物。我們看不到那些被歷史遮蓋的事實(shí),他有沒有低谷的時候,他克服困難后的喜悅,但是我相信,他被周圍的人愛著,也在努力愛這個世界,他堅持自己的事業(yè),追求科學(xué)的樂趣,真正以謙遜的態(tài)度看待自己的成功。
今天,我們工作是后香農(nóng)時代的人工智能單元,我們在他的生日上感謝他的貢獻(xiàn),
http://27.221.42.157/vhot2.qqvideo.tc.qq.com/AizBICEVjDoS-X_TK2DuaHhdHSlCKaBcbHF3s-T1vj-0/uwMROfz2r5xoIaQXGdGnC2dfhzktbhdAyZmeukSI5tNswzV1/r1338zg1gpt。m701.mp4?vkey=0635CD0A368E3DDD00CB0FFC54A9B9CCED451566A39884F1826AF51F7BB10A6AF3059C6F7792D43D5C0500BE313795F26A3D3EAD5A763269C988546D5F14B042A428BAF8D56D0F7E0E61FFF735E34DA4A4BA17595C57DFAE13DEBF43D6C28A18771338A12762004C16F1613EAACE9C6D7E8B2B8622364CE47793FECEB72BA154br=29platform=2fmt=autolevel=0sdtfrom=v1010guid=d70faeb08f7946098cc380b58faa6aed
高通聯(lián)合創(chuàng)始人維特比先生談香農(nóng)
概率的本質(zhì)不是自然的隨機(jī),而是人類的無知。希爾伯特說過一句名言:我們必須知道,我們必將知道。如果世人傳頌我的故事,讓他們說,我曾與英雄同在。