《數學之美》讀後感

確切的來説,《數學之美》並不是一本書,它是谷歌黑板報中的一系列文章,介紹數學在信息檢索和自然語言處理中的主導作用和奇妙應用,每一篇文章都不長,但小中見大,從看似高深的高科技中用通俗易懂的案例展示了數學之美,深深的吸引了我。

《數學之美》讀後感

這一系列文章的作者是google公司的科學家吳軍。他畢業於清華大學計算機系(本科)和電子工程系(碩士),並於1993-1996年在清華任講師。他於1996年起在美國約翰霍普金斯大學攻讀博士,並於XX年獲得計算機科學博士學位。在清華和約翰霍普金斯大學期間,吳軍博士致力於語音識別、自然語言處理,特別是統計語言模型的研究。他曾獲得1995年的全國人機語音智能接口會議的最佳論文獎和XX年eurospeech的最佳論文獎。

吳軍博士於XX年加入google公司,現任google研究院資深研究員。到google不久,他和三個同事們開創了網絡搜索反作弊的研究領域,並因此獲得工程獎。XX年,他和兩個同事共同成立了中日韓文搜索部門。吳軍博士是當前google中日韓文搜索算法的主要設計者。在google其間,他領導了許多研發項目,包括許多與中文相關的產品和自然語言處理的項目,並得到了公司首席執行官埃裏克.施密特的高度評價。吳軍博士在國內外發表過數十篇論文並獲得和申請了近十項美國和國際專利。他於XX年起,當選為約翰霍普金斯大學計算機系董事會董事。

正是他在信息檢索與自然語言處理領域中的一系列工作,使他講述了我所看到的內容-數學之美。

看了數學之美,立即聯想到了金庸小説中的武林高人,總是把一套大多數人都會的入門功夫使得威力無比,擊潰眾多敵者。東西放在那,它的威力如何,並鍵在於使用者,武術如此,數學同樣如此。

於我而言,語音視別是一類高科技,作為非專業人土,深覺高奧。但看完數學之美之後,頓感驚詫,原來如此深奧東西的解決方法自己也學過,並且理工科讀過大學的人都學過,那就是統計學中的條件概率p(a/b),即b事件發生條件下a事件發生的概率。

如果s表示一連串特定順序排列的詞w1,w2,…,wn,換句話説,s可以表示某一個由一連串特定順序排練的詞而組成的一個有意義的句子。現在,機器對語言的識別從某種角度來説,就是想知道s在文本中出現的可能性,也就是數學上所説的s的概率用p(s)來表示。利用條件概率的公式,s這個序列出現的概率等於每一個詞出現的概率相乘,於是p(s)可展開為:

p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)

其中p(w1)表示第一個詞w1出現的概率;p(w2|w1)是在已知第一個詞的前提下,第二個詞出現的概率;以次類推。不難看出,到了詞wn,它的出現概率取決於它前面所有詞。從計算上來看,各種可能性太多,無法實現。因此我們假定任意一個詞wi的出現概率只同它前面的詞wi-1有關(即馬爾可夫假設),於是問題就變得很簡單了。現在,s出現的概率就變為:

p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…

(當然,也可以假設一個詞又前面n-1個詞決定,模型稍微複雜些。)

接下來的問題就是如何估計p(wi|wi-1)。現在有了大量機讀文本後,這個問題變得很簡單,只要數一數這對詞(wi-1,wi)在統計的文本中出現了多少次,以及wi-1本身在同樣的文本中前後相鄰出現了多少次,然後用兩個數一除就可以了,p(wi|wi-1)=p(wi-1,wi)/p(wi-1)。

也許很多人不相信用這麼簡單的數學模型能解決複雜的語音識別、機器翻譯等問題。其實不光是常人,就連很多語言學家都曾質疑過這種方法的有效性,但事實證明,統計語言模型比任何已知的藉助某種規則的解決方法都有效。比如在google的中英文自動翻譯中,用的最重要的就是這個統計語言模型。去年美國標準局(nist)對所有的機器翻譯系統進行了評測,google的系統是不僅是全世界最好的,而且高出所有基於規則的系統很多。

這就是數學的美妙之處了,它把一些複雜的問題變得如此的簡單。

看到《數學之美》,在感歎數學的美妙與神奇之處時,自然而然聯繫到自己專業(地質工程而或巖土工程)中的數學應用。

現在找文獻,搜索期刊一大堆基於數學的專業文獻,灰色數學的、模糊數學的、非線性的、系統的,等等,這麼多的數學的使用,促進了一大批的文章,但這些數學方法的應用究竟是發現了哪些問題?還是解決了實際問題嗎?還是僅發了文章,滿足了需求?現實是文章好發,用着難用,解決問題還得傳統的方法,那麼是這些數學方法不行,還是用的太膚淺,根本沒發揮其威力來?如果沒有發揮出威力來,那怎麼用?怎麼發揮?