企业网站建设的一般要素,注册网站乱填邮箱,wordpress水印功能,jsp网站开发大作业大概是在10年前#xff0c;无意间读到吴军老师撰写得数学之美#xff0c;感觉吴老师对数学与信息论的结合讲述的太好了#xff0c;吴老师结合自身的多年工作经历将信息技术中用到的数学#xff0c;特别是数学里面的很多概率论、线性代数、模型算法、编解码规则等#xff0… 大概是在10年前无意间读到吴军老师撰写得数学之美感觉吴老师对数学与信息论的结合讲述的太好了吴老师结合自身的多年工作经历将信息技术中用到的数学特别是数学里面的很多概率论、线性代数、模型算法、编解码规则等用非常通俗易懂的语言阐述给大家比如我们天天用到的搜索引擎、商品推荐、语言识别、自然语言处理、文章分类、人脸识别等问题的底层数学原理如果大家能够在上初高中或者大学期间能够读到这本书我想应该会让好多觉得数学学习枯燥的人获得启发和价值引导灵感同样也让我们非常直观的了解到为什么大家要从小学1年级到大学都在学习数学数据的价值在哪里数学是一种逻辑思维一种解决问题和描述问题本质的方式方法很多科学、工程问题或物理学的问题最终都要借助数学来解决。以下是一些关键细节供参考。
一、文字和语言数字和信息
信息最早是声音传播方便人类交流通信促使语言的产生语言和通信的联系是天然的详见下图。大学期间学过信号处理课程的同学一定非常熟悉这个模型以及工作中从事后端数据传输处理比如电子邮件的发送接收设计等的小伙伴一定非常熟悉原来这些技能其实早在人类祖先的交流中就拥有了只是没有一个相对规范的称呼通信模型。 文字包括数字是高效记录信息的方式但文字需要上下文否则会产生歧义比如日 表示太阳也表示一天。文字最早是象形文字后来是拼音文字汉字笔画其实也是一种字母表示也是拼音文字。
数字进制的概念描述是不同位置的数字表示不同的量中国用个十百千万千万亿兆罗马人用I1V5X:10L:50C:100D:500M:1000。单200万的数字用罗马编码估计得一黑板现在我们用的阿拉伯数字0~9其实是印度人发明的经过阿拉伯人传到欧洲。
文字的编码也是常用字笔画短生僻字笔画多。符合信息论的最短编码原理
通信原理和信息传播模型
信源编码和最短编码
解码的规则和语法
聚类
校验位
双语对照文本语料库和机器翻译
多义性和利用上下文消除歧义性
二、自然语言处理NLP--从规则到统计
经过多年的自然语言的研究科学家发现要让机器具有智能不是让机器理解自然语言而是靠数学准确的说是靠统计学。发明飞机的怀特兄弟靠的是空气动力学研究也是工程和数学的结合不是仿生学理解鸟怎么飞的
基于规则的自然语言处理是早期对自然语言处理的理解需要进行句法分析和语义分析
基于统计的自然语言处理方法在数学模型上和通信是相通的甚至就是相同的在数学意义上自然语言处理又和语言的初衷即上面的通信原理联系在了一起。
三、统计语言模型
科学家要让计算机处理自然语言需要为自然语言这种上下文相关的特性建立数学模型简称统计语言模型
IBM的贾里尼克认为一个句子是否合理是否出现就看他的可能性大小如何。概率
整句话出现的概率P(S)w1表示第一个词wn表示第n个词
P(S)P(w1,w2,w3,...,wn)P(w1)*P(w2|w1)*P(w3|w1,w2)*P(w4|w1,w2,w3)...*P(wn|w1,w2,w3,...,wn-1).
马尔可夫提出来一种偷懒但有效的方法假设任意一个词wi出现的概率只与它前面一个词(wi-1)有关于是上面的公式就变为
P(S)P(w1)*P(w2|w1)*P(w3|w2)*P(w4|w3)...*P(wn|wn-1).
事实证明统计语言模型比任何已知的借助某种规则的解决方法更有效。数学的精彩之处就在于利用简单的模型可以干大事。
马尔可夫模型其实和俄罗斯的数学家马尔可夫没关系是美国数学家鲍姆.韦尔奇发现的。后来不断变化又出现了隐含马尔可夫模型。