434
社区成员
发帖
与我相关
我的任务
分享编程规范:
《数学之美第一章读后感》
第一章简单的介绍了机器如何识别处理自然语言,认识文字以及信息检索。
在第一章中,我接触到了机器学习分析人类语法语句的方法。首先,我认识了统计语言模型,比如在机器翻译,语音识别中,我们需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。这个时候就可以用到统计语言模型,S表示由一系列词串起来组合成的有意义的句子,p(s)表示句子s在文中出现的概率,则有公式p(s)=p(w1)p(w2|w1)p(w3|w2)p(w4|w3)…p(wi|wi-1),而概率最大的那种句子就是最符合人类语言逻辑的句子。其次,我学习了如何应用统计语言模型。就像上文所说,机器先把用户输入的句子分成一系列词,然后串起来,才能分析是否最大程度匹配用户想要的翻译,而汉语分词中的二义性问题就会是一个很棘手的问题。如最简单的分词方法是查字典,即把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词就找最长的词匹配(如上海大学),但是当遇到二义性的词,如:发展中国家,会把它分成发展-中国-家,而正确的分法是发展-中-国家。此时利用统计语言模型,计算不同分法的句子的概率,找到分词后句子出现概率最大的,就能找到最好的分词方法。而不同的应用有不同的分词系统,在机器翻译中,颗粒度应该大一些,北京大学就不能被分成两个词,而在语音识别中,北京大学一般被分成两个词。然后,又了解了隐马尔可夫模型。当我们观测到语音信号o1,o2,o3时,我们要根据这组信号推测出发送的句子s1,s2,s3,这时就可以用到马尔可夫模型。然后又学到了贝叶斯公式,信息熵,冗余度,超链接的概念。
当我们摸透所要处理问题的本质时,就可以很好的选择恰当的公式与模型进行解答,而看似使用公式后简单问题复杂化了,但只要真正上机实验后就会发现我们可以利用数学知识与算法,依靠计算机帮助我们解决问题。在第一章中我认识到,数学的美在于它可以简便的解决生活中的实际问题。
我们现在的学习应开始向实践靠拢,如离散数学的图论知识可以应用到网络爬虫,一些机器处理问题也需要多个数学知识搭配,还要注意一些概念公式应用的前提,作合理假设,多查阅论文。