算法设计与分析第一周作业

计科2101方卓妍 2022-09-04 14:00:15

编程规范：

运算符前后要有空格
少用i,j等字母或拼音来定义变量，多用其英文定义，并且要注意命名规范（如小驼峰法和大驼峰法）
编写代码写注释
尽量在变量声明时进行初始化，且避免进行无效的初始化
注意缩进和空行

《数学之美第一章读后感》

第一章简单的介绍了机器如何识别处理自然语言，认识文字以及信息检索。

在第一章中，我接触到了机器学习分析人类语法语句的方法。首先，我认识了统计语言模型，比如在机器翻译，语音识别中，我们需要知道一个文字序列是否能构成一个大家能理解的句子，显示给使用者。这个时候就可以用到统计语言模型，S表示由一系列词串起来组合成的有意义的句子，p(s)表示句子s在文中出现的概率，则有公式p(s)=p(w1)p(w2|w1)p(w3|w2)p(w4|w3)…p(wi|wi-1)，而概率最大的那种句子就是最符合人类语言逻辑的句子。其次，我学习了如何应用统计语言模型。就像上文所说，机器先把用户输入的句子分成一系列词，然后串起来，才能分析是否最大程度匹配用户想要的翻译，而汉语分词中的二义性问题就会是一个很棘手的问题。如最简单的分词方法是查字典，即把一个句子从左向右扫描一遍，遇到字典里有的词就标识出来，遇到复合词就找最长的词匹配（如上海大学），但是当遇到二义性的词，如：发展中国家，会把它分成发展-中国-家，而正确的分法是发展-中-国家。此时利用统计语言模型，计算不同分法的句子的概率，找到分词后句子出现概率最大的，就能找到最好的分词方法。而不同的应用有不同的分词系统，在机器翻译中，颗粒度应该大一些，北京大学就不能被分成两个词，而在语音识别中，北京大学一般被分成两个词。然后，又了解了隐马尔可夫模型。当我们观测到语音信号o1,o2,o3时，我们要根据这组信号推测出发送的句子s1,s2,s3，这时就可以用到马尔可夫模型。然后又学到了贝叶斯公式，信息熵，冗余度，超链接的概念。

当我们摸透所要处理问题的本质时，就可以很好的选择恰当的公式与模型进行解答，而看似使用公式后简单问题复杂化了，但只要真正上机实验后就会发现我们可以利用数学知识与算法，依靠计算机帮助我们解决问题。在第一章中我认识到，数学的美在于它可以简便的解决生活中的实际问题。

我们现在的学习应开始向实践靠拢，如离散数学的图论知识可以应用到网络爬虫，一些机器处理问题也需要多个数学知识搭配，还要注意一些概念公式应用的前提，作合理假设，多查阅论文。

...全文