2,115
社区成员




课程名 | 主讲老师 | 考核方式 | 学期 | 必修 |
---|---|---|---|---|
数据科学导论 | 于戈、??? | 大作业 | 3-1 | 是 |
Python | 栗伟、李宇 | 闭卷考试 | 3-1 | 否 |
大数据技术原理与应用 | 张天成 | 大作业 | 3-2 | 是 |
大数据算法 | 乔百友 | 大作业 | 3-2 | 否 |
推荐系统 | ??? | ??? | 4-1 | 否 |
由于笔者还写文章时是大三暑假,所以暂时没有推荐系统课程的信息。等课程结束后补充。
这门课主要学习一些非常常见的数据分析方法及模型,还有如何用R语言进行自动化数据分析。什么是数据分析?举个例子的话就是:假设你手里有近十年的天气情况,然后让你预测今年的天气情况。或者你手里有百万级别的购物清单数据,让你分析一下用户的购买习惯。这些都是数据分析的内容。
关于R语言。不用担心,99%的学生在上这门课之前没有接触过R语言,但都可以顺利结课。R语言的基本操作很简单,通过一些简短的教程和老师上课给的代码就可以完成课程内容。R语言环境搭建也很简单。顺带一提,R语言是常用的数据分析语言,经济专业的学生普遍使用R语言、STATA、SPSS等软件进行数据分析。
至于主讲老师另一位为什么打了问号,是因为另一位老师不固定,大概率是于戈老师课题组的另一位老师。笔者当年上课时候是a老师,雨课堂上提供的视频资料室b老师,听说今年是c老师。
教材对于写作业和期末大作业来讲挺重要的,ppt上东西不太全,教材上有比较详细的解析。电子书笔者没有找到中文版,只找到了英文版。英文版电子书链接
这门课程是Python入门课,主要学习Python语法和一些常用的Python库(如pandas,numpy,regex等)。
因为大家都学过C++,所以上手Python还是很快的。Python的环境安装和环境依赖是有说法的,建议大家提前熟悉,免得到时候代码跑不出来。
这门课有四个平时作业和一个期末考试。笔者修Python时是线上考试,所以开卷了。正常在学校应该是闭卷。平时的四个作业压力不算小,涉及到的技术点如下:
对于以上知识点,助教会教,可以按照助教教的来做。整个过程下来是辛苦的,但是一定是非常值得的。锤炼下来后,会发现是真的会写Python小项目了。建议同学们不要怕累,多多坚持一下,收获真正的知识和技能。
教材不太重要,期末考试就是八股文,还有考细节的语法题、概念题(这一小部分应该是为了消除满分)。90分不难。
这门课原来叫“分布式模型与编程”。这门课主要学习分布式计算框架的原理和使用方法——Hadoop。
框架这个词对于同学们来讲应该不陌生了。我们一路走来接触了Qt、Tkinter、Pytorch、Tensorflow等框架。用过这些框架的同学应该都清楚,学习使用框架就是两件事:有哪些函数可以用?这些函数怎么用?至于函数内部是怎么实现的,不用去深究,因为是发布者已经写好的,我们只是拿过来用。
这门课的技术点如下:
这门课压力比较大,且Linux+Java的组合可能会让同学们害怕。但是好在所有的技术点只要求掌握最最最最最最基础的部分,且网上教程很多(甚至有答案)。这门课最闹心的部分其实是配环境,常见的有:虚拟机崩了、缺少系统文件、配置文件写错了、版本不匹配等等。
想卷的同学,提前熟悉Linux系统,再熟悉Java,再逐一熟悉Hadoop的各个部分。然后你就可以提前完成阶段性任务当助教赚绩点啦~修完这门课,以后对于云资源的使用就不会陌生了,且算是入了并行数据处理项目开发的门。
这门课主要学习大数据算法。大数据算法的特点与我们之前学习的算法不同,主要体现在:不要求精确解,且看起来很玄乎。
这门课上课听一听就好了,作业不难,期末大作业也不难~课程后期讲MapReduce并行计算框架,而这个东西在大数据技术原理与应用中已经讲过了,所以这门课的难度不大。
(暂略)
计算机综合实训分两阶段,第二阶段有三个方向,分别是:大数据、人工智能、JavaWeb开发。这里的大数据方向学的差不多也是Hadoop那一套,不过内容会更丰富一些,除了上面提到的以外,还有Scala、Kafka、Spark等内容。
以上就是大数据方向的大致内容,希望可以在大家选方向时有所参考。如果有什么问题,欢迎在评论区提出,我会尽量回答。