社区
基础和管理
帖子详情
散分了,以下我的贴子要散分了
vrv0129
2004-07-02 10:31:19
http://community.csdn.net/Expert/topic/3119/3119574.xml?temp=.3852198
中午结贴
...全文
39
1
打赏
收藏
散分了,以下我的贴子要散分了
http://community.csdn.net/Expert/topic/3119/3119574.xml?temp=.3852198 中午结贴
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
dinya2003
2004-07-02
打赏
举报
回复
1
接分
data_analysis:抓取和分析reddit帖子的脚本
数据分析项目 介绍: 各种Python脚本可抓取reddit帖子,分析数据集,过滤相关数据并计算分数。然后,将处理此信息并将其输出为简明JSON。 收集,收集帖子并清理获取reddit数据,然后过滤掉多余的元数据以仅显示帖子标题 compile_word_count和compute_pony_lang在表演中获取字符对话的大型csv数据集,并按字符,情节等显示单词数。 compute_tfidf提取一个“收集的”数据集,并为整个集合计算TF-IDF。该脚本还删除了停用词,以进行更相关的分析 filter_to_csv采用JSON格式的集合,并删除不包含特定单词的条目(在这种情况下为Trump或Biden) 微调器还会从数据的特定列中删除特定术语 技术: 使用
以下
项目创建项目: Python版本:3.8 散景库 熊猫图书馆 请求reddit api库 项目状态: v1.0:初始上传并提
大数据分析教程——制作数据报告的流程.docx
大数据分析教程——制作数据报告的流程全文共9页,当前为第1页。大数据分析教程——制作数据报告的流程全文共9页,当前为第1页。大数据分析教程——制作数据报告的流程 大数据分析教程——制作数据报告的流程全文共9页,当前为第1页。 大数据分析教程——制作数据报告的流程全文共9页,当前为第1页。 上图中可以很清楚的看到,一个数据报告(副本)依据需求不同,有普通难度(蓝->橙->绿->红),也有英雄难度(蓝->橙->绿+黄->红),这次我们先讲普通难度的攻略,英雄难度放到下次讲。普通难度的数据报告要经历7个步骤: Step 1:目标确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 选择目标时,请注意
以下
几点: 1、选择一个你比较熟悉,或者比较感兴趣的领域/行业; 2、选择一个范围比较小的细分领域/细分行业作为切入点; 3、确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。 逐一分析上面三个注意点: 大数据分析教程——制作数据报告的流程全文共9页,当前为第2页。大数据分析教程——制作数据报告的流程全文共9页,当前为第2页。1、选择熟悉/感兴趣的领域/行业,是为了保证你在后续的分析过程中能够真正触及事情的本质——这一过程通常称为洞察——而不是就数字论数字; 大数据分析教程——制作数据报告的流程全文共9页,当前为第2页。 大数据分析教程——制作数据报告的流程全文共9页,当前为第2页。 2、选择细分领域/行业作为切入点,是为了保证你的报告能够有一条清晰的主线,而非单纯堆砌数据; 3、确定公开数据/UGC内容,是为了保证你有数据可以分析,可以做成报告,你说你是个军迷,要分析一下美国在伊拉克的军事行动与基地组织恐怖活动之间的关系……找到了数据麻烦告诉我一声,我叫你一声大神…… 不管用什么方法,你现在有了一个目标,那么就向下个阶段迈进吧。 Step 2:数据获取 目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。如果现在你还不确定自己需要哪些数据,那么……回到第一步重来吧。 下面我总结一下,在不依赖公司资源,不花钱买数据的情况下,获取目标数据的三类方法: 1、从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。举例:要找汽车销量数据,在百度输入"汽车销量数据查询"关键字,结果如下: 大数据分析教程——制作数据报告的流程全文共9页,当前为第3页。大数据分析教程——制作数据报告的流程全文共9页,当前为第3页。我打码的那个链接,也就是第三个链接(第一个非推广链接)就是要找的结果,点进去可以看到各月的汽车销量,但只是全国数据,没有分省统计数据。当然不会每次找数据都这么顺利,这里只是告诉你:要善用搜索引擎。 大数据分析教程——制作数据报告的流程全文共9页,当前为第3页。 大数据分析教程——制作数据报告的流程全文共9页,当前为第3页。 2、通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。 3、自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。这种方式受限制较少,但工作量/实现难度相对较大。 如果你是在职人员或是实习生,我建议你不要用任何现在公司的数据。保证数据的安全性,不对外泄露公司的任何非公开数据,是数据分析师的基本职业道德。 实在非要用(例如你要在面试中展示你在以前公司做过的数据报告),请将一切有意义的内容,包括但不限于各种数字、竞品及本品名称、时间、用户属性全部打码并转成pdf格式,只留图形和叙事逻辑描述内容。 Step 3:数据清洗 在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这大数据分析教程——制作数据报告的流程全文共9页,当前为第4页。大数据分析教程——制作数据报告的流程全文共9页,当前为第4页。项工作经常会占到整个数据分析过程将近一半的时间。 大数据分析教程——制作数据报告的流程全文共9页,当前为第4页。 大数据分析教程——制作数据报告的流程全文共9页,当前为第4页。 如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。 无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。 Step 4:数据整理 清洗过后,
基于python-Flask框架的社区信息交流平台(毕设)
用户可以根据自己的喜好和感兴趣的话题检索帖子信息,并查看帖子的信息。 9.发布:主要实现帖子的发布功能。用户可以选择自己感兴趣的话题,并在改话题目录下发表自己的文章。 10.文章:主要实现文章的浏览...
我在CSDN参与的3000个帖子
今日偶然翻到,感慨万千 1:申述:版主,是否扣了我的专家分? 2:100分急求,随机输出十个小写字母,但是,要求这十个字母不相同 3:求Sn=a+aa+aaa+…+aaa…a(n个a)之值 4:数组题 望高手帮忙! 5:呵呵,来推荐一下我的网站,本站提供大量当今流行的免费的音乐和免费电影,常用软件、游戏、精美图库下载,希望对网友有帮助!顺便
散分
! 6:VBA请教怎样得知 某个宏里...
散列表
简单介绍 哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。 也就是说我们通过哈希函数来构建了一个确定的映射,它能把关键字映射到一个唯一的存储位置。这种映射应该是我们可以进行计算的。已知关键字,我们应该能算出其地址...
基础和管理
17,377
社区成员
95,128
社区内容
发帖
与我相关
我的任务
基础和管理
Oracle 基础和管理
复制链接
扫一扫
分享
社区描述
Oracle 基础和管理
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章