Python数据分析:电商背后的数据密码

数分进阶 2023-01-13 02:04:17

课程名称适应人群
Python数据分析:电商背后的数据密码对数据分析感兴趣的人员,需要有一定的 Python 使用经验和 Pandas 基础

本课程使用 Python 编程语言,以电商数据为案例,对其进行系统完整的分析。

首先会简单回顾 Python 和 Pandas 的基本用法,然后介绍数据分析的基本流程和电商数据分析的常见框架,并从订单、商品、用户等多个维度对电商数据进行分析,最后再结合 RFM 模型和 K 均值聚类算法,对用户进行聚累分析。

...全文
1578 57 打赏 收藏 转发到动态 举报
写回复
用AI写文章
57 条回复
切换为时间正序
请发表友善的回复…
发表回复
yungfly 2024-06-18
  • 打赏
  • 举报
回复

怎么都是pandas的

wxyhaiy 2022-05-30
  • 打赏
  • 举报
回复
李老师,有段代码我没看懂。###### 问题遇到的现象和发生背景 这段代码是怎么做到计算回购率的。有关set 和 intersection的函数有些看不明白。、 明明online_retail_end_customer没有被用到呀啊。。。怎么计算交值。 ###### 问题相关代码,请勿粘贴截图 start_customer_usernum = len(online_retail_start_customer) end_customer_usernum = len(set(online_retail_start_customer).intersection(set(online_retail_end_customer))) customer_retention_rate = end_customer_usernum / start_customer_usernum
dazhanhongtu123 2021-09-29
  • 打赏
  • 举报
回复
请问python不能完全爬取网页源代码信息应该怎么解决?
鸩、 2021-05-03
  • 打赏
  • 举报
回复
李老师,csv文件中有空行怎么用pandas读取?
数分进阶 2021-05-06
  • 举报
回复
@鸩、 <p>可以先用 read_csv 把文件中的数据读进来,之后再调用 dropna 函数删除有空值的行或列</p>
qq_45683238 2021-04-29
  • 打赏
  • 举报
回复
请问老师:在调用pandas_profiling时,加载到百分之七十的时候报了这样的错“matplotlib is required for plotting when the default backend "matplotlib" is selected.” 已经安装过matplotlib了
数分进阶 2021-04-29
  • 举报
回复
@qq_45683238 <p>更新一下 matplotlib 的版本试试,pip install  -U matplotlib</p>
YyEmperor 2021-04-09
  • 打赏
  • 举报
回复
请问老师用的编程软件是什么
数分进阶 2021-04-12
  • 举报
回复
@YyEmperor <p>用的是 Jupyter notebook,可以尝试安装一下</p>
馅饼吃鸡 2021-03-21
  • 打赏
  • 举报
回复
已经在使用pandas了,很多功能不需要使用for循环了吧,构建新列使用loc方法更高效吧。df_tantic.insert(6,'Age_type',df_tantic['Age']) df_tantic.loc[df_tantic['Age']<20,'Age_type'] = 'young' df_tantic.loc[(df_tantic['Age']>=20) & (df_tantic['Age']<=50),'Age_type'] = 'old'
数分进阶 2021-03-22
  • 举报
回复
@馅饼吃鸡 <p>是的,pandas 用的熟练的话,基本是不需要使用 for 循环的,但了解一下 for 循环的使用也无妨,以防某些场景下用到</p>
Mars-Canada 2020-10-25
  • 打赏
  • 举报
回复
课件已下载,但是没有课程中所提到的案例和数据
数分进阶 2020-10-26
  • 举报
回复
@Mars-Canada 解压后的文件夹里,第一章导学是没有代码和数据的,第二章~第五章的代码和数据,实际上对应的是解压后第一章~第四章的,这个疏忽了,抱歉
Leona2079 2020-10-15
  • 打赏
  • 举报
回复
李老师,请问是否有可用数据?想自行测试。谢谢
数分进阶 2020-10-15
  • 举报
回复
@Leona2079 课程里用到的数据、代码和课件,用电脑端学习视频时,点击右侧边栏的课件,然后下载课件就有了
Leona2079 2020-10-15
  • 举报
回复
@Leona2079 谢谢老师,我的里面只有第一章是可下的,这里无法贴图片,所以不能展示。我是今天买的课程。
数分进阶 2020-10-16
  • 举报
回复
@Leona2079 嗯,第一章下载的压缩文件夹解压一下,里面应该有所有章节的数据、代码和课件
1条回复
Leona2079 2020-10-15
  • 打赏
  • 举报
回复
李老师,我已给课程付费,却没有课件可以下载,不知道这个课是不是没有课件可以下载?
Leona2079 2020-10-15
  • 打赏
  • 举报
回复
李老师,我已给课程付费,却没有课件可以下载,不知道这个课是不是没有课件可以下载?
数分进阶 2020-10-15
  • 举报
回复
@Leona2079 课程里用到的数据、代码和课件,用电脑端学习视频时,点击右侧边栏的课件,然后下载课件就有了
lcywow 2020-10-08
  • 打赏
  • 举报
回复
李老师,您好。 有个疑问,希望您解答。 在聚类分析中的创建 Kmeans 模型并训练这一部分,没看到代码中有将 labels 字段添加到 rfm_data_pd 中,rfm_data_pd.info()中也没有看到这个字段,但是为什么可以使用rfm_data_pd[labels == 0]进行筛选呢? 🙏
数分进阶 2020-10-08
  • 举报
回复
@lcywow 1) labels 字段并不是 rfm_data_pd 中的一个字段,只是一个变量而已; 2) labels 变量是在这一行定义的:labels = k_means_model.labels_,聚类模型训练完以后,通过调用 labels_ 就可以得到 rfm_data_pd 中每一行数据的聚类标签: 0/1/2;
数分进阶 2020-10-08
  • 举报
回复
@lcywow 3)rfm_data_pd['Recency_Log'][ labels == 0 ] 的写法中,labels == 0 返回的是一个包含 True 和 False 的 ndarray: [ False True False ... False True False ],最终执行时只会返回 ndarray 中索引为 True 的行,即聚类结果为 0 的所有行。
lcywow 2020-10-08
  • 举报
回复
@lcywow 明白了。非常您的感谢解答。
weixin_49163580 2020-09-27
  • 打赏
  • 举报
回复
李老师,为什么在调用pandas-profiling 库时,没有出现报告,只出现了HBox(children=(FloatProgress(value=0.0, description='Summarize dataset', max=26.0, style=ProgressStyle(descrip…,HBox(children=(FloatProgress(value=0.0, descrip
数分进阶 2020-09-28
  • 举报
回复
@weixin_49163580 代码的截图可以上传一下吗?看一下是不是参数设置的有问题
lcywow 2020-09-26
  • 打赏
  • 举报
回复
李老师,为什么np里用describe() 和 std() 对 UnitePrice 字段计算标准差,两个数字有差异?69.764035 有异于 69.76394820730756
数分进阶 2020-09-28
  • 举报
回复
@lcywow 这个问题提的非常好,说明平时对数据很敏感。 标准差在统计学上有两种:总体标准差和样本标准差,两者的区别在于除以的分母不同,总体标准差除以 n,样本标准差除以 n - 1,具体公式可以百度。 pandas 的 describe() 方法,默认计算样本标准差, numpy 的 std() 方法,默认计算总体标准差,std() 方法中的 ddof 参数设置为 ddof = 1 则可以计算样本标准差。
sprit001 2020-08-04
  • 打赏
  • 举报
回复
不错挺实用
大鱼海棠669 2020-07-30
  • 打赏
  • 举报
回复
希望能把课程里用到的数据包分享给学员来练手
数分进阶 2020-08-01
  • 举报
回复
@大鱼海棠669 课程里用到的数据、代码和课件,用电脑端学习视频时,点击右侧边栏的课件,然后下载课件就有了
yanjingr119 2020-06-04
  • 打赏
  • 举报
回复
NameError Traceback (most recent call last) in 6 7 # labels = k_means_model.labels_ ----> 8 print(pd.Series(labels).value_counts()) 9 10 # fig1 = plt.figure(1, figsize=(12, 8)) NameError: name 'labels' is not defined
yanjingr119 2020-06-04
  • 打赏
  • 举报
回复
第五章 第2节 # 创建 Kmeans 模型并训练 k_means_model = KMeans(n_clusters = 3, random_state = 0) k_means_model.fit(feature_data_scaled) print(k_means_model) # labels = k_means_model.labels_ print(pd.Series(labels).value_counts()) 报错: NameError Traceback (most recent call last) in 6 7 # labels = k_means_model.labels_ ----> 8 print(pd.Series(labels).value_counts()) 9 10 # fig1 = plt.figure(1, figsize=(12, 8)) NameError: name 'lab
yanjingr119 2020-06-04
  • 打赏
  • 举报
回复
第五章 第2节 # 创建 Kmeans 模型并训练 k_means_model = KMeans(n_clusters = 3, random_state = 0) k_means_model.fit(feature_data_scaled) print(k_means_model) # labels = k_means_model.labels_ print(pd.Series(labels).value_counts()) 报错: NameError Traceback (most recent call last) in 6 7 # labels = k_means_model.labels_ ----> 8 print(pd.Series(labels).value_counts()) 9 10 # fig1 = plt.figure(1, figsize=(12, 8)) NameError: name 'lab
cool_nine 2020-02-25
  • 打赏
  • 举报
回复
课件资料哪里可以获得?
加载更多回复(13)

1

社区成员

发帖
与我相关
我的任务
社区描述
不会写 R 和 Python 的利物浦球迷不是好的数据分析师
社区管理员
  • 数分进阶
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧