Python数据分析：电商背后的数据密码

数分进阶 2023-01-13 02:04:17

课程名称	适应人群
Python数据分析：电商背后的数据密码	对数据分析感兴趣的人员，需要有一定的 Python 使用经验和 Pandas 基础

本课程使用 Python 编程语言，以电商数据为案例，对其进行系统完整的分析。

首先会简单回顾 Python 和 Pandas 的基本用法，然后介绍数据分析的基本流程和电商数据分析的常见框架，并从订单、商品、用户等多个维度对电商数据进行分析，最后再结合 RFM 模型和 K 均值聚类算法，对用户进行聚累分析。

...全文

1589 57 打赏收藏转发到动态举报

写回复

用AI写文章

57 条回复

切换为时间正序

请发表友善的回复…

发表回复

yungfly 2024-06-18

打赏
举报

怎么都是pandas的

wxyhaiy 2022-05-30

打赏
举报

李老师，有段代码我没看懂。###### 问题遇到的现象和发生背景这段代码是怎么做到计算回购率的。有关set 和 intersection的函数有些看不明白。、明明online_retail_end_customer没有被用到呀啊。。。怎么计算交值。 ###### 问题相关代码，请勿粘贴截图 start_customer_usernum = len(online_retail_start_customer) end_customer_usernum = len(set(online_retail_start_customer).intersection(set(online_retail_end_customer))) customer_retention_rate = end_customer_usernum / start_customer_usernum

dazhanhongtu123 2021-09-29

打赏
举报

请问python不能完全爬取网页源代码信息应该怎么解决？

鸩、 2021-05-03

打赏
举报

李老师，csv文件中有空行怎么用pandas读取?

数分进阶 2021-05-06

@鸩、 可以先用 read_csv 把文件中的数据读进来，之后再调用 dropna 函数删除有空值的行或列

qq_45683238 2021-04-29

打赏
举报

请问老师：在调用pandas_profiling时，加载到百分之七十的时候报了这样的错“matplotlib is required for plotting when the default backend "matplotlib" is selected.” 已经安装过matplotlib了

数分进阶 2021-04-29

@qq_45683238 更新一下 matplotlib 的版本试试，pip install -U matplotlib

YyEmperor 2021-04-09

打赏
举报

请问老师用的编程软件是什么

数分进阶 2021-04-12

@YyEmperor 用的是 Jupyter notebook，可以尝试安装一下

馅饼吃鸡 2021-03-21

打赏
举报

已经在使用pandas了，很多功能不需要使用for循环了吧，构建新列使用loc方法更高效吧。df_tantic.insert(6,'Age_type',df_tantic['Age']) df_tantic.loc[df_tantic['Age']<20,'Age_type'] = 'young' df_tantic.loc[(df_tantic['Age']>=20) & (df_tantic['Age']<=50),'Age_type'] = 'old'

数分进阶 2021-03-22

@馅饼吃鸡 是的，pandas 用的熟练的话，基本是不需要使用 for 循环的，但了解一下 for 循环的使用也无妨，以防某些场景下用到

Mars-Canada 2020-10-25

打赏
举报

课件已下载，但是没有课程中所提到的案例和数据

数分进阶 2020-10-26

@Mars-Canada 解压后的文件夹里，第一章导学是没有代码和数据的，第二章～第五章的代码和数据，实际上对应的是解压后第一章～第四章的，这个疏忽了，抱歉

Leona2079 2020-10-15

打赏
举报

李老师，请问是否有可用数据?想自行测试。谢谢

数分进阶 2020-10-15

@Leona2079 课程里用到的数据、代码和课件，用电脑端学习视频时，点击右侧边栏的课件，然后下载课件就有了

Leona2079 2020-10-15

@Leona2079 谢谢老师，我的里面只有第一章是可下的，这里无法贴图片，所以不能展示。我是今天买的课程。

数分进阶 2020-10-16

@Leona2079 嗯，第一章下载的压缩文件夹解压一下，里面应该有所有章节的数据、代码和课件

1条回复

Leona2079 2020-10-15

打赏
举报

李老师，我已给课程付费，却没有课件可以下载，不知道这个课是不是没有课件可以下载?

Leona2079 2020-10-15

打赏
举报

李老师，我已给课程付费，却没有课件可以下载，不知道这个课是不是没有课件可以下载?

数分进阶 2020-10-15

@Leona2079 课程里用到的数据、代码和课件，用电脑端学习视频时，点击右侧边栏的课件，然后下载课件就有了

lcywow 2020-10-08

打赏
举报

李老师，您好。有个疑问，希望您解答。在聚类分析中的创建 Kmeans 模型并训练这一部分，没看到代码中有将 labels 字段添加到 rfm_data_pd 中，rfm_data_pd.info()中也没有看到这个字段，但是为什么可以使用rfm_data_pd[labels == 0]进行筛选呢？ 🙏

数分进阶 2020-10-08

@lcywow 1) labels 字段并不是 rfm_data_pd 中的一个字段，只是一个变量而已； 2) labels 变量是在这一行定义的：labels = k_means_model.labels_，聚类模型训练完以后，通过调用 labels_ 就可以得到 rfm_data_pd 中每一行数据的聚类标签： 0/1/2；

数分进阶 2020-10-08

@lcywow 3）rfm_data_pd['Recency_Log'][ labels == 0 ] 的写法中，labels == 0 返回的是一个包含 True 和 False 的 ndarray： [ False True False ... False True False ]，最终执行时只会返回 ndarray 中索引为 True 的行，即聚类结果为 0 的所有行。

lcywow 2020-10-08

@lcywow 明白了。非常您的感谢解答。

weixin_49163580 2020-09-27

打赏
举报

李老师，为什么在调用pandas-profiling 库时，没有出现报告，只出现了HBox(children=(FloatProgress(value=0.0, description='Summarize dataset', max=26.0, style=ProgressStyle(descrip…，HBox(children=(FloatProgress(value=0.0, descrip

数分进阶 2020-09-28

@weixin_49163580 代码的截图可以上传一下吗？看一下是不是参数设置的有问题

lcywow 2020-09-26

打赏
举报

李老师，为什么np里用describe() 和 std() 对 UnitePrice 字段计算标准差，两个数字有差异？69.764035 有异于 69.76394820730756

数分进阶 2020-09-28

@lcywow 这个问题提的非常好，说明平时对数据很敏感。标准差在统计学上有两种：总体标准差和样本标准差，两者的区别在于除以的分母不同，总体标准差除以 n，样本标准差除以 n - 1，具体公式可以百度。 pandas 的 describe() 方法，默认计算样本标准差， numpy 的 std() 方法，默认计算总体标准差，std() 方法中的 ddof 参数设置为 ddof = 1 则可以计算样本标准差。

sprit001 2020-08-04

打赏
举报

不错挺实用

大鱼海棠669 2020-07-30

打赏
举报

希望能把课程里用到的数据包分享给学员来练手

数分进阶 2020-08-01

@大鱼海棠669 课程里用到的数据、代码和课件，用电脑端学习视频时，点击右侧边栏的课件，然后下载课件就有了

yanjingr119 2020-06-04

打赏
举报

NameError Traceback (most recent call last) in 6 7 # labels = k_means_model.labels_ ----> 8 print(pd.Series(labels).value_counts()) 9 10 # fig1 = plt.figure(1, figsize=(12, 8)) NameError: name 'labels' is not defined

yanjingr119 2020-06-04

打赏
举报

第五章第2节 # 创建 Kmeans 模型并训练 k_means_model = KMeans(n_clusters = 3, random_state = 0) k_means_model.fit(feature_data_scaled) print(k_means_model) # labels = k_means_model.labels_ print(pd.Series(labels).value_counts()) 报错： NameError Traceback (most recent call last) in 6 7 # labels = k_means_model.labels_ ----> 8 print(pd.Series(labels).value_counts()) 9 10 # fig1 = plt.figure(1, figsize=(12, 8)) NameError: name 'lab

yanjingr119 2020-06-04