python – 如何获得pandas数据帧中行的百分位数?

weixin_38054276 2019-09-12 01:27:54
Example DataFrame Values - 0 78 1 38 2 42 3 48 4 31 5 89 6 94 7 102 8 122 9 122 stats.percentileofscore(temp['INCOME'].values, 38, kind='mean') 15.0 stats.percentileofscore(temp['INCOME'].values, 38, kind='strict') 10.0 stats.percentileofscore(temp['INCOME'].values, 38, kind='weak') 20.0 stats.percentileofscore(temp['INCOME'].values, 38, kind='rank') 20.0 temp['INCOME'].rank(pct=True) 1 0.20 (Only showing the 38 value index) temp['INCOME'].quantile(0.11) 37.93 temp['INCOME'].quantile(0.12) 38.31999999999999 Based on the results above, you can see none of the methods are consistent with the pd.quantiles() method. 我需要为数据帧中的每一行(255M行)获取一列的百分位数,但找不到任何返回他们在pd.quantile&中使用的‘linear interpolation’方法的函数/方法. np.percentile. 我尝试了以下方法/功能 – .rank(pct=True) 此方法仅返回按顺序排列的值,而不是使用我正在寻找的百分位方法.与pd.quantiles不一致 scipy.stats.percentileofscore 这种方法几乎与我正在寻找的方法更接近,但由于某种原因仍与100%的“线性插值”方法不一致. Related question to this problem with no real answer 我查看了与此问题相关的每个SO答案,但没有一个使用我需要使用的相同插值方法,所以请不要将其标记为重复,除非您可以验证它们使用相同的方法. 在这一点上,我的最后一个选择是找到所有100百分位数的bin截止值并以这种方式应用它或者自己计算线性插值但这看起来非常低效并且将永远适用于255M记录. 还有其他建议吗? 谢谢!
...全文
431 1 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
weixin_38061328 2019-09-12
  • 打赏
  • 举报
回复
TL; DR 使用 sz = temp['INCOME'].size-1 temp['PCNT_LIN'] = temp['INCOME'].rank(method='max').apply(lambda x: 100.0*(x-1)/sz) INCOME PCNT_LIN 0 78 44.444444 1 38 11.111111 2 42 22.222222 3 48 33.333333 4 31 0.000000 5 89 55.555556 6 94 66.666667 7 102 77.777778 8 122 100.000000 9 122 100.000000 回答 一旦你了解了机制,它实际上非常简单.当您在寻找分数的百分位数时,您已经在每一行中获得了分数.剩下的唯一步骤是了解您需要的数字百分位数小于或等于所选值.这正是DataFrame.rank()的scipy.stats.percentileofscore()和method =’average’的参数kind =’weak’.为了反转它,使用interpolation =’lower’运行Series.quantile(). 因此,scipy.stats.percentileofscore(),Series.rank()和Series.quantile()的行为是一致的,如下所示: In[]: temp = pd.DataFrame([ 78, 38, 42, 48, 31, 89, 94, 102, 122, 122], columns=['INCOME']) temp['PCNT_RANK']=temp['INCOME'].rank(method='max', pct=True) temp['POF'] = temp['INCOME'].apply(lambda x: scipy.stats.percentileofscore(temp['INCOME'], x, kind='weak')) temp['QUANTILE_VALUE'] = temp['PCNT_RANK'].apply(lambda x: temp['INCOME'].quantile(x, 'lower')) temp['RANK']=temp['INCOME'].rank(method='max') sz = temp['RANK'].size - 1 temp['PCNT_LIN'] = temp['RANK'].apply(lambda x: (x-1)/sz) temp['CHK'] = temp['PCNT_LIN'].apply(lambda x: temp['INCOME'].quantile(x)) temp Out[]: INCOME PCNT_RANK POF QUANTILE_VALUE RANK PCNT_LIN CHK 0 78 0.5 50.0 78 5.0 0.444444 78.0 1 38 0.2 20.0 38 2.0 0.111111 38.0 2 42 0.3 30.0 42 3.0 0.222222 42.0 3 48 0.4 40.0 48 4.0 0.333333 48.0 4 31 0.1 10.0 31 1.0 0.000000 31.0 5 89 0.6 60.0 89 6.0 0.555556 89.0 6 94 0.7 70.0 94 7.0 0.666667 94.0 7 102 0.8 80.0 102 8.0 0.777778 102.0 8 122 1.0 100.0 122 10.0 1.000000 122.0 9 122 1.0 100.0 122 10.0 1.000000 122.0 现在,在PCNT_RANK列中,您获得的值的比率小于或等于INCOME列中的值.但是如果你想要“插值”比率,它就在PCNT_LIN列中.当你使用Series.rank()进行计算时,它非常快,并且会在几秒钟内处理你的255M数字. 在这里,我将解释如何使用带有线性插值的quantile()获得值: temp['INCOME'].quantile(0.11) 37.93 我们的数据temp [‘INCOME’]只有十个值.根据你的link to Wiki的公式,第11百分位的排名是 rank = 11*(10-1)/100 + 1 = 1.99 等级的截断部分是1,其对应于值31,并且具有等级2(即,下一个仓)的值是38.分数的值是等级的小数部分.这导致了结果: 31 + (38-31)*(0.99) = 37.93 对于值本身,分数部分必须为零,因此很容易进行逆计算以获得百分位数: p = (rank - 1)*100/(10 - 1) 我希望我说得更清楚.
内容概要:该文档为一段用于Google Earth Engine(GEE)平台的JavaScript代码脚本,旨在对研究区域(AOI)内的Landsat 8卫星影像进行土地利用/土地覆盖(LULC)分类。脚本首先筛选2024年云量低于10%的Landsat 8 Level-2地表反射率影像,构建中值合成影像并应用缩放因子校正。随后,基于预先定义的水体(Water)和植被(Vegetation)样本点,合并训练样本并提取影像对应波段数据,采用随机森林分类器(smileRandomForest)对影像进行监督分类。最后,通过划分训练集与测试集,输出混淆矩阵、总体分类精度和Kappa系数,完成分类结果的精度评估。; 适合人群:具备遥感图像处理基础知识的科研人员、地理信息系统(GIS)技术人员以及环境监测相关领域的研究生或专业人员;熟悉GEE平台基本操作者更佳; 使用场景及目标:①实现特定区域多光谱遥感影像的土地覆盖分类;②掌握GEE平台上从影像预处理、样本构建、模型训练到精度验证的完整分类流程;③支持水资源管理、生态环境监测等应用领域的空间数据分析; 阅读建议:此资源以实际代码形式呈现,建议结合GEE开发环境边运行边学习,重点关注影像预处理方法、训练样本构建逻辑、分类器参数设置及精度评估指标解读,便于迁移应用于其他区域或传感器数据。

474

社区成员

发帖
与我相关
我的任务
社区描述
其他技术讨论专区
其他 技术论坛(原bbs)
社区管理员
  • 其他技术讨论专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧