java 多个经纬度 求中心点

sjsnwks 2017-03-06 05:20:33
java 多个经纬度 求中心点
...全文
437 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
sjsnwks 2017-03-06
  • 打赏
  • 举报
回复
http://blog.csdn.net/yl2isoft/article/details/16368397 自己找到了个很好的。
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为参考学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 CCF大数据与计算智能大赛蚂蚁金服商铺定位赛题源码+学习说明(全国第5名).zip ### 赛题链接 [商场中精确定位用户所在店铺](https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100068.5678.1.aa26a5emijaWb&raceId=231620) ### 文件说明 * getFeatures.sql
为二分类部分预处理与得到特征中间文件处理,之后再在PAI平台上搭建组件让每个特征文件和构建的样本join起来,多分类部分由队友负责 * wifiFingerprint.ipynb
为初赛的python版构建指纹库及计算指纹得分,复赛java实现在udtf中 * udtf为getFeatures
用到的几个udtf方法 * xgb_train.sql
为PAI平台的xgboost命令(平台没有xgboost的拖拽组件,只能用PAI命令) * submission.sql
为提交结果部分,包括最佳成绩的加权平均 ### 训练说明: * 7.1-8.17做8.18-8.31统计区间,7.15-8.31做9.1-9.14测试集的统计区间 * 复赛有约38%的数据没有wifi信息,采取的策略是测试集有wifi的部分用训练集全集训练后预测,测试集无wifi的部分只由训练集无wifi的部分训练后预测 * 由于资源限制,复赛我们主要使用可以限制核心数的PS-SMART模型,最终融合主要由
1)加入了PS-SMART多分类概率特征的bagging结果;
2)加入了RF多分类概率特征的bagging结果;
3)加入了两种多分类概率特征的bagging结果
进行加权平均得到。 ### 候选说明: * 初赛利用指纹得分及各种规则筛选出候选样本,正负样本比1:13,覆盖率0.973,最后补全训练集正样本 * 复赛构造候选集直接用记录wifi交互过的所有shop;用户到过的所有shop;和离交易中心最近的10个shop取并集 倍数约23倍,覆盖率0.965,我们队伍候选集及覆盖率上相比别的队伍差了不少,覆盖率是个很大的提分点 ### 特征说明: * 计算rate时分母有两种,该bssid总数(rate_inbssid)和该shop总数(rate_inshop),由于bssid存在稀疏现象,需要对rate_inbssid进行平滑,为了方便,直接将bssid在商场出现次数小于6的rate_inbssid置零 * 筛选数据为只保留所有记录的前3强wifi; * 缺失bssid的rssi用-113代替 * 每条记录取10条wifi按强度topk排序展开构造特征,不足10的填缺失值 * 所有统计特征构造完后又构造了top3尺度累加和top10尺度累加特征 * 所有特征严格用对应统计区间构造 * 特征维数太高,训练时丢弃了大部分count特征,保留了rate特征 ### 特征: * 多分类概率特征(多分类概率一定要跟stacking一样划分窗口防止穿越,仅利用一个多分类概率特征在复赛提升了1.7个百分点,我们最终使用了PS-SMART和随机森林两种多分类概率特征,做特征和选候选不能用同一组多分类,虽然多分类线上成绩并不高,但其概率做特征在二分类中特征重要性非常高,多分类候选都是取概率最高的N个shop,会加入很多高概率的负样本导致预测错误) * 指纹算法得分及组内占比(由于不同shop或mall的wifi数量差别大,某些特征转化为以row_id为组的组内占比有不小的提升效果,比rank好) * 与店铺交易位置/店铺实际位置 中值的经纬度距离(由于有的店铺出现次数很少,也需要按统计区间来构造) * topkwifi在店铺的rssi中值,最强值及之差,在筛选记录中构造同样特征 * topkwifi在shop里出现了多少次,shop总bssid数,bssid在mall的总出现数,及rate_inshop,rate_inbssid * topkwifi在筛选数据中(筛选条件是只保留记录top3wifi),bssid在shop里出现了多少次,及rate_inshop,rate_inbssid * topkwifi在shop里rssi_rank出现的count,及rate_inshop,rate_inbssid(比如记录最强bssid在shop历史记录里也是最强的

50,503

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧