逐步指南:
时间线
2021/02/28
添加了TMC清理过程,更新了所有其他清理过程。
更新了dict json。
添加了Combine_all_names.py
已知问题:使用字符串距离方法减小公司名称的大小。
2021/02/07
添加了CIQ清理过程,更新了compustat和tma清理过程。
添加了匹配过程,使用最大权重函数定义匹配项。
已知问题:进一步清除步骤:合并名称文件,减少重复的文件。
2021/02/03
添加了CRSP清理过程。
将json替换为pickle以便在整体代码中保存数据。
添加了CRSP bing搜索过程,它使用并行计算将多个请求发送到Microsoft Azure,从而大大节省了时间。 (注意:这也意味着这笔钱将很快用完。)
添加了初步的匹配代码,它使用并行计算来节省时间。
已知问题:CIQ干净名称流程和匹配流程仍在进行中。
相关下载链接:
//download.csdn.net/download/weixin_42099176/15562898?utm_source=bbsseo