c# 采集数据问题【非常紧急】

wilson2017 2019-09-29 04:44:52
当前实际情景如下:

数据库有张固定的表结构,如:

name
age
school
mail
tel


通过 c# 写了个采集器,采集到的数据都是围绕这个张表的数据结构来的,但又个问题是由于每个站点的数据结构不一样,
比如从 a 站点采集的数据结构 name 字段是在索引位置1 ,但从 b 站点采集到的 name 是在索引 2 的位置

这样导致在录入数据的时候就会发生 name 的字段值可能录入到 age 的字段了


说下我的解决方案
分析比对这些网站的数据结构,然后通过正则一个一个去匹配每种数据结构的特点。虽然这个方法有效,但有个坑是,数据结构的类型起码有几百种。。。

所以请教下大神们有什么好的办法来处理这种问题不?
...全文
185 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
牧歌ing 2019-10-09
  • 打赏
  • 举报
回复
你把这个做好了那你就厉害了,加油
wanghui0380 2019-09-30
  • 打赏
  • 举报
回复
统一的话其实也是可以,不过效果无法保证。比如人工智能,你可以把采集的文本提交给百度的智能分析,不过这个智能分析的领域模型就看百度能给你做到啥程度了。(NLP大体上能做这类东西,不过效果上只能算马马虎虎能用,如果不太纠结准确率,可以用用)
游北亮 2019-09-30
  • 打赏
  • 举报
回复
嗯,要么你定一个数据模型接口协议,让别人按你的数据模型提供统一的数据格式; 做不到只能去一一适配, 你可以做一个专门的适配服务,把零乱的数据整理成你的数据模型(比如你说的正则),再发送给你的统一服务接口, 这样只需要每天维护这个适配服务,入库服务再也不用维护了。
datafansbj 2019-09-30
  • 打赏
  • 举报
回复
应该是:采集 -> 解析 -> 规整 -> 入库 -> 数据分析 这样的流程,不要一口通吃。
AndroidStudy2018 2019-09-30
  • 打赏
  • 举报
回复
学习了,都是高人啊
wanghui0380 2019-09-29
  • 打赏
  • 举报
回复
所以现在的操作是。 采集不管分析--------采集的数据直接入中间层(kafka,spark,hbase,hive,datalake)------ETL/OLAP/MapReduce 外部大规模并发分析规约-------------最后把清洗规约后的数据统一进库 因为避免不了,所以策略上是。独立采集只管采集,分析规约只管分析规约。同时你看到了采集在外面,分析在外面。就意味这你可以随时加入新的采集,随时加入新的维度分析 不要想着能统一,如果能统一,就不会有上面的那些项目存在的意义了
¿?¿? 2019-09-29
  • 打赏
  • 举报
回复
2楼说的没错,用datatable存数据,数据够量了直接一个sqlbulkcopy到数据库就好了
wanghui0380 2019-09-29
  • 打赏
  • 举报
回复
引用一下百度百科,你就知道你的东西省不了的
引用
这样我们就可以把MapReduce理解为,把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。这就回到了最初,终于知道MapReduce为何要这样设计
wanghui0380 2019-09-29
  • 打赏
  • 举报
回复
如果这东西,是你想的那样很容易 1 那就没有什么《xxxx国标》《xxxx标准》《国际标准化》组织存在的必要了 2也没必要存在那个超级大项目 hadoop +MapReduce了, 3跟可以直接少一个OLAP ETL这个行业了,更可以直接把hbase,hive这几个顶级项目给怼死了 4BAT们直接少个“数据湖”的大卖点 ps:其实你整个东西就是人家的MapReduce 1的存在就是因为各玩各的麻烦,所以才制度标准。 2的存在就是即使有标准,也一样各玩各的,所以没有办法,只能在外面MapReduce重整(当然因为数据大,数据多所以hadoop) 3.OLAP ETL 多维度重整,至于hbase,hive则是尽量支持多种数据源(txt,xml,json) 4.这个么则说全数据源,全路径支持,完全忽略来源,请安心的MapReduce,ETL
  • 打赏
  • 举报
回复
不对啊,你既然是这些列你都知道,明现可以查询成list集合,查询的时候sql重新排序就是了啊,
录入的时候 就 insert into a('列名')values('值') 就可以了啊, 只要你不用那种insert into a values('值') 这种省略列名的写法没问题啊
  • 打赏
  • 举报
回复
所有数据都是很这些格式 是吧?
那你全部查询出来转一个DataTable类型,构造一个DataTable,重新整理一次就行了啊。。。。。
操作一个DataTable问题不大吧
孤家1寡人 2019-09-29
  • 打赏
  • 举报
回复
如果无法区分每个字段的话,只能通过每个站点去匹配对应的数据结构。
人才招聘网站管理系统采用asp.NET(C#)三层结构开发;采用sql server数据库,数据容量巨大,快速,稳定是建立大型人才网站的好程序,采用全新的生成静态页技术;数据处理方面采用全存储过程实现,可快速实现大批量数据处理。 网软志成人才招聘系统2021升级功能: 1、职位和简历搜索可保留搜索条件和关键字,从而有更高的用户体验; 2、企业和个人管理中心内编辑内容选择改动平铺弹窗界面; 3、APP客户端内可以创建和编辑简历; 4、手机触屏版内新增创建和编辑简历; 5、新增互动问答,个人和企业可以及时交流; 6、企业会员新增积分功能,可以兑换礼品; 7、企业会员新增公司环境、公司动态、给公司留言等功能; 8、企业会员可以上传自己图片来自定义企业个性化模版; 9、分站可以选择关联的地区和行业,使其自动填充数据; 10、找工作新增按道理搜索、按写字楼搜索和商圈搜索; 11、新增HR工具箱,可供企业人事经理下载需要的工具; 12、企业和个人管理中心和前台找工作、找简历等功能分离,提高用户体验度; 13、个人注册提供邮箱、手机和用户名等三种注册途径; 14、采集功能新增对智联的企业和职位采集; 15、新增微信接口,申请微信公共服务号可实现搜索职位; 16、支持三级地区,可让您的招聘市场发展到区县等三四级城市。 网软志成人才招聘管理系统支持APP手机客户端、Wap手机版、短信等系统概要: 1、 新增安卓Android手机APP客户端程序,支持目前市面上流行的Android 2.1及以上版本;客户端程序主要面向个人求职者使用,目前具备以下功能; a.个人会员注册、登录和修改密码; b.提供关键字和更多条件搜索职位,并能查询紧急招聘、热门和最新职位列表; c.可以根据会员求职简历内期望职位实时向会员推荐职位; d.支持申请职位(投递简历)和收藏职位,并能查阅职位申请记录、收藏记录和企业面试通知; e.可以查看到哪家企业查看了我的简历; f.可以设置用来申请职位的默认简历,并能刷新简历使简历靠前显示; g.可以查阅网站同步的职位指导类最新文章; h.使用过程遇到的问题,可以提交给网站,并能查阅联系方式; I.支持二维码扫描下载并安装到手机。 2、 企业会员可以将简历导出为WORD格式保存到自己电脑,如下图。 3、 企业发布职位,新增设职位福利标签,可同时选择多个标签,如五险、双休等,如下图。 4、 企业职位管理内新增发布中职位、屏蔽中职位、已过期职位和职位统计功能,满足企业更高效的招聘功能,如下图。 5、 个人会员微简历新设删除和公开设置功能; 6、 手机短信提醒新增高级会员到期提醒、试用会员到期提醒、未开通高级的企业提醒、未发布职位的企业提醒、未发布简历的个人会员提醒。 7、 新增在后台维护新浪微博关注、腾讯微博关注地址。 8、 后台可查询到由手机客户端注册的个人会员。 网软志成人才招聘系统人才网站模板具备的功能: 1、全新支持地图找工作、地图搜索功能,求职者可以搜索城市商圈和地标位置来查询附近招聘的企业和职位; 2、新增企业粉丝团(关注)功能,求职者关注某企业后,该企业发布的职位和动态第一时间反馈到该求职者管理中心; 3、后台可维护企业收到的简历、企业邀请面试和个人职位申请记录等数据; 4、系统新增设微简历功能,可快速创建简历投递职位,并同时支持完整简历和毕业生简历; 5、系统职位和简历搜索结果页支持按页码分页效果; 6、企业组内新增审核功能,可自由组织各级别的企业组是否显示; 7、系统支持短信息功能,会员注册可收到短信,企业可发送面试给求职者等; 8、系统支持快速招聘、快速求职,可提供快速招聘求职和一句话招聘服务; 9、后台新增邮件提醒功能,可提醒企业续费、登录、发布职位等; 10、后台新增广告可选择广告尺寸规格,提高广告维护效率; 11、后台新增频道设置功能,可一键启动/屏蔽各频道; 12、后台新增即将到期企业,列出30天内到期的企业,方便提醒企业续费; 13、系统采用Fckeditor编辑器,兼容其他浏览器; 14、新增招聘会功能,可方便的组织现场招聘会业务; 15、支持QQ登录整合,QQ号码可一键登录到网站; 16、新增业务员后台,可将企业会员分配给各业务员; 17、新增一句话招聘(普工专区)功能,为快速招聘提供方便; 18、后台可记录管理员和业务员对企业的操作日志; 19、后台新增企业招聘效果和个人求职效果统计; 20、同时集成网银、支付宝等在线支付接口; 21、后台可以新增和编辑新闻资讯类别; 22、采用伪静态技术实现关键字(a-z)搜索,职能、行业和地区搜索提高收录效率; 2
人才招聘网站管理系统采用ASP.NET(C#)三层结构开发;采用sql server数据库,数据容量巨大,快速,稳定是建立大型人才网站的好程序,采用全新的生成静态页技术;数据处理方面采用全存储过程实现,可快速实现大批量数据处理。 网软志成人才招聘管理系统支持APP手机客户端、Wap手机版、短信等系统概要: 1、 新增安卓Android手机APP客户端程序,支持目前市面上流行的Android 2.1及以上版本;客户端程序主要面向个人求职者使用,目前具备以下功能; a.个人会员注册、登录和修改密码; b.提供关键字和更多条件搜索职位,并能查询紧急招聘、热门和最新职位列表; c.可以根据会员求职简历内期望职位实时向会员推荐职位; d.支持申请职位(投递简历)和收藏职位,并能查阅职位申请记录、收藏记录和企业面试通知; e.可以查看到哪家企业查看了我的简历; f.可以设置用来申请职位的默认简历,并能刷新简历使简历靠前显示; g.可以查阅网站同步的职位指导类最新文章; h.使用过程遇到的问题,可以提交给网站,并能查阅联系方式; I.支持二维码扫描下载并安装到手机 2、 企业会员可以将简历导出为WORD格式保存到自己电脑,如下图。 3、 企业发布职位,新增设职位福利标签,可同时选择多个标签,如五险、双休等,如下图。 4、 企业职位管理内新增发布中职位、屏蔽中职位、已过期职位和职位统计功能,满足企业更高效的招聘功能,如下图。 5、 个人会员微简历新设删除和公开设置功能; 6、 手机短信提醒新增高级会员到期提醒、试用会员到期提醒、未开通高级的企业提醒、未发布职位的企业提醒、未发布简历的个人会员提醒。 7、 新增在后台维护新浪微博关注、腾讯微博关注地址。 8、 后台可查询到由手机客户端注册的个人会员。 网软志成人才招聘系统人才网站模板具备的功能: 1、全新支持地图找工作、地图搜索功能,求职者可以搜索城市商圈和地标位置来查询附近招聘的企业和职位; 2、新增企业粉丝团(关注)功能,求职者关注某企业后,该企业发布的职位和动态第一时间反馈到该求职者管理中心; 3、后台可维护企业收到的简历、企业邀请面试和个人职位申请记录等数据; 4、系统新增设微简历功能,可快速创建简历投递职位,并同时支持完整简历和毕业生简历; 5、系统职位和简历搜索结果页支持按页码分页效果; 6、企业组内新增审核功能,可自由组织各级别的企业组是否显示; 7、系统支持短信息功能,会员注册可收到短信,企业可发送面试给求职者等; 8、系统支持快速招聘、快速求职,可提供快速招聘求职和一句话招聘服务; 9、后台新增邮件提醒功能,可提醒企业续费、登录、发布职位等; 10、后台新增广告可选择广告尺寸规格,提高广告维护效率 11、后台新增频道设置功能,可一键启动/屏蔽各频道; 12、后台新增即将到期企业,列出30天内到期的企业,方便提醒企业续费; 13、系统采用Fckeditor编辑器,兼容其他浏览器; 14、新增招聘会功能,可方便的组织现场招聘会业务; 15、支持QQ登录整合,QQ号码可一键登录到网站; 16、新增业务员后台,可将企业会员分配给各业务员; 17、新增一句话招聘(普工专区)功能,为快速招聘提供方便; 18、后台可记录管理员和业务员对企业的操作日志; 19、后台新增企业招聘效果和个人求职效果统计; 20、同时集成网银、支付宝等在线支付接口; 21、后台可以新增和编辑新闻资讯类别; 22、采用伪静态技术实现关键字(a-z)搜索,职能、行业和地区搜索提高收录效率; 23、静态页面内JS调用取代IFrame,同时文件生成到二级目录提高收录效率; 24、分站后台支持多个管理员,同时可分别设置各管理员的权限; 25、全新的手机频道WAP版功能,通过wap.job5.fdkjgz.com即可体验! 26、同时集成支付宝和网银在线支付,并能自动升级到购买的服务! 27、系统采用DIV+CSS设计,首页控制在125K标准以内! 28、可采集企业、职位,可节省大量时间! 29、系统同时支持地区和行业等多分站点! 30、企业会员可以“激活/暂停”自己服务期,实现激活即招! 31、会员管理中心布局优化,更具可操作性! 32、软件采用全新的存储过程处理大数据,速度更快! 33、企业职位、简历生成静态页面,提高访问速度和搜索引擎收录。 34、企业会员可选择系统提供的多样式模板页。 35、企业和个人会员可在线进行视频面试。 36、个人会员可在线录制视频简历,支持企业视频展播。 37、支持在线支付,支付成功后系统自动升级会员帐号。 38、支持英文简历,会员可以创建多份简历。 39、求职简历可直接发送到企业的邮箱。 40、分站功能独立,支持二级域名访问分站。 41、数据采集 电子地图 企业多模板功能

110,500

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧