看见了就进来吧!

Zhang_qiankun 2014-02-10 04:44:39
需求:由于数据库部分乱码 所以必须根据备份把表改过来
由于数据量比较大,所以只能通过代码解决问题
乱码的部分 是一个url里的某个h标签的值
目前存在的问题就是: 已经有技术可以通过url爬取到整个源代码,现在就是怎么获取到那个h标签的值,然后通过sql 语句把整个表中列都update过来?


我目前的想法 在java中拼写sql 先获得所有的url 集合 然后遍历集合 通过方法 获取源代码
然后获取h标签的值 然后update 修改一下
因为爬取下来的代码是字符串 怎么获取h标签的值 求思路,

...全文
134 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
lb15337109899 2014-02-10
  • 打赏
  • 举报
回复
你爬取之后没有对你的返回文本数据进行处理啊,跟你的需求返回文本可以用正则来匹配,可以用截取,符合xml格式的也可以用document解析啊
大笨熊托尼 2014-02-10
  • 打赏
  • 举报
回复
应该是转化为document对象,刚说错了
大笨熊托尼 2014-02-10
  • 打赏
  • 举报
回复
一个开源的解析html的工具包,能解析html代码并转化为dom对象,自己试试,很简单,网上找一下
Zhang_qiankun 2014-02-10
  • 打赏
  • 举报
回复
引用 1 楼 chemeilun 的回复:
jsoup,查一下就知道了
那是什么呀 没用过
大笨熊托尼 2014-02-10
  • 打赏
  • 举报
回复
jsoup,查一下就知道了

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧