写了一个网易博客提纯处理工具

ooolinux 2019-01-14 11:34:08
网易博客(http://blog.163.com/)提纯处理工具,可以对保存的同一用户名的大量网易博客网页进行分析、提纯、精简、简化处理,提取其中的纯博客文本数据资料页面保存,保留原有的段落格式和字体颜色大小样式、表格样式、链接等,并自动分析已提纯网页中的图片文件并保存到相对目录下。保存的大量网易博客网页应该按目录(二级目录)分类保存,或者不分类只有一个二级目录。用浏览器保存博客网页时保存为html或者htm格式,并且使用默认的文件名保存,例如:
两个益智小游戏:《芯片的挑战》和《装满行李箱》 - tab_98的日志 - 网易博客.html
两个益智小游戏:《芯片的挑战》和《装满行李箱》 - tab_98的日志 - 网易博客_files (目录名)

(图)
处理时可以一个分类一个分类(一个分类就是一个二级目录)分别【单类处理】,也可以一起【全部处理】。
原始的博客网页页面效果和提纯后的页面效果分别如下:


(图)(图)
提纯、精简以后去掉了大量重复的无用的框架、数据和累赘垃圾文件(处理时源目录内容不变),做到清清爽爽,极大地减少了硬盘占用空间,有利于网易博客网页的U盘多处备份保存和再利用。
(写于2019年1月)
...全文
92 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
ooolinux 2019-01-15
  • 打赏
  • 举报
回复
附带的小工具——网页索引生成器,可以对已经提纯的所有博客网页生成索引页面,每个分类(二级目录)一个索引页面,然后有两个总的索引页面,一个是包含所有博客网页的链接,一个是包含所有二级索引页面的链接,如图所示:



(图)(图)(图)

CT8100 2019-01-14
  • 打赏
  • 举报
回复
666666
  • 打赏
  • 举报
回复

15,440

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 非技术区
社区管理员
  • 非技术区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧