网易博客(http://blog.163.com/)提纯处理工具,可以对保存的同一用户名的大量网易博客网页进行分析、提纯、精简、简化处理,提取其中的纯博客文本数据资料页面保存,保留原有的段落格式和字体颜色大小样式、表格样式、链接等,并自动分析已提纯网页中的图片文件并保存到相对目录下。保存的大量网易博客网页应该按目录(二级目录)分类保存,或者不分类只有一个二级目录。用浏览器保存博客网页时保存为html或者htm格式,并且使用默认的文件名保存,例如:
两个益智小游戏:《芯片的挑战》和《装满行李箱》 - tab_98的日志 - 网易博客.html
两个益智小游戏:《芯片的挑战》和《装满行李箱》 - tab_98的日志 - 网易博客_files (目录名)
(图)
处理时可以一个分类一个分类(一个分类就是一个二级目录)分别【单类处理】,也可以一起【全部处理】。
原始的博客网页页面效果和提纯后的页面效果分别如下:
(图)(图)
提纯、精简以后去掉了大量重复的无用的框架、数据和累赘垃圾文件(处理时源目录内容不变),做到清清爽爽,极大地减少了硬盘占用空间,有利于网易博客网页的U盘多处备份保存和再利用。
(写于2019年1月)