10.5jieba库与中文分词

码农老关【关东升】 2023-01-12 14:22:39

课时名称课时知识点
10.5jieba库与中文分词10.5jieba库与中文分词
...全文
53 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
一、数据采集与预处理模块 多维度数据采集 热门视频基础数据:爬取 B 站 “热门榜”“排行榜”(如全站榜、分区榜、新人榜)的视频信息,包括视频标题、AV/BV 号、UP 主名称及 ID、发布时间、分区(如动画、游戏、知识)、标签、时长、播放量、点赞数、投币数、收藏数、转发数、评论数、弹幕数等。 互动内容数据:采集热门视频的评论(含评论点赞数、回复数)、热门弹幕文本、标签详情(如标签关联的其他视频)等。 UP 主相关数据:爬取热门视频对应的 UP 主信息,包括粉丝数、投稿总数、认证类型(如官方账号、个人 UP 主)、历史热门作品等。 采集方式:使用 Python 爬虫(Requests + BeautifulSoup 或 Selenium)模拟访问,解析页面数据;或调用 B 站公开 API 接口获取结构化数据;通过多线程异步请求(aiohttp)提升采集效率,设置请求间隔避免触发反爬机制。 数据清洗与标准化 格式统一:对非结构化数据进行规范化处理,例如: 时间标准化:将 “3 小时前”“2023-10-01” 统一转换为 timestamp 格式; 数值标准化:将播放量 “10.5 万”“2345” 统一转换为整数 “105000”“2345”; 标签拆分:将视频的复合标签(如 “# 知识分享 #科普”)拆分为独立标签,去除重复或无效标签(如空标签、特殊符号标签)。 噪声处理:剔除重复视频(同一视频多次上榜)、异常数据(如播放量为 0 的热门视频)、无效评论(如纯表情、重复刷屏内容);补全缺失值(如用 “未知” 填充缺失的 UP 主认证信息)。 文本预处理:对标题、评论、弹幕等文本数据进行清洗(去除特殊符号、HTML 标签)、分词(使用 Jieba )、去停用词(过滤 “的”“了” 等无意义词汇),为后续文本分析做准备。 二、核心数据分析模块 热门视频基础特征分析 分布统

1

社区成员

发帖
与我相关
我的任务
社区描述
一个20年的老程序员、老师、作家。 熟悉Java、Kotlin、Python、iOS、Android、游戏开发。参与设计和开发北京市公交一卡通百亿级大型项目,金融系统微博等移动客户端项目。著有《iOS开发指南》等40多部图书。
社区管理员
  • 码农老关【关东升】
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧