社区
关东升的课程社区_NO_2
2019年全国计算机等级考试二级——Python二级考前辅导
帖子详情
10.5jieba库与中文分词
码农老关【关东升】
2023-01-12 14:22:39
课时名称
课时知识点
10.5jieba库与中文分词
10.5jieba库与中文分词
...全文
53
回复
打赏
收藏
10.5jieba库与中文分词
课时名称课时知识点10.5jieba库与中文分词10.5jieba库与中文分词
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
基于Python对b站热门视频的数据分析与研究(毕业论文+PPT)
一、数据采集与预处理模块 多维度数据采集 热门视频基础数据:爬取 B 站 “热门榜”“排行榜”(如全站榜、分区榜、新人榜)的视频信息,包括视频标题、AV/BV 号、UP 主名称及 ID、发布时间、分区(如动画、游戏、知识)、标签、时长、播放量、点赞数、投币数、收藏数、转发数、评论数、弹幕数等。 互动内容数据:采集热门视频的评论(含评论点赞数、回复数)、热门弹幕文本、标签详情(如标签关联的其他视频)等。 UP 主相关数据:爬取热门视频对应的 UP 主信息,包括粉丝数、投稿总数、认证类型(如官方账号、个人 UP 主)、历史热门作品等。 采集方式:使用 Python 爬虫
库
(Requests + BeautifulSoup 或 Selenium)模拟访问,解析页面数据;或调用 B 站公开 API 接口获取结构化数据;通过多线程异步请求(aiohttp)提升采集效率,设置请求间隔避免触发反爬机制。 数据清洗与标准化 格式统一:对非结构化数据进行规范化处理,例如: 时间标准化:将 “3 小时前”“2023-10-01” 统一转换为 timestamp 格式; 数值标准化:将播放量 “
10.5
万”“2345” 统一转换为整数 “105000”“2345”; 标签拆分:将视频的复合标签(如 “# 知识分享 #科普”)拆分为独立标签,去除重复或无效标签(如空标签、特殊符号标签)。 噪声处理:剔除重复视频(同一视频多次上榜)、异常数据(如播放量为 0 的热门视频)、无效评论(如纯表情、重复刷屏内容);补全缺失值(如用 “未知” 填充缺失的 UP 主认证信息)。 文本预处理:对标题、评论、弹幕等文本数据进行清洗(去除特殊符号、HTML 标签)、分词(使用
Jieba
库
)、去停用词(过滤 “的”“了” 等无意义词汇),为后续文本分析做准备。 二、核心数据分析模块 热门视频基础特征分析 分布统
Python期末试题题
库
.docx
Python期末试题题
库
新手也可以参考这些问题以获得进阶的 Python 知识
第十章 Python第三方
库
概览
自定义安装指按照第三方
库
提供的步骤和方式按照。第三方
库
都有主页用于维护
库
的代码和文档。以科学计算用的numpy为例,开发者维护的官方主页是:https://numpy.org/PyInstaller是一个十分有用的Python第三方
库
,它能够在Windows、Linux、Mac OS X等操作系统下将Python源文件打包,变成可直接运行的可执行文件。通过对源文件打包,Python程序可以在没有安装Python的环境中运行,也可以作为一个独立文件方便传递和管理。
jieba
分词原理深度解析
最后,讲解
jieba
的实际处理流程,不同分词模式(精确、全模式、搜索引擎模式)的区别,自定义词典的作用机制,以及并行分词的实现方式。引用一些具体的例子,比如分词过程的步骤演示,帮助大家理解。delta [3][M] = max (delta [2][M] × P (M|M), delta [2][E] × P (M|E)) × P ("学"|M)在
jieba
分词中,主要使用解码问题的解决方案(Viterbi算法),根据观测到的字符序列,预测其对应的状态序列(B/M/E/S),从而实现未登录词的识别。
jieba
源碼研讀筆記(七) - 分詞之精確模式(使用HMM維特比算法發現新詞)
jieba
分詞的精確模式分為1. 不使用HMM(使用動態規劃算法) 或 2. 使用HMM(使用維特比算法發現新詞)兩種模式。本篇介紹的是使用了HMM維特比算法的精確模式,對應的
jieba
/__init__.py裡的__cut_DAG這個函數。在__cut_DAG中,仍然是以查字典為主,但是:对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法__cut_DAG函數是由cut(sentence, cut_all=False, HMM=True)這個函數調用。而它又會呼叫
jieba
关东升的课程社区_NO_2
1
社区成员
565
社区内容
发帖
与我相关
我的任务
关东升的课程社区_NO_2
一个20年的老程序员、老师、作家。 熟悉Java、Kotlin、Python、iOS、Android、游戏开发。参与设计和开发北京市公交一卡通百亿级大型项目,金融系统微博等移动客户端项目。著有《iOS开发指南》等40多部图书。
复制链接
扫一扫
分享
社区描述
一个20年的老程序员、老师、作家。 熟悉Java、Kotlin、Python、iOS、Android、游戏开发。参与设计和开发北京市公交一卡通百亿级大型项目,金融系统微博等移动客户端项目。著有《iOS开发指南》等40多部图书。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章