社区
西工大网安实践教学社区
帖子详情
Py实训20-数据爬取
2019300908-邱晓宇
2022夏-程序设计实训
2022-08-03 17:58:17
...全文
425
回复
打赏
收藏
Py实训20-数据爬取
[图片]
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
综合
实训
--中国大学排名
数据
爬取
与分析(详细).docx
综合
实训
--中国大学排名
数据
爬取
与分析(详细).docx
基于
Py
thon
爬取
豆瓣电影top250部 使用flask框架可视化
数据
【作品名称】:基于
Py
thon
爬取
豆瓣电影top250部 使用flask框架可视化
数据
【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程
实训
或初期项目立项。 【项目介绍】: ##项目技术栈:Flask框架、Echarts、WordCloud、SQLite ##环境:
Py
thon3 目录结构说明 │ app.
py
----- flask框架 文件 │ movie.db -----
数据
库 │ README.md │ requirements.txt ----- 依赖包环境版本 │ spider.
py
-----
爬取
数据
文件 │ testCloud.
py
----- 词云生成 文件 ├─static ----- 静态页面 ├─templates ----- HTML页面 └─venv ----- 虚拟环境
大
数据
项目开发
实训
.pdf
⼤
数据
项⽬开发
实训
实训
要求 利⽤
py
thon编写爬⾍程序,从招聘⽹站上
爬取
数据
,将
数据
存⼊到MongoDB
数据
库中,将存⼊的
数据
作⼀定的
数据
清洗后做
数据
分析, 利⽤flume采集⽇志进HDFS中,利⽤hive进⾏分析,将hive分析结果利⽤sqoop技术存储到mysql
数据
库中,并显⽰分析结果,最后将分 析的结果做
数据
可视化。 搭建爬⾍ 本次选取的⽹站是前程⽆忧⽹,利⽤框架是scra
py
,上代码! Wuyou.
py
1、
爬取
字段:职位名称、薪资⽔平、招聘单位、⼯作地点、⼯作经验、学历要求、⼯作内容(岗位职责)、任职要求(技能要求)。 # -*- coding: utf-8 -*- import scra
py
from wuyou.items import WuyouItem import re import urllib.parse class WuyouSpider(scra
py
.Spider): name = 'Wuyou' allowed_domains = ['51job.com'] # 全国 000000 # web start_urls = [ 'https://search.51job.com/list/000000,000000,0000,00,9,99,web,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99 &jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&special area=00&from=&welfare='] #
py
thon # start_urls = [ # 'https://search.51job.com/list/000000,000000,0000,00,9,99,
py
thon,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom =99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&spe cialarea=00&from=&welfare='] #
数据
采集 # start_urls = [ # 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E9%2587%2587%25E9%259B%2586,2, 1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&ra dius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='] dius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='] #
数据
分析 # start_urls = [ # 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2, 1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='] # ⼤
数据
开发⼯程师 # start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%
基于
Py
thon实现豆瓣电影TOP250抓取,然后对
爬取
的
数据
进行分析
【作品名称】:基于
Py
thon实现豆瓣电影TOP250抓取,然后对
爬取
的
数据
进行分析 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程
实训
或初期项目立项。 【项目介绍】:
Py
thon实现豆瓣电影TOP250抓取,然后对
爬取
的
数据
进行分析。 豆瓣电影TOP250抓取 本部分包括: 豆瓣电影TOP250抓取思路分析---top250-spider.md 豆瓣电影TOP250抓取思路分析---top250-spider.i
py
nb 豆瓣电影TOP250抓取全部代码---top250-spider.
py
抓取结果---top250_movie.csv Excel打开不乱码的抓取结果---top250_movie_ANSI.csv 豆瓣电影TOP250
数据
分析 本部分详细分析见:豆瓣电影TOP250
数据
分析---top250-analyse.i
py
nb
毕业设计基于Fasttext的中文医疗问答系统
py
thon源码+运行说明+中文医疗对话
数据
集.zip
【资源介绍】 毕业设计基于Fasttext的中文医疗问答系统
py
thon源码+运行说明+中文医疗对话
数据
集.zip 本项目为本人的本科毕业设计,基于知识图谱的中文医疗问答系统,通过爬虫工具从公开的医疗网站获取医疗知识并利用Neo4j图
数据
库构建知识图谱。问句意图利用Fasttext文本分类算法识别,并简单编写了一个槽位记忆功能辅助记住上下文信息,最后利用Django框架搭建了一个简单的前端对话界面。 ## 使用步骤 ### 1. csdn下载本项目并安装必备环境依赖 ### 必备 - JDK 15以上 - Neo4j 4.2.1 -
Py
thon3.6以上 - Django 2.1.7 - jieba 0.42.1 - fasttext 0.9.2 -
py
2neo
20
20
.1.1 ### 爬虫相关 - requests 2.25.1 - lxml 4.3.0 - retrying 1.3.3 - vthread 0.1.1 - cchardet 2.1.7 ### 其他 -
py
TelegramBotAPI 3.7.4 (用于连接TelegramBot) ### 2. 安装Neo4j
数据
库 主要代码存放在MASystem文件夹中 - Crawler 爬虫代码以及
爬取
到的医疗信息 - dict 实体字典列表 - entities
爬取
的所有
数据
,整理成json格式 - build_dict.
py
从
爬取
后的
数据
中提取实体字典 - buIld_graph.
py
依靠
爬取
的
数据
连接neo4j构建知识图谱 - request_disease.
py
爬取
疾病分类
数据
- request_others.
py
爬取
其他分类
数据
- classifier 意图分类器相关代码 - dict 部分意图语料和实体字典 - intent 意图语料 - models 存储训练好的模型 - fasttext_data.txt Fasttext库能够识别的语料 - intent.txt 所有意图的举例解释文件 - stopwords.txt 停用词语料 - train_intents_fasttext.
py
训练Fasttext分类器的代码 - vocabs.txt 训练Fasttext过程中留下的字典,不重要 - word2vec-test.
py
采用word2vec的尝试,不重要 - contextual 处理上下文信息的代码 - IntentDetector.
py
调用模型识别意图代码 - IntentProcessor.
py
记忆上下文实体,处理对应意图的回复 - KGQuery.
py
提供从图
数据
库查询的各类方法 - telegramBot.
py
支持机器人在telegram上运行的相关代码 - static中存放网页相关的静态文件 - 其他文件均为 Django框架生成或依赖的文件 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、
数据
科学与大
数据
技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,也适用于小白学习入门进阶。当然也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或者热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载,沟通交流,互相学习,共同进步!
西工大网安实践教学社区
34
社区成员
195
社区内容
发帖
与我相关
我的任务
西工大网安实践教学社区
依托实践实训环节,为同学们更好掌握所需的基本技能,提供一个交流学习的社区。
复制链接
扫一扫
分享
社区描述
依托实践实训环节,为同学们更好掌握所需的基本技能,提供一个交流学习的社区。
python
安全
linux
高校
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章