NCBI 上SRA爬虫问题

Mr-Kid 2018-12-20 04:06:50

大家好，又来麻烦大家了，作为一个python菜鸟，我觉得我的爬虫项目怎么都在挑战高难度

我这次是爬取NCBI上的信息，从NCBI上获取网址调到SRA（已完成），但是爬取SRA的时候，遇到了问题，比如https://www.ncbi.nlm.nih.gov/Traces/study/?WebEnv=NCID_1_20026402_130.14.18.97_5555_1545272108_2984035102_0MetA0_S_HStore&query_key=4，我一开始以为是异步加载，在xhr中找网址时，发现没有一个符合要求，我不知道是我找的方式不对还是这个隐藏内容不是用ajax这种方法。
这个网页由3张表格构成，我想提取表格一和二中的内容，重点是表格二中download的链接，请大家帮忙看一下这个问题该怎么解决，谢谢

...全文

185 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

作为生命科学的从事者，不论是老师或者学生都应该用过NCBI((National Center for Biotechnology Information Search database，一个综合性的生命科学资源网站）。那么作为一个生命科学中的一员，如果你们没用过NCBI网站，这就好像是在说“知网是啥”。希望提到这个网站的事情，你的表情不会是下面这个样子，哈哈哈。。。不管你是否了解NCBI网站，这都不重要，重要的是如果哪一天你需要用到了（比如要从NCBI上面下载个原始数据，这个需求比较合理吧！），

NCBI（National Center for Biotechnology Information）的中文名称是美国生物信息技术中心，该网站是美国医学图书馆（NLM）的一部分。该网站提供了下载数据集、上传数据集、在线分析数据集以及提供了部分生物信息学工具如（BLAST：一款序列比对工具）等功能。本文主要介绍如何在NCBI上下载数据集。这三种方法是目前比较常用的下载数据集的方法，当然还用其他很多下载数据集的方法，具体的下载数据集的方法要按照该生信项目的需求进行下载。

问题有两种关键字，需要在ncbi上面进行查询，返回bioProjectID 查询完发现网站地址如下：这就是我们需要请求的页面 https://www.ncbi.nlm.nih.gov/bioproject/?term=(frontal%5BAll+Fields%5D+AND+ASD%5BAll+Fields%5D)+AND+%22org+human%22%5BFilter%5D 点击查看此时的网页 1 处是我们的筛选条件 2 处是我们需要返回的bioProjectID 请求地址是： 'https://w

下面以爬取小鼠单细胞数据集为例子，一共6408页(selenium版本为3.141.0)

简单爬虫实践手里有了RUNID，需要收集这些测序生物样本的品种等相关信息。记录于此，有待改善。 ''' @author:yanglv 2020年11月7日20:18:49 简单爬虫---根据表格中的runid，在NCBI爬取Biosample信息，并写入表格。 ''' import requests import re from bs4 import BeautifulSoup import xlrd from xlutils.copy import copy import time from ret

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章