网络请求与数据提取-urllib库

关于网络爬虫，其实就是模拟浏览器向网站服务器发送请求，然后从响应的结果中提取出需要的数据。那么，该如何实现这一流程了？对于初学者来说，可能都不知道该如何入手，学习爬虫时需不需要了解HTTP、TCP、IP 层的网络传输通信和知道服务器的响应和应答原理，以及请求的这个数据结构需要自己实现吗，等等一系列问题产生疑惑。不用担心，Python的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求。最基础的 HTTP 库有 urllib、httplib2、requests、treq 等。