站长资讯网
最全最丰富的资讯网站

详解Python之urllib爬虫、request模块和parse模块

详解Python之urllib爬虫、request模块和parse模块

文章目录

  • urllib
  • request模块
    • 访问URL
    • Request类
    • 其他类
  • parse模块
    • 解析URL
    • 转义URL
  • robots.txt文件

(免费学习推荐:python视频教程

urllib


urllib是Python中用来处理URL的工具包,源码位于/Lib/下。它包含了几个模块:用于打开及读写的urls的request模块、由request模块引起异常的error模块、用于解析urls的parse模块、用于响应处理的response模块、分析robots.txt文件的robotparser模块。

注意版本差异。urllib有3个版本:Python2.X包含urlliburllib2模块,Python3.X把urlliburllib2以及urlparse合成到urllib包中,而urllib3是新增的第三方工具包。若遇到"No module named urllib2"等问题几乎都是Python版本不同导致的。

urllib3是一个功能强大、条例清晰、用于HTTP客户端的Python库。它提供了许多Python标准库里所没有的特性:压缩编码、连接池、线程安全、SSL/TLS验证、HTTP和SCOCKS代理等。可以通过pip进行安装:pip install urllib3
详解Python之urllib爬虫、request模块和parse模块
也可以通过GitHub下载最新代码:

git clone git://github.com/shazow/urllib3.git python setup.py install

urllib3参考文档:https://urllib3.readthedocs.io/en/latest/

request模块


urllib.request模块定义了身份认证、重定向、cookies等应用中打开url的函数和类。

再简单介绍下request包,该包用于高级的非底层的HTTP客户端接口,容错能力比request模块强大。request使用的是urllib3,它继承了urllib2的特性,支持HTTP连接保持和连接池,支持使用cookie保持会话、文件上传、自动解压缩、Unicode响应、HTTP(S)代理等。

赞(0)
分享到: 更多 (0)