创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
ai 文爱 python爬虫实战之最简单的网页爬虫教程 - 明星换脸

ai 文爱 python爬虫实战之最简单的网页爬虫教程

明星换脸

你的位置:明星换脸 > 七夕成人色情网 > ai 文爱 python爬虫实战之最简单的网页爬虫教程
ai 文爱 python爬虫实战之最简单的网页爬虫教程
发布日期:2024-11-19 23:52    点击次数:74

绪论ai 文爱

收集爬虫(又被称为网页蜘蛛,收集机器东谈主,在FOAF社区中间,更频频的称为网页追赶者),是一种按照一定的次序,自动地握取万维网信息的法子或者剧本。最近对python爬虫有了热烈地酷好酷好,在此共享我方的学习旅途,接待环球提议建议。咱们相互交流,共同向上。话未几说了,来一谈望望详确的先容:

1.成立器具

笔者使用的器具是sublime text3,它的硕大无朋(可能男东谈主们皆不心爱这个词)使我非常耽溺。推选环球使用,虽然若是你的电脑配置可以,pycharm可能愈加合适你。

sublime text3搭建python成立环境推选检察这篇著作:

[sublime搭建python成立环境][https://www.jb51.net/article/51838.htm]

2.爬虫先容

爬虫顾名想义,等于像虫子相似,爬在Internet这张大网上。如斯,咱们便可以取得我方想要的东西。

既然要爬在Internet上,那么咱们就需要了解URL,法号“调处资源定位器”,乳名“一语气”。其结构主要由三部分构成:

(1)合同:如咱们在网址中常见的HTTP合同。

(2)域名或者IP地址:域名,如:www.baidu.com,IP地址,行将域名理会后对应的IP。

厕所 偷拍

(3)旅途:即目次或者文献等。

3.urllib成立最简单的爬虫

(1)urllib简介

Module Introduce urllib.error Exception classes raised by urllib.request. urllib.parse Parse URLs into or assemble them from components. urllib.request Extensible library for opening URLs. urllib.response Response classes used by urllib. urllib.robotparser Load a robots.txt file and answer questions about fetchability of other URLs.

(2)成立最简单的爬虫

百度首页八成大方,很合适咱们爬虫。

爬虫代码如下:

成果如下图:

咱们可以通过在百度首页空缺处右击,检察审查元素来和咱们的开动成果对比。

虽然,request也可以生成一个request对象,这个对象可以用urlopen设施洞开。

代码如下:

开动成果和刚才调换。

(3)失实处罚

失实处罚通过urllib模块来处罚,主要有URLError和HTTPError失实,其中HTTPError失实是URLError失实的子类,即HTTRPError也可以通过URLError拿获。

HTTPError可以通过其code属性来拿获。

处罚HTTPError的代码如下:

开动成果如图:

404为打印出的失实代码,对于此详服气息环球可以自行百度。

URLError可以通过其reason属性来拿获。

chuliHTTPError的代码如下:

开动成果如图:

既然为了处罚失实,那么最佳两个失实皆写入代码中,毕竟越精细越了了。须预防的是,HTTPError是URLError的子类,是以一定要将HTTPError放在URLError的前边,不然皆会输出URLError的,如将404输出为Not Found。

代码如下:

环球可以改造url来检察多样失实的输出情势。

转头

以上等于这篇著作的全部实验了,但愿本文的实验对环球的学习或者责任能带来一定的匡助ai 文爱,若是有疑问环球可以留言交流,谢谢环球对剧本之家的救济。



Powered by 明星换脸 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024

创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False