四虎電影库房网站duos通过requests BeautifulSoup下载 四虎网站是一个成人网站,里面有很多的资源可以进行下载。



一、获取图片网页的信息


  首先是获取图片网页的链接 ,我们在图片的主页面上有各个图片的链接和标题,我们可以爬取下载再进行分析!


四虎電影库房网站duos通过requests BeautifulSoup下载.jpg

  我们首先通过requests.get()的方法把网页给爬取下来,这时利用requests.get()的content属性可以把网页的源代码给显示出来,也可以用text来显示,但content的一个优势就是返回的是二进制数据,而text返回的是unicode型数据。简单来说,就是content不容易乱码,而且也可以获取图片和文件。

 我们发现网页的最后一页的下一页没有,返回的是一个空值,所以我们直接将最后一个网页作为页面的异常值抛出.接下来我们直接利用BeautifulSoup类型的find_all找出所有的链接。其中有些链接不是图片页面的链接,我们又发现图片链接的地址长度都是一样的,我们可以通过将链接地址大小进行判断,取得图片地址链接。

二、获取各个图片的链接



  我们现在可以通过上面取得网页的地址来获取各个图片的链接,我们发现图片的地址都是在img的src属性里,我们可以通过上面的方法来获得图片的链接

三、下载图片



  图片可以通过urllib.urlretrieve(imgurl, path)来保存图片,但通过这种的方式保存的图片无法打开,所以还是要通过


f.write(h.content)的方式来保存图片。


还有将同一个标题下的图片存在一起,我们通过判断标题是否一样,如果一样就保存在这个文件夹下,

如果不一样就创建文件夹

四、主函数



  我们利用下一页返回是否为空来判断是否爬取完成。如果返回的不是空,则会永远执行,我们还有一个计时功能,来计算执行时间。

上一篇: 海王大厦彩色复印机租赁 长虹科技大厦出租理光复印机租用
下一篇: 中科大厦理光打印机租赁;国兴大厦彩色打印机出租公司

评论

精彩评论

评论 (0)