1. 秦子帅的博客首页
  2. Python

Python爬虫实战(2)-爬取小说”斗罗大陆3龙王传说”(超详细)

点击标题下「蓝色微信名」可快速关注

前言

首先,我们来回忆一下上篇爬虫实战讲了什么:讲到了requests和bs4和一些网页基本操作。如果有不熟悉的朋友可以去看看:

Python爬虫实战(1)-爬取“房天下”租房信息(超详细)

今天我们用re模块+requests来实战爬取一下,并写入TXT文件中,效果图如下:

Python爬虫实战(2)-爬取小说

实战

我们今天来爬取一下5200小说网的小说“罗大陆3龙王传说”并写入TXT文件中,我们先分析一下章节网址的规律:

http://www.5200xs.org/52002847/1081834.html

http://www.5200xs.org/52002847/1081835.html

从而得知规律是网址数字的增加。

步骤:

1.先获取网页数据,用requests获取,这个大家都会吧?上篇实战文章已经讲过了,这里的url我们一会再赋值:

2.根据re模块去提取你想要的信息-标题和内容

首先先讲一下符号 (.*?)的用法,就是表示匹配xx和xx间的任何字符。用法就是‘xx(.*?)xx’

标题:

Python爬虫实战(2)-爬取小说

获取代码:

内容:

Python爬虫实战(2)-爬取小说获取代码:

获取之后会有各种的符号,我们可以把它代替出来:

3.就是通过循环依次获取当前的网页数据,并写入TXT文件中。

完整代码如下:

希望对刚入门的朋友有所帮助!

Python爬虫实战(2)-爬取小说

Python爬虫实战(2)-爬取小说

原文始发于微信公众号( 扎心了Python ):Python爬虫实战(2)-爬取小说”斗罗大陆3龙王传说”(超详细)

发布者:秦子帅,转转请注明出处:http://qinzishuai.cn/index.php/2018/02/28/7d759d43ae/

联系我们

912241847

在线咨询:点击这里给我发消息

邮件:qzs531156@163.com

QR code