1. 秦子帅的博客首页
  2. Python

Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细)

点击标题下「蓝色微信名」可快速关注

前言

首先我们先来回忆一下上两篇爬虫实战文章:

第一篇:讲到了requests和bs4和一些网页基本操作。

Python爬虫实战(1)-爬取“房天下”租房信息(超详细)

第二篇:用到了正则表达式-re模块

Python爬虫实战(2)-爬取小说”斗罗大陆3龙王传说”(超详细)

今天我们用lxml库和xpath语法来爬虫实战。

1.安装lxml库

window:直接用pip去安装,注意一定要找到pip的安装路径

2.xpath语法

xpath语法不会的可以参考下面的地址:

http://www.w3school.com.cn/xpath/index.asp

爬虫实战

先上部分效果图:

Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细)

今天我们来爬一下“豆瓣音乐Top250的数据”

1.观察网页切换规律

https://music.douban.com/top250?start=0

https://music.douban.com/top250?start=25

https://music.douban.com/top250?start=50

从中我们已发现了规律。

2.爬取豆瓣音乐中的歌名、信息、星评
爬虫完整代码如下:

 

分析:

  • 代码中urls为了循环出所有的url

  • 对xpath不懂的可以去看一下具体的语言,还是比较简单明了的,而且使用非常方便

  • normalize-space表示通过去掉前导和尾随空白并使用单个空格替换一系列空白字符,使空白标准化。如果省略了该参数,上下文节点的字符串值将标准化并返回

基本上就是这些难点,大家有不会的可以直接问我,另外大家也可以尝试去爬取别的数据,多敲多练!

希望对刚入门的朋友有所帮助!

Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细)

Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细)

原文始发于微信公众号( 扎心了Python ):Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细)

发布者:秦子帅,转转请注明出处:http://qinzishuai.cn/index.php/2018/03/06/347a396ca5/

联系我们

912241847

在线咨询:点击这里给我发消息

邮件:qzs531156@163.com

QR code