关灯

Pytho爬取微博热搜

[复制链接]
xingtao1983 发表于 2019-5-13 14:31:56 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
Pytho爬与微专热搜-1.jpg

微专热搜的爬与较为简朴,我只是用了lxml战requests两个库

url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6

1.阐发网页的源代码:左键--检察网页源代码.

Pytho爬与微专热搜-2.jpg




从网页代码中能够获得到疑息

(1)热搜的名字皆正在<td class="td-02">的子节面里

(2)热搜的排名皆正在<td class=td-01 ranktop>的里(留意置顶微专是出有排名的!)

(3)热搜的会见量皆正在<td class="td-02">的子节面里

2.requests获得网页

(1)先设置url地点,然后模仿阅读器(那一步能够不消)避免被认出是爬虫法式。



Pytho爬与微专热搜-3.jpg




(2)操纵req uests库的get()战lxml的etr ee()去获 与网页代码

###获得html页里

html=etree.HTML(requests.get(url,headers=header).text)

3.机关xpath途径

上里第一步中三个xath途径别离是:



Pytho爬与微专热搜-4.jpg




xpath的返回成果是列表,以是affair、rank、view皆是字符串列表

4.格局化输出

需求留意的是affair中多了一个置顶热搜,我们先将他别离出去。

top=affair[0]

affair=affair[1:]

那里操纵了python的切片。



Pytho爬与微专热搜-5.jpg




那里仍是出能做到完整对齐。。。

5.局部代码



Pytho爬与微专热搜-6.jpg




成果展现:



Pytho爬与微专热搜-7.jpg
回复

使用道具 举报

 

精彩评论5

正序浏览
╰青春是一首歌 发表于 2019-5-13 15:42:38 来自手机 | 显示全部楼层
 
支持支持再支持
回复 支持 反对

使用道具 举报

 
如山中清风 发表于 2019-5-16 14:03:08 | 显示全部楼层
 
沙发位出租,有意请联系电话:13838384381
回复 支持 反对

使用道具 举报

 
wycctqxl 发表于 2019-5-16 14:06:04 | 显示全部楼层
 
介是神马?!!
回复 支持 反对

使用道具 举报

 
頖逆メ⑨O詬 发表于 2019-5-16 14:16:19 来自手机 | 显示全部楼层
 
嘘,低调。
回复 支持 反对

使用道具 举报

 
taibai 发表于 2019-5-16 14:18:20 | 显示全部楼层
 
占坑编辑ing
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
作者专栏

关注我们:微信公众号

官方微信

APP下载

全国客服QQ:

3388506817

Email:3388506817#qq.com

【版权声明】本站大部分内容由网友自发贡献,本站不拥有所有权,不承担相关法律责任,如有侵权请告知,本站将立刻删除涉嫌侵权内容。

Copyright   ©2015-2016  乐云媒自媒体之家Powered by©Discuz!技术支持:乐送网络     ( 津ICP备17006261号 )