爬虫入门实战系列(六)正则/bs4/xpath比较 爬取公众号文章正文
目标:爬取介个微信公众号文章的正文内容 https://mp.weixin.qq.com/s/DNtuRvc9NM88eBEX61IpAQ (也就是红框框里面的内容啦~) 先观察一波网页结构 在浏览器网页界面,用熟悉的F12,及快捷键组合“Shift+Ctrl+c”,很容易就定位到正文内容的标签,是在一堆section标签,里的span标签里。 PS:在观察网页结构时,↓会留意到这个微信网页是有JavaScript加载的内容的(script就是描述js内容属性的典型标签~),但是!这次咱选择爬取的文字内容,并非包含在js相关标签内,试试看果然是这样的~ 学习使用正则爬取 简述正则 首先
下载地址
用户评论