火车头采集ajax滚动加载列表页面的方法详解

[复制链接]
查看: 2054|回复: 0

13

主题

13

帖子

43

积分

新手上路

Rank: 1

积分
43
发表于 2020-3-10 11:13:14 | 显示全部楼层 |阅读模式
火车头采集器是很多站长经常使用的数据采集工具,使用火车头采集器对于采集那些有明显的翻页列表网站不难,因为每个翻页列表页面都有不同的页码ID,如下图:
2.jpg

但遇到那种使用ajax技术动态加载的列表页面,可能有些站长就犯难了,这种ajax滚动加载的列表页面,并没有明显的页码ID,鼠标往下滚动(或者点击“加载更多”),页面就自动加载内容,但地址栏的内容列表页面url并没有变化,如下图:
1.jpg

如果还是采用有翻页码那种寻找列表页面地址url的方法,就很难采集到更多内容,只能采集到首页内容。这时我们可以通过浏览器的开发者模式(F12即可打开),找到“network”-"XHR",当我们在需要采集的列表页面滚动鼠标或者点击加载更多时,在下面的列表加载数据中就会出现真实的ajax列表url,如下图:
3.jpg

我们通过分析这些url特征,根据变化的ID部分,就可以得出所有的ajax列表地址url,如下图:
5.jpg

但这种ajax列表url通过浏览器打开之后,并不是平时看到文章列表页面,而是像源码一样的内容,我需要分析里面的内容特征,找到需要采集的内容页面url,如下图:
1.jpg

然后在火车头采集器里面,通过手动拼接内容地址,来获得所需要采集的内容页面url地址列表,如下图:
2.jpg

内容页面url地址拼接规则设置好后,可以通过测试看是否正确,可以看到我们得到的内容页面url正确无误,这样就完美解决了这个内容列表动态加载页面地址的获取难题了,如下图:
1.jpg

腾讯云
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩图文



在线客服(工作时间:9:00-22:00)
400-600-6565

内容导航

微信客服

Copyright   ©2015-2019  云服务器社区  Powered by©Discuz!  技术支持:尊托网络     ( 湘ICP备15009499号-1 )