|
火车头采集器是很多站长经常使用的数据采集工具,使用火车头采集器对于采集那些有明显的翻页列表网站不难,因为每个翻页列表页面都有不同的页码ID,如下图:
但遇到那种使用ajax技术动态加载的列表页面,可能有些站长就犯难了,这种ajax滚动加载的列表页面,并没有明显的页码ID,鼠标往下滚动(或者点击“加载更多”),页面就自动加载内容,但地址栏的内容列表页面url并没有变化,如下图:
如果还是采用有翻页码那种寻找列表页面地址url的方法,就很难采集到更多内容,只能采集到首页内容。这时我们可以通过浏览器的开发者模式(F12即可打开),找到“network”-"XHR",当我们在需要采集的列表页面滚动鼠标或者点击加载更多时,在下面的列表加载数据中就会出现真实的ajax列表url,如下图:
我们通过分析这些url特征,根据变化的ID部分,就可以得出所有的ajax列表地址url,如下图:
但这种ajax列表url通过浏览器打开之后,并不是平时看到文章列表页面,而是像源码一样的内容,我需要分析里面的内容特征,找到需要采集的内容页面url,如下图:
然后在火车头采集器里面,通过手动拼接内容地址,来获得所需要采集的内容页面url地址列表,如下图:
内容页面url地址拼接规则设置好后,可以通过测试看是否正确,可以看到我们得到的内容页面url正确无误,这样就完美解决了这个内容列表动态加载页面地址的获取难题了,如下图:
|
|