• 视频
网站采集神器:采集链接过滤方法 121播放

网站采集神器:采集链接过滤方法

  • 主演: 
  • 导演: 
  • 分类: 常见问题
  • 地区: 
  • 年份: 
  • 更新时间:2022-07-22
  • 简介: 采集链接过滤解决方法:1、尝试一下采集百度贴吧,css选择器只用a,匹配了页面所有超链接,是猫是狗都出来了。2、看一下正常需要采集链接的格式:http://baiyeyingxiao.com/p/7014123237http://baiyeyingxiao.com/p/7016345708http://baiyeyingxiao.com/p/7016647...

扫描二维码打开

网站采集神器:采集链接过滤方法

采集链接过滤解决方法:

1、尝试一下采集百度贴吧,css选择器只用 a,匹配了页面所有超链接,是猫是狗都出来了。

image.png

2、看一下正常需要采集链接的格式:

http://baiyeyingxiao.com/p/7014123237

http://baiyeyingxiao.com/p/7016345708

http://baiyeyingxiao.com/p/7016647608

3、每个链接都包含了 /p/,所以在“必须包含”中,输入这个内容,再次采集测试:

image.png

4、依旧有大量重复,重复的链接都包含的pid=****#****这些内容,所有在“不能包含”中可以填写个pid,因为正常的帖子链接不可能包含这个pid的,所有可以把它排除掉。再次测试:

image.png

5、采集成功,过滤掉了所有不相关的链接。


打乱链接

采集预览和正式采集入库时,采集到的链接都会被无序打乱


Copyright 深圳市某某科技有限公司 版权所有. 备案号:粤ICP备98989988号