扫描二维码打开
采集链接过滤解决方法:
1、尝试一下采集百度贴吧,css选择器只用 a,匹配了页面所有超链接,是猫是狗都出来了。
2、看一下正常需要采集链接的格式:
http://baiyeyingxiao.com/p/7014123237
http://baiyeyingxiao.com/p/7016345708
http://baiyeyingxiao.com/p/7016647608
3、每个链接都包含了 /p/,所以在“必须包含”中,输入这个内容,再次采集测试:
4、依旧有大量重复,重复的链接都包含的pid=****#****这些内容,所有在“不能包含”中可以填写个pid,因为正常的帖子链接不可能包含这个pid的,所有可以把它排除掉。再次测试:
5、采集成功,过滤掉了所有不相关的链接。
打乱链接
采集预览和正式采集入库时,采集到的链接都会被无序打乱
Copyright 深圳市某某科技有限公司 版权所有. 备案号:粤ICP备98989988号