下面讲讲如何通过火车采集器获取百度已收录的文章死链
什么情况下需要这么操作,网站改版,有很多死链,购买了二手域名,之前有收录等等一些情况。
总之你需要获取大量死链的,都可以这么操作。
第一步:打开抓包工具Fiddler,并开启抓包
第二步:使用谷歌浏览器,打开百度首页输入site:lirongyao.com,多翻几页
第三步:回到抓包工具中你会发现有这样几条类似的链接(地址我简化了)
https://www.baidu.com/s?wd=site%3Alirongyao.com&pn=0&oq=site%3Alirongyao.com
https://www.baidu.com/s?wd=site%3Alirongyao.com&pn=10&oq=site%3Alirongyao.com
https://www.baidu.com/s?wd=site%3Alirongyao.com&pn=20&oq=site%3Alirongyao.com
链接中有个pn=0、pn=10 这个就是翻页值,每次递增10,
上面的地址放到火车采集器中起始页中,记得把lirongyao.com换成你自己的域名
https://www.baidu.com/s?wd=site%3Alirongyao.com&pn=[地址参数]&oq=site%3Alirongyao.com
网址提取规则
{"title":"(*)","url":"[参数]"}
内容采集标签(如图操作):
比如死链中包含了某个二级目录,那我采集的时候,在加个数据过滤必须包含/死链中包含的二级目录/
组合结果参数那块有个回车哦。
其他设置 – http请求设置 – 关闭自动跳转
把采集的内容发布到文本即可,最后提交到百度即可等待删除。
原创文章,转载请注明: 转载自荣耀博客
本文链接地址: 如何批量获取百度已收录的文章死链
本文链接地址: 如何批量获取百度已收录的文章死链