源码介绍:
功能强大的开源源码蓝天采集器-网站采集小能手。
一款运行在web服务器上的采集器:蓝天采集器部署在web服务器上的采集器
相比市面上的火车头等桌面端采集器,可以大大降低上手成本,
而且更加简便,最重要的是完全开源。
将下载的软件上传至您的服务器,如果根目录有站点建议放在子目录里,解压后打开浏览器输入您的服务器域名或ip地址(存放在子目录则加上子目录的名称),进入安装界面
点击任务底部进度条的“采集器设置”进入规则编辑界面
- 输入采集规则名称和目标网站编码(可自动检测)
- 页面渲染:自动加载出ajax内容,适用于js脚本较多的页面
- 自动补全网址:将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)
- 网址不排重:默认会将采集过的内容页排重处理,不排重适用于更新频繁的动态页面
- 请求头信息:以适应需要登录的、手机浏览的等界面,可分别设置抓取页面和下载图片的请求头信息
© 版权声明
THE END
暂无评论内容