应用简介
网络神采是一款专业强大的轻量级网页采集软件,支持智能采集、可视化采集,支持二次开发、分布式部署,为用户的大数据分析、信息化平台,提供稳定、持续、准确的数据资源。
【功能特点】
1、采集强度
支持JS解析、POST分页、登录采集、跨层采集。对于疑难采集页面,有成熟的解决方案。
2、速度快
支持多任务同时运行,每个任务又可以设置多线程,确保运行效率。
3、规模化
支持任务多级分类、批量管理。支持云服务器分布式部署,管理员团队协合。
4、流程化
支持定时采集,任务定时自动启动。通过二次开发,实现流程化的信息采集、信息处理。
5、运行稳定
系统运行稳定,要求“0 bug”。目标网页改版后,自动通知管理员。
6、准确性
定制好任务后,采集准确率可达100%,即一条不漏。
【软件特色】
A、通用:根据制定采集规则,可以采集任何通过浏览器看得到的东西。
B、灵活:支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等高级功能。
C、扩展性强:支持存储过程调用、插件调用等,可以通过二次开发扩展功能。
D、高效:为了让用户节省一分钟去做其它事情,对软件做了精细设计。
E、速度快:速度最快、效率最高的采集软件。
F、稳定:系统资源占用少、有详细的运行报告、采集性能稳定,而且,软件要求“零BUG”。
G、人性化:注重软件细节,在乎用户体验。
【使用技巧】
1、 自动填写“采集规则名称”
设置采集规则时,如果“信息前标志”中包含“汉字或字母”,则自动提取为“采集规则名称”。例如:
2、导入导出任务
可免费注册两个神采帐号,不同帐号之间“导出/导入”任务,导入后简单修改即可实现自己的采集需求。
导出时,可按住 Ctrl 键选中多个任务。运行或暂停任务也是一样,可多选。
3、复制任务
同一种任务(例如,同一个网站下的不同栏目),或智能采集任务(不需要配规则,只要修改起始地址),非常适合复制一个任务,然后再修改:
4、采集后的内容,保留换行、图片等
默认时,采集后的内容不保留任何HTML标记,所以换行、图片等无法显示。在采集规则设置中,可明确保留哪些HTML标记。
【更新日志】
V6.2.5
1、修复bug:循环采集,如果关键规则采集失败,数据仍被保留。
2、改进细节:“连续采集内容失败已达到 5 次, 任务动作失败!”,只提示一次。
3、修复bug:本地起始地址,修改或清空后,无法保存成功。
4、可视化采集配置,修复bug:使用Geckofx内核时,个别网页,移动鼠标时,元素加亮失败。
5、细化任务日志多处。
6、采集规则,编辑现有条目:如果“所属层次”为空,则保留现有值,不影响保存,以方便保存单条测试任务。