应用简介
LocoySpider是一款非常专业的数据采集软件,该软件功能强大,为广大用户提供了网络数据采集以及信息挖掘等功能,有了它,我们可以通过灵活的方式轻松的从网页上抓取文字、图片、文件等任何数据。
LocoySpider程序支持远程下载图片文件,支持网站登陆后的信息获取,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点。
【软件特色】
1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程 - 可以同时进行多个信息获取任务,每个任务可以使用多个线程。
3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采 - 信息收集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。
11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别 - 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
【功能介绍】
1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:LocoySpider支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
【软件功能】
多线程高速并行采集系统
任务分配至多个客户端,同时运行采集,效率倍增。
多识别系统
配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
可选验证方式
LocoySpider可选择是否使用加密狗,随时保障数据安全。
全自动运行
无需人工值守操作,任务完成后自动关机。
替换功能
同义,近义词替换、参数替换,伪原创必备技能。
任意文件格式下载
图片、压缩文件、视频等任意格式的文件都能轻松下载。
系统运行监控
监控数据质量,确保数据准确性。
支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
支持扩展
LocoySpider支持接口和插件扩展,满足各种采发需求。
【解决方案】
建网站苦于没内容?
火车采集器可自动采集优质内容,定时发布;并配置多种数据处理选项,让网站内容独一无二,快速提升网站流量!
业务发展遭遇瓶颈?
火车采集器助您在数据中快速挖掘新客户;透视竞争对手的业务数据,分析客户行为拓展新业务,精准营销降低风险和预算。
数据提取速度太慢?
火车采集器采用分布式高速采集系统,多个服务端同时运作,解决工作学习中大量的数据下载及使用需求,让您能有更多时间做更多事。
舆情监测无从下手?
火车采集器可应用于“舆情雷达监测与测控系统”,精准监控网络数据的信息安全,及时对不利或危情信息进行预警处理。
【新功能】
1、 列表页新增“地址处理”功能
内容替换/排重
可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。
纯正则替换
可以使用正则表达式进行匹配,和内容替换功能类似
字符编码处理
网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码
2、新增“请求失败数”的预警条件设置
3、下载图片命名,新增[记录自增Id]格式
记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增。
自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。
4、修复图片下载误判断问题
5、修复计划任务中“每天调度”,起始运行时间配置未生效的问题
6、 修复PHP插件,对于循环记录的处理报错的问题
7、修复拼音首字母对于一些错误字符的判断问题
8、任务批量编辑,修复“发布”中“多网站乱序发布”未能复制的问题
9、修改“循环添加新记录”配置后,修复数据格式选择错误的问题
10、修复循环记录中列表页标签被多次处理的问题
11、修复对于一些302跳转地址,无法正确跳转的问题
12、修复一些网址无法正确请求的问题