应用简介
后羿采集器是一款专业实用的的网页数据采集器。这款采集器不需要开发,任何人都能用,基于人工智能技术,只需输入网址就能自动识别采集内容,数据可导出到本地文件、发布到网站和数据库等。
它由原Google技术团队倾力打造,其规则配置简单,采集功能强大,能够支持电商类、生活服务类、社交媒体、新闻论坛等不同类型的网站,智能识别网页数据,导出数据方式多样,最主要是完全免费,是行业分析、精准营销、品牌监控、风险预估的好帮手。
后羿免费采集器支持所有操作系统版本更新和功能升级同步所有平台,采集和导出全免费,无限制放心用,并支持后台运行,不打扰您的其他前台工作,是你数据采集最好的助手。
【功能特点】
一、【规则配置简单 采集功能强大】
1、可视化自定义采集流程:
全程问答式引导、可视化操作、自定义采集流程
自动记录和模拟网页操作顺序
高级设置满足更多采集需求
2、点选抽取网页数据:
鼠标点击选择要爬取的网页内容、操作简单
可选择抽取文本、链接、属性、html标签等
3、运行批量采集数据:
软件按照采集流程和抽取规则自动批量采集
快速稳定,实时显示采集速度和过程
可切换软件后台运行,不打扰前台工作
4、导出和发布采集的数据:
采集的数据自动表格化,自由配置字段
支持数据导出到Excel等本地文件
和一键发布到CMS网站/数据库/微信公众号等媒体
二、【支持采集不同类型的网站】
电商类、生活服务类、社交媒体、新闻论坛、地方网站......
强大浏览器内核,99%以上网站都能采!
三、【全平台支持 全免费 可视化操作】
支持所有操作系统:Windows+Mac+Linux
采集和导出全免费,无限制放心用
可视化配置采集规则,傻瓜式操作
四、【功能强大,箭速迭】
智能识别网页数据,导出数据方式多样
软件定期更新升级,不断添加新功能
客户的满意是对我们最大的肯定!
【软件特色】
智能识别数据,小白神器
智能模式:基于人工智能算法,只需输入网址就能智能识别列表数据、表格数据和分页按钮,不需要配置任何采集规则,一键采集。
自动识别:列表、表格、链接、图片、价格、邮箱等
支持多种数据导出方式
采集结果可以导出到本地,支持TXT、EXCEL、CSV和HTML文件格式,也可以直接发布到数据库(MySQL、MongoDB、SQL Server、PostgreSQL)和网站(Wordpress、Discuz等),提供丰富的发布插件供您使用。
可视化点击,简单上手
流程图模式:只需根据软件提示在页面中进行点击操作,完全符合人为浏览网页的思维方式,简单几步即可生成复杂的采集规则,结合智能识别算法,任何网页的数据都能轻松采集。
可模拟操作: 输入文本、点击、移动鼠标、下拉框、滚动页面、等待加载、循环操作和判断条件等。
功能强大,提供企业级服务
后羿采集器提供丰富的采集功能,无论是采集稳定性或是采集效率,都能够满足个人、团队和企业级采集需求。
丰富的功能: 定时采集,智能防屏蔽,自动导出,文件下载,加速引擎,按组启动和导出,Webhook,RESTful API,智能识别SKU和电商大图等。
云端账号,方便快捷
创建后羿采集器账号并登录,您的所有采集任务都将自动同步保存到后羿的云端服务器,无需担心采集任务丢失。 后羿采集器对账号没有终端绑定限制,您切换终端时采集任务也会同步更新,任务管理方便快捷。
全平台支持,无缝切换
同时支持Windows、Mac和Linux全操作系统的采集软件,各平台版本完全相同,无缝切换。
【怎么抓取评论】
步骤一:登陆打开后羿采集器软件
步骤二:新建采集任务
1、复制网页地址:需要采集评价的商品网址
2、新建流程图模式采集任务:导入采集规则来创建智能任务
步骤三:配置采集规则
1、设置预登陆
输入网址后,我们进入宝贝的详情页,此时页面上出现的登录界面我们可以点击关闭,不需要进行登录也能够采集到评论数据。
2、设置数据字段
在详情页上可以看到评论数但是看不到具体的评论内容,我们需要点击评论,然后在左上角跳转出来的提示框中选择“点击该元素”。
3、进入到评论界面后,根据搜索的方向选择元素,例如好评、差评等元素,我们可以在这个基础上右击字段进行相关设置,包括修改字段名称、增减字段、处理数据等。
由于我们想要下载全部的评论图片,因此可以选中评论中的全部图片,然后设置字段属性—提取外部html。
4、我们采集出了单页的评论数据,现在需要采集下一页的数据,我们点击页面上的“下一页”按钮,在左上角出现的操作提示框内选择“循环点击下一页”。
步骤四:设置并启动采集任务
点击“开始采集”按钮,可在弹出的启动设置页面中进行一些高级设置,包括“定时启动、防屏蔽、自动导出、文件下载、加速引擎、数据去重、开发者设置”功能,本次采集没有使用这些功能,我们直接点击启动开始采集。
步骤五:导出并查看数据
数据采集完成后,我们可以查看和导出数据,后羿采集器支持多种导出方式和导出文件的格式,同时还支持导出具体条数,可以在数据中选择想导出的条数,然后点击“确认导出”。
【怎么导出】
1、导出前台运行任务的采集结果
如果采集任务在前台运行,在任务结束后软件会弹出数据采集停止的提示框,此时我们点击“导出数据”按钮,即可导出采集数据结果。
2、导出后台运行任务的采集结果
如果采集任务在后台运行,在任务结束后,桌面右下角会弹出导出提示框,我们根据右下角任务完成的弹框提示打开查看数据界面,或者导出数据。
3、导出已经保存过的采集任务的采集结果
如果不是实时运行的采集任务,而是之前运行过的采集任务,例如我们关闭软件之后又重新打开软件,然导出一个运行过的采集任务的采集结果。
这种情况下我们可以右击任务点击“查看数据”打开查看数据界面,然后在该界面设置导出数据。
4、导出数据的其他事项
目前后羿采集器支持多种格式免费导出,包括:Excel2007、Excel2003、CSV、HTML文件、TXT文件;同时支持免费导出到数据库。
个人专业版及以上支持发布到网站,目前支持发布到WordPress、发布到Typecho、发布到DEDECMS(织梦),更多网站模板继续更新中……
用户在导出数据时,可以选择导出范围,可选择导出未导出的数据、导出已选的数据,或者选择导出条数。
在导出结束后,还可以对导出的数据进行标记,这样子就能明确的直观的看到哪些数据是已经导出过的,哪些数据是未导出过的。
【怎么下载图片】
第一种:逐个图片添加
直接在页面中点击你想要下载的图片,然后根据提示点击“提取该元素”,软件会自动生成提取数据组件并添加一个图片字段。(如果连续采集字段时,不一定每次都会生成新的提取数据组价,只会添加新的字段)
或者直接点击“添加字段”,然后在页面中点击你想下载的图片。
第二种:一次下载多个图片
这种情况需要图片集中在一起,可以一次框选所有图片。
我们可以直接点击点击整个图片区域的右下角,在框选时我们可以看到软件的蓝色框选区域,保证所有要下载的图片都被框选到。然后根据提示点击“提取该元素”,软件会自动生成提取数据组件并添加一个图片字段。(如果连续采集字段时,不一定每次都会生成新的提取数据组价,只会添加新的字段)
然后右击字段,修改字段属性为“提取内部HTML”。
点击右下角“开始采集”按钮,可以设置图片下载功能。
接下来我们只需点击“开始采集”,然后在启动框中勾选“采集中同时下载图片至以下目录”即可开启图片下载功能,用户可以设置图片的本地保存路径。