应用简介
SysNucleus WebHarvy 是一款非常好用的网页数据采集软件,它可以帮助用户轻松的从网页上提取数据并保存为不同的格式,还支持提取视频、图片等各种类型的文件。
【软件特色】
1、SysNucleus WebHarvy可以让您分析网页上的数据
2、可以显示从一个HTML地址上分析连接数据
3、可以延伸到下一个网页页面
4、可以指定搜索数据的范围以及内容
5、可以将扫描的图片下载保存
6、支持在浏览器上复制链接搜索
7、支持配置对应资源项目搜索
8、可以使用项目名称以及资源名称查找
9、SysNucleus WebHarvy可以轻松提取数据
10、提供更高级的多词语搜索以及多页搜索
【软件功能】
简易网页搜刮:WebHarvy的指向和点击界面使Web Scraping很容易。绝对不需要编写任何代码或脚本来刮取数据。您将使用WebHarvy的内置浏览器加载网站,并且可以通过单击鼠标来选择要提取的数据。就这么简单!(视频)
智能模式检测:自动识别网页中出现的数据模式。因此,如果您需要从网页上抓取项目列表(名称,地址,电子邮件,价格等),则无需进行任何其他配置。如果数据重复,WebHarvy将自动对其进行刮擦。 保存到文件或数据库
您可以用多种格式保存从网站提取的数据。当前版本的WebHarvy Web搜寻软件允许您将提取的数据另存为Excel,XML,CSV,JSON或TSV文件。您也可以将抓取的数据导出到SQL数据库。(了解更多)
抓取多页:网站通常会在多个页面中显示诸如产品列表或搜索结果之类的数据。WebHarvy可以自动爬网并从多个页面提取数据。只需指出“加载下一页的链接”,WebHarvy Web Scraper就会自动从所有页面抓取数据。(了解更多)
提交关键字:通过自动提交输入关键字列表以搜索表单来擦除数据。可以将任意数量的输入关键字提交到多个输入文本字段以执行搜索。可以从输入关键字所有组合的搜索结果中提取数据。(了解更多)(视频)
保护隐私:为了匿名抓取并防止Web抓取软件被Web服务器阻止,您可以选择通过代理服务器或VPN访问目标网站。可以使用单个代理服务器地址或代理服务器地址列表。(了解更多)
类别抓取:抓取工具使您可以从链接列表中抓取数据,这些链接会导致网站中出现类似的页面/列表。这使您可以使用单一配置在网站内抓取类别和子类别。(了解更多)(视频)
常用表达:允许您在网页的文本或HTML源上应用正则表达式(RegEx)并抓取匹配的部分。这项功能强大的技术可在您抓取数据时提供更大的灵活性。(了解更多) (RegEx教程)
JavaScript支持:提取数据之前,请在浏览器中运行您自己的JavaScript代码。它可用于与页面元素进行交互,修改DOM或调用已在目标页面中实现的JavaScript函数。(了解更多)
图像提取:可以下载图像或提取图像URL。WebHarvy可以自动提取显示在电子商务网站产品详细信息页面中的多个图像。(了解更多)
自动化浏览器任务:WebHarvy可以轻松配置为执行诸如单击链接,选择列表/下拉选项,向字段输入文本,滚动页面,打开弹出窗口等任务。
技术援助:购买WebHarvy后,您将在购买之日起的1年内获得我们的免费更新和免费支持。