搜索引擎

Apache Nutch(Java搜索引擎工具) V2.3 官方版
  • Apache Nutch(Java搜索引擎工具) V2.3 官方版

  • 类别:搜索引擎系统: WinAll
  • 大小:7.21M时间:2018-05-05 15:06:08

应用简介

  Apache Nutch是一个开放源代码的Java搜索引擎框架,它提供了运行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬虫,使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。

Apache Nutch

【软件特色】

  1、Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎

  2、每个月取几十亿网页

  3、为这些网页维护一个索引

  4、对索引文件进行每秒上千次的搜索

  5、提供高质量的搜索结果

【功能特点】

  1、支持将起始URL集合注入到Nutch系统之中

  2、支持生成片段文件,其中包含了将要抓取的URL地址

  3、根据URL地址在互联网上抓取相应的内容

  4、解析所抓取到的网页,并分析其中的文本和数据

  5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取

  6、同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中

Apache Nutch

【使用教程】

  1、首先先运行软件,选择File -> Import Project ->选择apache-nutch-1.9文件夹,确定后选择Import project from external model(Eclipse)

  2、一直点击next到结束,成功将项目导入project中去

  3、源码导入工程后,并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段,每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数,来完整爬取的流程。下面我们来运行Nutch中最简单的流程:Inject。我们知道爬虫在初始阶段,是需要人工给出一个或多个url,作为起始点(广度遍历树的树根)。Inject的作用,就是把用户写在文件里的种子(一行一个url,是TextInputFormat),插入到爬虫的URL管理文件(crawldb,是SequenceFile)中。

  4、接下来我们按照Nutch默认的配置,需要修改Nutch的配置文件,为插件文件夹指定一个绝对路径,修改conf/nutch-default.xml文件内容,并且保存到工程中

  5、接下来我们就可以开始对指定的网站的信息进行完整的爬取了

【更新日志】

  V1.9更新:

  1、增加了可爬取的数据类型

  2、增加对Web爬虫的管理功能

  3、解决了一些格式上的已知问题

  4、修复了一些bug,优化了软件界面

  5、优化了软件性能

展开 收起

猜你喜欢

热门专题

热门推荐

  • 百度手机版 V13.63.5.10 安卓最新版

    百度手机版 V13.63.5.10 安卓最新版

  • 360极速浏览器APP V3.5.2.720 安卓版

    360极速浏览器APP V3.5.2.720 安卓版

  • 夸克2024版本 V7.2.0.630 安卓版

    夸克2024版本 V7.2.0.630 安卓版

  • 夸克浏览器 V7.2.0.630 安卓最新版

    夸克浏览器 V7.2.0.630 安卓最新版

  • Microsoft Edge手机版 V127.0.2651.102 最新版

    Microsoft Edge手机版 V127.0.2651.102 最新版

  • 悟空浏览器手机版 V2.5.0 安卓版

    悟空浏览器手机版 V2.5.0 安卓版

  • QQ浏览器手机版 V15.4.0.0030 安卓最新版

    QQ浏览器手机版 V15.4.0.0030 安卓最新版

  • UC浏览器手机版 V17.0.0.1331 安卓最新版

    UC浏览器手机版 V17.0.0.1331 安卓最新版

  • 360浏览器APP V10.1.5.700 安卓官方版

    360浏览器APP V10.1.5.700 安卓官方版

  • Chrome浏览器 V127.0.6533.103 安卓版

    Chrome浏览器 V127.0.6533.103 安卓版

  • 百度极速版APP V6.32.0.10 安卓官方版

    百度极速版APP V6.32.0.10 安卓官方版

  • 紫鸟超级浏览器手机版 V1.3.10.1 安卓版

    紫鸟超级浏览器手机版 V1.3.10.1 安卓版

推荐排名

  • 智谱清言PC版 V1.0.25 官方版 683K3.8万人在用 智谱清言电脑版是北京智谱华章科技有限公司推出的生成式智能助手,基于ChatGLM2模型开发,这个模型由清华大学 KEG实验室和智谱公司于2023年共同训练的语言模型。

    下载
  • 全民社工库 V1.0 绿色版 6.73M3.2万人在用 全满社工库是一款社工库查询工具,主要用于查询密码是否有被泄露,不管是自己的还是别人的,防止自己的数据被它人获取,从而影响自己的生活。

    下载
  • BT种子资源搜索神器 V1.0 最新免费版 1.71M1.3万人在用 BT种子资源搜索神器是一款2015最新实用的电影视频资源搜索软件。这款BT种子资源搜索神器功能强大、操作简单,用户只需要输入相应的资源关键字,即可快速找到相关电影资源,安全无毒,欢迎下载!

    下载
  • 全网音乐搜索 V1.7 官方版 4.32M1.3万人在用 全网音乐搜索是一款能够搜索QQ音乐、网易云音乐、百度音乐、酷狗四大音乐巨头音乐的神器,让你快速获取你想要的歌曲,点击试听或者免费下载,都可以支持,还可以下载MV哦。

    下载
  • P2P资源搜索器免安装版 V3.5 免费版 1.44M7千人在用 P2P资源搜索器是一款功能强大、便捷实用的种子搜索神器,操作非常简单,可以帮你轻松搜索网络资源,还支持在线播放。

    下载
  • 海阔视界电脑版 V8.17 官方最新版 31.31M5千人在用 海阔视界电脑版是一款非常好用的全网影视播放软件。该版本不光除了可以追剧,甚至连刷微博以及看知乎等,整个资源的分类是非常详细的,海量的影视资源可以随时播放,让你可以免费观看最新的付费视频资源。

    下载
  • Vistanita Duplicate Finder(重复文件查找) V3.9.6 汉化绿色特别版 1.29M4千人在用 Vistanita Duplicate Finder是一款重复文件查找工具,可以帮助你查找系统中完全相等的图片和音乐文件,但找到这些文件后,你可以选择删除它们,以释放您的存储空间、提高计算机的性能。

    下载
  • Everything(电脑全盘搜索工具) V1.4.1.1015 官方中文版 1.59M3千人在用 Everything是目前主流的基于NTFS文件系统下的全盘搜索软件,它搜索速度快,能够根据不同的条件准确的搜索文件,而且文件本身小巧,便于随身携带。

    下载

网友评论