Nutch公开课从搜索引擎到网络爬虫 杨尚川.pdf


立即下载 一瓶泡沫
2024-04-07
Nutch www.osforce.cn 搜索 引擎 分布式 项目 爬虫 网络 配置 导致
2.9 MB

1
www.osforce.cn
Nutch:从搜索引擎到网络爬虫
杨尚川
独立咨询顾问,专注于大数据和搜索引擎
2013年度优秀开源项目APDPlat发起人
ysc@apdplat.org
QQ: 281032878
2
www.osforce.cn
大纲:
1、Nutch是什么
2、Nutch可以做什么
3、为什么要学习Nutch
4、Nutch的设计初衷
5、Nutch的设计目标
6、Nutch的发展历程
7、Nutch 3大分支版本
8、Nutch的整体架构
9、Nutch的使用
10、一些优化技巧
3
www.osforce.cn
1、Nutch是什么
Nutch是Apache旗下的Java开源项目,
最初是一个搜索引擎,现在是一个网络
爬虫。下图为发起人Doug Cutting
Doug Cutting同时也是
Lucene和Hadoop的发起人
4
www.osforce.cn
Nutch的特性
插件架构,高度模块化
大多数功能都可以通过插件来实现和改变
易扩展,极强的伸缩性
增加机器即可,不用修改代码,从一台可扩展到成千上
万台
高可用性,健壮容错
容忍宕机情况的出现
灵活可配置
提供了162个配置参数
5
www.osforce.cn
Nutch的不足
• 所有文件都是只能写一次
• 批量处理架构导致无实时性
• 没有用户管理图形界面,只有
命令行接口
• web2.0的普及导致的js分析和
身份认证等问题
6
www.osforce.cn
Nutch和其他项目的关系
Lucene Core(全文检索库)
Solr(企业搜索平台)
ElasticSearch(分布式的支持RESTFULL
的实时搜索和实时分析)
Hadoop(分布式计算和分布式存储)
Tika(MIME类型检测、语言检测、元数据和
文本自动提取)
Gora(对象到NOSQL的映射)
7
www.osforce.cn
2、Nutch可以做什么
站内搜索引擎


Nutch/www.osforce.cn/搜索/引擎/分布式/项目/爬虫/网络/配置/导致/ Nutch/www.osforce.cn/搜索/引擎/分布式/项目/爬虫/网络/配置/导致/
-1 条回复
登录 后才能参与评论
-->