第1章 绪论
1.1 引言
1.2 信息检索的起源和发展
1.2.1 手工检索
1.2.2 脱机批处理检索
1.2.3 联机检索
1.2.4 光盘检索
1.2.5 网络信息检索
1.3 信息检索模型及方法
1.3.1 传统布尔检索与扩展布尔检索模型
1.3.2 向量空间模型
1.3.3 概率检索模型
1.3.4 模糊检索模型
1.3.5 逻辑检索模型
1.3.6 概念检索
1.3.7 案例检索
1.4 网络信息检索的过程
1.4.1 网络信息获取
1.4.2 信息加工
1.4.3 信息检索与结果提供
1.5 网络信息检索的性能评价
1.6 网络信息智能化处理
1.7 网络信息检索技术的未来
1.7.1 以智能化技术为核心的智能检索
1.7.2 多媒体信息检索
1.7.3 跨语言检索
1.7.4 个性化检索
本章小结
参考文献
第2章 网络信息处理
2.1 网络信息采集
2.2 网络信息抽取
2.3 网络信息的标引与索引
2.3.1 标引
2.3.2 索引
2.4 基于链接分析的网页相关性算法及检索结果排序
2.4.1 链接分析
2.4.2 HITS算法
2.4.3 PaSeRank算法及网页相关性评价
2.4.4 HITS算法和PageRank算法的比较
2.5 基于自然语言处理的检索
2.5.1 自然语言理解的发展
2.5.2 基于规则分析的方法
2.5.3 基于统计分析的方法
2.5.4 自然语言检索
本章小结
参考文献
第3章 搜索引擎
3.1 搜索引擎概述
3.2 搜索引擎的发展历程
3.3 搜索引擎的分类
3.3.1 目录索引式搜索引擎
3.3.2 自动式搜索引擎
3.3.3 元搜索引擎
3.3.4 分布式搜索引擎
3.4 搜索引擎开发平台简介
3.4.1 Lucene
3.4.2 Lemur
3.4.3 LIUS
3.4.4 Egothor
3.4.5 Xapian
3.5 开源的Web搜索引擎系统简介
3.5.1 Nutch
3.5.2 YaCy
3.5.3 COmpass
3.6 相关资源
3.6.1 权威教材
3.6.2 国际著名研究机构
3.6.3 著名国际会议
本章小结
参考文献
第4章 Lucene的索引与检索机制及其应用
4.1 Lucene简介
4.2 Lucene的下载、安装与部署
4.2.1 下载Lucene
4.2.2 配置环境变量
4.2.3 对Lucene Demo的测试
4.3 Lucene的索引与检索机制概述
4.3.1 文本分析
4.3.2 Lucene的索引方式
4.3.3 Lucene索引文件的构成
4.3.4 Lucene的检索
4.3.5 Lucene的索引和检索主要流程
4.4 管理和操作索引
4.4.1 设定增量索引
4.4.2 更新索引
4.4.3 优化索引
4.4.4 管理索引
4.5 Lucene的检索
4.5.1 构建检索
4.5.2 完成检索的主要步骤
4.6 根据用户提交的检索词构造查询
4.6.1 对单——域字段检索
4.6.2 对逻辑关系检索
4.6.3 对范围的检索
4.6.4 对前缀通配的检索
4.6.5 对Query的前缀和后缀通配的检索
4.6.6 模糊检索的实现
4.6.7 对多关键词的检索
4.6.8 通过Query的SpanNearQuery方式完成近似检索
4.7 基于Lucene应用程序:开源搜索引擎系统Nutch
4.7.1 Nutch简介
4.7.2 在Eclipse中加载Nutch
本章小结
参考文献
第5章 分词处理
5.1 概述
5.1.1 基于词典匹配的中文分词
5.1.2 基于词频统计的无词典中文分词
5.1.3 Lucene的分析器
5.2 常用的中英文分词器及分词效果
5.2.1 停用词分析器
5.2.2 标准分析器
5.2.3 简单分析器
5.2.4 空格分析器
5.2.5 关键词分析器
5.2.6 ChineseAnalyzer
5.2.7 CJKAnalyzer
5.2.8 第三方分词工具ICTCLAS
5.2.9 第三方分析软件JE
5.2.10 第三方分析软件IK_CAnalyzer
5.2.11 第三方分析软件MIK_Canalyzer
本章小结
参考文献
第6章 检索结果排序及处理
6.1 检索结果集Hits
6.2 检索结果的排序及控制
6.2.1 Lucene的排序机制
6.2 通过改变文档的Boost因子来改变排序结果
6.2.3 使用Lucene的Sort类定制排序结果
6.2.4 对多个指定Field进行综合排序
6.3 检索结果的分页
6.4 检索结果的高亮显示
6.5 检索日志处理
6.5.1 下载及配置Log4J
6.5.2 配置信息
……
第7章 网络信息获取
第8章 网络信息预处理
第9章 信息采集中的网页去重与相似网页聚类
第10章 信息的动态采集与更新
第11章 面向自然语言提问的理解与处理
第12章 相关概念反馈
第13章 相近检索与检索结果排序
第14章 基于用户浏览兴趣的网页预取