摘要
第一章 绪论/1
第一节 选题的研究背景和研究意义/1
第二节 相关背景知识/2
一、数据挖掘的发展概况/3
二、数据归约的主要内容/5
三、数据归约的重要作用/6
第三节 国内外研究现状/7
一、属性离散化方法研究的现状/7
二、属性排序和属性子集选择方法研究的现状/9
第四节 本书的研究内容及创新点/11
一、本书的研究内容和结构/11
二、本书的创新点/12
第二章 缺失值的填补与异常值的探测/14
第一节 缺失值的填补/14
一、单一填补法和多重填补法/15
二、基于距离的填补方法/17
三、贝叶斯填补方法/18
第二节 异常值的探测/20
一、异常值及形成原因/20
二、异常值的探测方法/21
三、异常值探测的步骤及应用/29
第三节 移动通讯用户消费行为的分析/31
一、单个属性异常值探测的应用及分析/32
二、多个属性的异常值探测方法的应用及分析/35
第三章 数据挖掘中元组的归约/39
第一节 面向属性归纳/39
一、面向属性归纳/39
二、面向属性归纳的步骤/41
三、面向属性归纳的算法/42
第二节 连续属性离散化方法及分类/43
一、离散化方法的分类/43
二、典型离散化的过程及结果评价/45
三、相关的离散化方法/46
第三节 基于可辨识矩阵的连续属性离散化方法/52
一、基于可辨识矩阵离散化方法的基本思路/52
二、基于可辨识矩阵离散化方法的框架/55
三、基于可辨识矩阵离散化方法的统计模拟/56
第四节 基于似然比假设检验的连续属性离散化方法/58
一、基于似然比假设检验的离散化方法/59
二、基于似然比假设检验离散化方法的步骤/60
三、基于似然比假设检验离散化方法的验证/61
四、两种离散化方法结果的比较/63
第四章 属性重要性的排序/64
第一节 有监督属性重要性的排序/64
一、粗糙集理论中属性重要性的排序方法/64
二、信息论和决策树中属性重要性的排序方"~/66
三、神经网络中属性重要性的排序方法/69
四、三种方法的比较/71
第二节 单向有序列联资料的属性重要性的排序/72
一、单向有序列联表/73
二、以秩效应为标准的方法/TS
三、改进秩和法/75
四、改进秩和法对一份调查问卷的分析/77
五、以秩效应为标准的方法和改进秩和法的比较/80
第三节 基于因子分析的无监督属性重要性的排序/82
一、基于因子分析的属性重要性排序方法/82
二、基于因子分析的属性重要性排序方法的步骤/84
三、基于因子分析排序方法的框架/85
四、基于因子分析属性重要性排序方法的验证/86
五、值得注意的问题和局限性/88
第五章 属性的提取与属性子集的选择/90
第一节 属性的提取190
一、小波变换/91
二、投影寻踪/92
三、多维标度/94
四、多元统计分析方法/97
五、几种属性提取方法的比较/98
第二节 属性子集的选择/99
一、属性子集选择方法的两个组成部分/99
二、属性子集选择方法的两种模式/102
三、基于各学科知识的属性子集选择方法/102
四、关于模式识别中基于距离的评价函数的思考/105
第三节 逐步向前无监督属性子集的选择方法/108
一、逐步选择方法的不足/108
二、逐步向前无监督属性子集选择方法的思路/109
三、逐步向前无监督属性子集选择方法的基本框架/110
四、统计模拟及方法验证/111
五、逐步向前无监督属性子集选择方法的合理性和局限性/113
第六章 全书的总结/117
第一节 全书的主要工作/117
第二节 尚需研究的问题/118
参考文献/119
后记/128
攻读博士学位期间发表的论文/130