|
18秋学期(1703)《数据挖掘》在线作业
南开作业答案
南开大学在线作业是随机作业
答案
一、单选题:
1. ()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。
A. MIN(单链)
B. MAX(全链)
C. 组平均
D. Ward方法
正确答案:——D——
2. 下面哪个属于定量的属性类型?()
A. 标称
B. 序数
C. 区间
D. 相异
正确答案:——C——
3. 下面哪个不属于数据的属性类型?()
A. 标称
B. 序数
C. 区间
D. 相异
正确答案:——D——
4. DBSCAN在最坏情况下的时间复杂度是()。
A. O(m)
B. O(m2)
C. O(logm)
D. O(m*logm)
正确答案:————
5. ()是数据挖掘类型之一,不仅寻找数据中的任何模式,而且还会寻找能够解释目标值的模式。 奥鹏答案
A. 无指导数据挖掘
B. 有指导数据挖掘
C. 聚类
D. 数据分析
正确答案:————
6. 头发颜色是描述人的一个属性。在我们的应用中,它的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色,这种属性是()。
A. 标称属性
B. 二元属性
C. 序数属性
D. 数值属性
正确答案:————
7. OLAP技术的核心是()。
A. 在线性
B. 对用户的快速响应
C. 互操作性
D. 多维分析
正确答案:————
8. 将原始数据进行集成、变换、维度归约、数值归约是在以下()步骤的任务。
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据流挖掘
正确答案:————
9. 数据仓库是随着时间变化的,下面的描述不正确的是()。
A. 数据仓库随时间的变化不断增加新的数据内容
B. 捕捉到的新数据会覆盖原来的快照
C. 数据仓库随事件变化不断删去旧的数据内容
D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
正确答案:————
10. 二元属性(binaryattribute)是一种(),只有两个类别或状态:0或1,0通常表示该属性不出现,而1表示出现。
A. 标称属性
B. 序数属性
C. 数值属性
D. 离散属性
正确答案:————
11. ()是定量的,是可度量的量,用整数或实数值表示,也可以是区间标度的或比率标度的。
A. 标称属性
B. 序数属性
C. 数值属性
D. 二元属性
正确答案:————
12. ()是一种数据变换策略,把数值属性(例如,年龄)的原始值用区间标签(例如,0~10,11~20等)或概念标签(例如,youth、adult、senior)替换。这些标签可以递归地组织成更高层概念,导致数值属性的概念分层。
A. 离散化
B. 属性构造
C. 聚集
D. 规范化
正确答案:————
13. ()是一种数据变换策略,把属性数据按比例缩放,使之落入一个特定的小区间,如-1.0~1.0或0.0~1.0。
A. 离散化
B. 属性构造
C. 聚集
D. 规范化
正确答案:————
14. 下面不属于创建新属性的相关方法的是()。
A. 特征提取
B. 特征修改
C. 映射数据到新的空间
D. 特征构造
正确答案:————
15. 下面选项中t不是s的子序列的是()。
A. s=<{2,4
B. s=<{2,4
C. s=<{1,2
D. s=<{2,4
正确答案:————
16. 通过聚集多个分类器的预测来提高分类准确率的技术称为()。
A. 组合(ensemble)
B. 聚集(aggregate)
C. 合并(combination)
D. 投票(voting)
正确答案:————
17. 分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。如:4-分位数是()个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
A. 1
B. 2
C. 3
D. 4
正确答案:————
18. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()。
A. 基于类的排序方案
B. 基于规则的排序方案
C. 基于度量的排序方案
D. 基于规格的排序方案
正确答案:————
19. ()的首要挑战是设法解决如何在二维显示上可视化高维空间。
A. 数据可视化技术
B. 几何投影技术
C. 基于图符的可视化技术
D. 像素可视化技术
正确答案:————
20. 数据仓库和OLAP工具基于()数据模型。该模型将数据看作数据立方体(datacube)形式。
A. 单个
B. 二维
C. 多维
D. 三维
正确答案:————
二、多选题:
21. 以下哪些学科和数据挖掘有密切联系()?
A. 统计
B. 计算机组成原理
C. 矿产挖掘
D. 人工智能
正确答案:————
22. 在银行和金融机构中产生的金融数据通常相对比较(),这大大方便了系统化的数据分析和数据挖掘。
A. 完整
B. 可靠
C. 高质量
D. 不可靠
正确答案:————
23. 光滑(smoothing)是一种数据变换策略,即去掉数据中的噪声。这类技术包括()。
A. 分箱
B. 回归
C. 聚类
D. 分类
正确答案:————
24. 数据变换中,数据被变换或统一成适合于挖掘的形式。数据变换策略包括:()由标称数据产生概念分层。
A. 光滑
B. 属性构造
C. 聚集
D. 规范化
正确答案:————
25. 在评价不平衡类问题分类的度量方法有如下几种()。
A. F1度量
B. 召回率(recall)
C. 精度(precision)
D. 真正率(turepositiverate,TPR)
正确答案:————
26. 数据质量涉及许多因素,包括准确性、完整性、()。
A. 一致性
B. 时效性
C. 可信性
D. 可解释性
正确答案:————
27. 数据仓库的特征有:()。
A. 面向主题的
B. 集成的
C. 时变的
D. 非易失的
正确答案:————
28. 数据挖掘可用于任何类型的数据,对于挖掘的应用,数据的最基本形式是()。
A. 数据库数据
B. 数据仓库数据
C. 事务数据
D. 文本数据
正确答案:————
29. 下面哪些属于可视化高维数据技术()?
A. 矩阵
B. 平行坐标系
C. 星形坐标
D. Chernoff脸
正确答案:————
30. 数据挖掘的预测建模任务主要包括()。
A. 分类
B. 回归
C. 模式发现
D. 模式匹配
正确答案:————
三、判断题:
31. 多维关联包括多个维。
T. 对
F. 错
正确答案:————
32. 数据挖掘带来的主要社会关注是隐私和数据安全问题。
T. 对
F. 错
正确答案:————
33. 由标称数据产生概念分层是一种数据变换策略,属性,如street,可以泛化到较高的概念层,如city或country。许多标称属性的概念分层都蕴含在数据库的模式中,可以在模式定义级自动定义。
T. 对
F. 错
正确答案:————
34. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
T. 对
F. 错
正确答案:————
35. 数据清理通常是一个两步的迭代过程,包括偏差检测和数据变换。
T. 对
F. 错
正确答案:————
36. 如果将顾客按信用风险分类,则可以用具有相同信用风险的顾客的平均收入替换income中的缺失值。
T. 对
F. 错
正确答案:————
37. 用于分类的离散化方法之间的根本区别在于是否使用类信息。
T. 对
F. 错
正确答案:————
38. 在数据挖掘之前对数据进行预处理,可以显著地提高挖掘模式的总体质量,减少实际挖掘所需要的时间。
T. 对
F. 错
正确答案:————
39. 数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。
T. 对
F. 错
正确答案:————
40. 分箱也可以作为一种离散化技术使用。
T. 对
F. 错
正确答案:————
41. 一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。
T. 对
F. 错
正确答案:————
42. 数据质量包括:准确性、完整性、一致性、实效性、可信性和可解释性,其中,数据质量的三要素是:准确性、完整性和一致性。
T. 对
F. 错
正确答案:————
43. 概念分层是一种数据离散化形式,也可以用于数据光滑。例如,price的概念分层可以把实际的price的值映射到便宜、适中和昂贵,从而减少了挖掘过程需要处理的值的数量。
T. 对
F. 错
正确答案:————
44. 离散属性总是具有有限个值。
T. 对
F. 错
正确答案:————
45. 聚类分析是获得数据分布情况的有效方法。通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分等方面具有广阔的应用前景。
T. 对
F. 错
正确答案:————
46. 中位数是一种中心趋势度量,中位数总是唯一的。
T. 对
F. 错
正确答案:————
47. 好的数据库和数据输入设计将有助于在第一现场把缺失值或错误的数量降至最低。
T. 对
F. 错
正确答案:————
48. 物理数据模型设计的主要内容包括确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。
T. 对
F. 错
正确答案:————
49. 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
T. 对
F. 错
正确答案:————
50. 数据挖掘和其他任何一种技术一样,它的应用有好的一面也有坏的一面。因为数据挖掘揭示不容易发现的模式或各种知识,如果不正确使用的话,它可能对隐私和信息安全构成威胁。
T. 对
F. 错
正确答案:————
奥鹏作业答案
【注意】南开大学在线作业是随机作业
|
|