|
18秋学期(1709、1803、1809)《数据挖掘》在线作业
南开作业答案
【奥鹏南开大学在线作业是随机作业】
一、单选题:
1. 考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。
A. 平方欧几里德距离
B. 余弦距离
C. 直接相似度
D. 共享最近邻
正确答案:——D——
2. 下列()不是将主观信息加入到模式发现任务中的方法。
A. 与同一时期其他数据对比
B. 可视化
C. 基于模板的方法
D. 主观兴趣度量
正确答案:——A——
3. 下列度量不具有反演性的是()。
A. 系数
B. 几率
C. Cohen度量
D. 兴趣因子
正确答案:——D——
4. 决策树学习:决策树算法对数据处理过程中,将数据按()结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。
A. 树状
B. 网状
C. 星形
D. 雪花形
正确答案:————
5. 二元属性(binaryattribute)是一种(),只有两个类别或状态:0或1,0通常表示该属性不出现,而1表示出现。
A. 标称属性
B. 序数属性
C. 数值属性
D. 离散属性
正确答案:————
6. ()的基本思想是将每个数据值映射成一个带颜色的像素,根据数据集的维数把屏幕分为若干个子窗口,每个子窗口显示数据的一维。
A. 数据可视化技术
B. 数据库系统
C. 基于图符的可视化技术
D. 像素可视化技术
正确答案:————
7. 以下是()聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。
A. MST
B. OPOSSUM
C. Chameleon
D. Jarvis-Patrick(JP)
正确答案:————
8. 以下哪种方法不属于特征选择的标准方法?()
A. 嵌入
B. 过滤 奥鹏作业答案
C. 包装
D. 抽样
正确答案:————
9. 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为()。
A. 18.3
B. 22.6
C. 26.8
D. 27.9
正确答案:————
10. 假设销售经理希望预测一位给定的顾客在某次购物期间将花费多少钱,该数据分析任务就是()的一个例子。
A. 数值预测
B. 分类
C. 聚类
D. 决策树
正确答案:————
11. 以下哪些算法是基于规则的分类器?()
A. C4.5
B. KNN
C. NaiveBayes
D. ANN
正确答案:————
12. 下面选项中t不是s的子序列的是()。
A. s=<{2,4
B. s=<{2,4
C. s=<{1,2
D. s=<{2,4
正确答案:————
13. ()是定量的,是可度量的量,用整数或实数值表示,也可以是区间标度的或比率标度的。
A. 标称属性
B. 序数属性
C. 数值属性
D. 二元属性
正确答案:————
14. BIRCH是一种()。
A. 分类器
B. 聚类算法
C. 关联分析算法
D. 特征选择算法
正确答案:————
15. 决策树中不包含以下哪种结点?()
A. 根结点(rootnode)
B. 内部结点(internalnode)
C. 外部结点(externalnode)
D. 叶结点(leafnode)
正确答案:————
16. 下面不属于创建新属性的相关方法的是()。
A. 特征提取
B. 特征修改
C. 映射数据到新的空间
D. 特征构造
正确答案:————
17. ()把所有维划分成子集(即子空间),这些子空间按层次可视化。
A. 层次可视化技术
B. 几何投影技术
C. 基于图符的可视化技术
D. 像素可视化技术
正确答案:————
18. ()可能使挖掘过程陷入混乱,导致不可靠的输出。
A. 脏数据
B. 一致性数据
C. 可信性数据
D. 可解释性数据
正确答案:————
19. ()也影响数据的质量。如:假设你正在监控某一个高端销售代理的月销售红利分布,旦一些销售代理未能在月末及时提交销售记录。
A. 时效性
B. 可信性
C. 可解释性
D. 正确性
正确答案:————
20. 下面关于数据粒度的描述不正确的是()。
A. 粒度是指数据仓库小数据单元的详细程度和级别
B. 数据越详细,粒度就越小,级别也就越高
C. 数据综合度越高,粒度也就越大,级别也就越高
D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量
正确答案:————
二、多选题:
21. 数据时代的“4V”是指()。
A. 数据量大volume
B. 多样化variety
C. 速度快velocity
D. 价值大:value
正确答案:————
22. 神经网络的优点有:()
A. 预测的准确率通常很高
B. 强壮性好,当训练样本包含错误时很有效
C. 输出可以是离散的、实数值的或几个离散或实数值属性的向量
D. 学习目标函数的快速评估
正确答案:————
23. 以下属于分类器评价或比较尺度的有()。
A. 预测准确度
B. 召回率
C. 模型描述的简洁度
D. 计算复杂度
正确答案:————
24. 代表同一概念的属性在不同的数据库中可能具有不同的名字,导致()。例如,关于顾客标识的属性在一个数据库中可能是customer_id,而在另一个中为cust_id。命名的不一致还可能出现在属性值中。
A. 不一致性
B. 冗余
C. 备份
D. 安全
正确答案:————
25. 电信数据的()等是利用数据挖掘改进电信服务的具体应用。
A. 多维分析
B. 盗用模式分析
C. 异常模式识别
D. 单模式分析
正确答案:————
26. 数据变换中,数据被变换或统一成适合于挖掘的形式。数据变换策略包括:()由标称数据产生概念分层。
A. 光滑
B. 属性构造
C. 聚集
D. 规范化
正确答案:————
27. 数据仓库的特征有:()。
A. 面向主题的
B. 集成的
C. 时变的
D. 非易失的
正确答案:————
28. ()都是某种形式的数据变换(datatransformation)。
A. 规范化
B. 数据离散化
C. 概念分层产生
D. 数据归约
正确答案:————
29. 数据挖掘可用于任何类型的数据,对于挖掘的应用,数据的最基本形式是()。
A. 数据库数据
B. 数据仓库数据
C. 事务数据
D. 文本数据
正确答案:————
30. 离群点的类型包括:()。
A. 全局离群点
B. 情境离群点
C. 集体离群点
D. 单独离群点
正确答案:————
三、判断题:
31. 属性是一个数据字段,表示数据对象的一个特征。在文献中,属性(attribute)、维(dimension)、特征(feature)和变量(variable)可以互换地使用。
T. 对
F. 错
正确答案:————
32. 由标称数据产生概念分层是一种数据变换策略,属性,如street,可以泛化到较高的概念层,如city或country。许多标称属性的概念分层都蕴含在数据库的模式中,可以在模式定义级自动定义。
T. 对
F. 错
正确答案:————
33. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。
T. 对
F. 错
正确答案:————
34. 聚类分析(无指导:聚类)是把总体中性质相近的归为一类,把性质不相近的归为其他类。判别分析(有指导:分类)是:已知总体分类,判别样本属于总体中的哪一类。
T. 对
F. 错
正确答案:————
35. 聚类分析的基本思想认为所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位。
T. 对
F. 错
正确答案:————
36. 数据清理(datacleaning)例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据。
T. 对
F. 错
正确答案:————
37. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
T. 对
F. 错
正确答案:————
38. 标签云是关键词的视觉化描述,用于汇总用户生成的标签。标签一般是独立的词汇,常常按字母顺序排列,其重要程度又能通过改变字体大小或颜色来表现,大多数标签本身就是超级链接,直接指向与标签相联的一系列条目。
T. 对
F. 错
正确答案:————
39. 频繁模式是在数据中频繁出现的模式,存在多种类型:频繁项集、频繁子结构、频繁子序列。
T. 对
F. 错
正确答案:————
40. 遗传算法是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。
T. 对
F. 错
正确答案:————
41. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
T. 对
F. 错
正确答案:————
42. 关系数据库是数据挖掘的最常见、最丰富的信息源,因此是数据挖掘研究的一种主要数据形式。
T. 对
F. 错
正确答案:————
43. 聚类分析是获得数据分布情况的有效方法。通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分等方面具有广阔的应用前景。
T. 对
F. 错
正确答案:————
44. 离群点分析(outlieranalysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点。
T. 对
F. 错
正确答案:————
45. 特征提取技术并不依赖于特定的领域。
T. 对
F. 错
正确答案:————
46. 孤立点指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
T. 对
F. 错
正确答案:————
47. 数据挖掘和其他任何一种技术一样,它的应用有好的一面也有坏的一面。因为数据挖掘揭示不容易发现的模式或各种知识,如果不正确使用的话,它可能对隐私和信息安全构成威胁。
T. 对
F. 错
正确答案:————
48. 可以用一个函数拟合数据来光滑数据。这种技术称为回归。
T. 对
F. 错
正确答案:————
49. 产生技术结果只是数据挖掘过程第一步的结束。能够与其他人一起工作、交流结果,并认识到真正的需求是作为一名好的数据挖掘人员至关重要的技能。
T. 对
F. 错
正确答案:————
50. 稀有模式很少出现,但特别有趣。
T. 对
F. 错
正确答案:————
【奥鹏南开大学在线作业是随机作业】
|
|