南开20秋学期《数据分析》在线作业（题目随机）

网院作业 · 发表于 2020-11-1 10:21:14

[南开大学]20秋学期（1709、1803、1809、1903、1909、2003、2009）《数据分析》在线作业
试卷总分100得分100
QQ 515224986
答案来源www.openhelp100.com
第1题反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念
A、训练误差
B、测试误差
C、统计误差
D、平均误差
正确答案
第2题支持向量机的MapReduce实现要进行几轮MapReduce
A、1
B、2
C、3
D、自行规定
正确答案
第3题类的R型聚类是指
A、对样本个体进行聚类
B、对指标变量进行聚类。
正确答案
第4题在估计PLSA生成模型的参数时，使用
A、极大似然估计答案来源www.openhelp100.com
南开作业QQ 515224986
B、对数似然函数
C、特征独立假设
D、贝叶斯定理
正确答案
在链接作弊的垃圾农场中，作弊者拥有并完全控制的网页称为
A、不可达网页
B、可达网页
C、自有网页
正确答案
第6题潜在语义分析创新地引入了
A、单词维度
B、文本维度
C、话题维度
正确答案
第7题非频繁模式
A、其置信度小于阈值
B、令人不感兴趣
C、包含负模式和负相关模式
D、对异常数据项敏感
正确答案
第8题置信度(confidence)是衡量兴趣度度量的指标
A、简洁性
B、确定性
C、实用性
D、新颖性
正确答案
第9题决策树中的叶结点表示
A、特征
B、类
C、属性
D、值域输出
正确答案
数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段。
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
正确答案
第11题文本中所有单词的出现情况表示了文本的
A、种类
B、特征
C、语义内容
D、语义结构
正确答案
闵式距离参数是时代表曼哈顿距离
A、0
B、1
C、2
D、无穷
正确答案
第13题为了计算中介度，必须计算所有边上的数目。
A、所有路径
B、最短路径
C、结点入度
D、节点出度
正确答案
第14题聚类属于
A、有监督学习
B、无监督学习
C、强化学习
D、对抗学习
正确答案
评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是。
A、准确率
B、精确率
C、召回率
D、F1值
正确答案
第16题逻辑斯谛分布的分布函数范围在
A、(∞，+∞)
B、(01)
C、(1/21/2)
D、(11)
正确答案
第17题Apriori算法的加速过程依赖于以下哪个策略（）
A、抽样
B、剪枝
C、缓冲
D、并行
正确答案
第18题向量空间模型中，将单词在文本中出现的数据用一个表示
A、单词文本矩阵
B、单词向量矩阵
C、距离矩阵
D、权重矩阵
正确答案
第19题潜在语义分析中，以表示文本的语义内容
A、话题
B、话题向量
C、语义向量
D、距离向量
正确答案
KNN算法用MapReduce实现，要进行几轮MapReduce
A、1
B、2
C、3
D、4
正确答案
第21题按社团形成机制分类，社团包括
A、明显的社团
B、预定义社团
C、自组织社团
D、隐含的社团
正确答案C
第22题决策树的生成过程是
A、递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类
B、如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去
C、构建根结点，将所有训练数据都放在根结点
D、选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类
E、如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点
正确答案
第23题回归分析方法中，按照输入变量个数分类，可分为
A、一元回归
B、多元回归
C、线性回归
D、非线性回归
正确答案
第24题下列哪些任务适合构建分类模型
A、银行业务中，客户申请贷款，根据客户的相关数据分析他是属于&quot诚信&quot类还是&quot失信&quot类
B、邮件系统可以根据email标题和内容区分出垃圾邮件
C、医学研究人员根据病理数据，合理辨识病情状况，采取合理治疗手段
D、房价预测
正确答案
ID3算法流程为
A、从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点
B、所有特征的信息增益均很小或没有特征可以选择
C、得到一个决策树
D、对子结点递归地调用，构建决策树
正确答案
第26题大数据在电信中的应用有
A、基于用户、业务及流量分级的多维管控机制
B、精准的客户分析及营销
C、利用位置和轨迹信息服务社会
正确答案BC
第27题统计学习方法的组成
A、监督学习
B、无监督学习
C、强化学习
正确答案
第28题大数据在教育中的应用
A、网上公开课
B、慕课
C、智慧校园
D、翻转课堂
正确答案BCD
第29题下列属于朴素贝叶斯缺点的是
A、分类效果不稳定
B、不适合增量式训练
C、先验模型可能导致结果不佳
D、对缺失数据不太敏感
正确答案D
基于分类对象的分类有
A、Q型聚类
B、凝聚方式
C、R型聚类
D、分解方式
正确答案
第31题kNN算法中，选择较大的k值&quot学习&quot的估计误差会减小。
T、对
F、错
正确答案
第32题SVM是在特征空间上的间隔最大的线性分类器。
T、对
F、错
正确答案
第33题可信度是对关联规则的准确度的衡量。
T、对
F、错
第34题要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的学习目的
T、对
F、错
正确答案
第35题如果一个网页被很多网页所指向，那么该网页很可能是重要的。
T、对
F、错
正确答案
第36题FPgrowth算法可以避免冗余的IO读写
T、对
F、错
第37题通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习。
T、对
F、错
正确答案
第38题大数据的速度快体现在数据产生速度快和要求分析处理速度快
T、对
F、错
第39题ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。
T、对
F、错
正确答案
第40题数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
T、对
F、错
正确答案
第41题TrustRank算法中，创建优质网页集合时，不会选择成员受限的域名。
T、对
F、错
正确答案
第42题聚类分析中，一个类是样本的一个子集。
T、对
F、错
正确答案
第43题决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。
T、对
F、错
正确答案
第44题k均值聚类是硬聚类。
T、对
F、错
正确答案
第45题关联规则可以用枚举的方法产生。
T、对
F、错
第46题DAG中的父节点是唯一的。
T、对
F、错
正确答案F
第47题PageRank算法是图数据上的无监督学习方法。
T、对
F、错
正确答案
第48题TFIDF算法中，IDF指的是文档频率
T、对
F、错
正确答案
第49题监督学习是从标注数据中学习预测模型的机器学习问题
T、对
F、错
正确答案
朴素贝叶斯等价于期望风险最小化。
T、对
F、错
正确答案

答案来源www.openhelp100.com
QQ 515224986

		自动登录	找回密码
密码			立即注册