南开20秋学期《网络爬虫与信息提取》在线作业（题目随机）

网院作业 · 发表于 2020-11-5 14:09:48

[南开大学（本部）]20秋学期（1709、1803、1809、1903、1909、2003、2009）《网络爬虫与信息提取》在线作业
试卷总分100得分100
作业QQ 515224986
答案来源www.openhelp100.com
第1题()是Scrapy官方开发的用来部署、运行和管理Scrapy爬虫的工具
A、Scrapyd
B、ScrapyDeploy
C、Deploy
D、Scrapy_Deploy
正确答案
第2题当爬虫创建好了之后可以使用&quotscrapy()&quot命令运行爬虫。
A、startup
B、starwar
C、drawl
D、crawl
正确答案
第3题在Scrapy的目录下哪个文件负责存放爬虫的各种配置信息?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案
第4题使用UIAutomatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
A、swipe
B、move
C、scroll 答案来源www.openhelp100.com
南开作业QQ 515224986
D、fly
正确答案
windows中创建定时任务的命令为
A、task
B、schtasks
C、createtasks
D、maketasks
正确答案
第6题MongoDB中数据存储的形式类似于()
A、列表
B、元组
C、字典
D、集合
正确答案
第7题requests中post请求方法的使用为requests.post(网址data=data)中的data为()
A、列表
B、元组
C、字典
D、集合
正确答案
第8题Python中把列表转换为集合需要使用##函数
A、set
B、list
C、convert
D、change
正确答案
第9题使用了RedisSpider作为爬虫的父类以后爬虫会直接监控()中的数据并不读取start_urls中的数据。
A、Redis
B、RedisSpider
C、Spider
D、MongoDB
正确答案
在MacOS下安装MongoDB使用命令()installmongodb
A、brew
B、aptget
C、sudo
D、apt
正确答案
第11题当需要把Python里面的数据发送给网页时应先将其转换成()
A、Json字符串
B、GET
C、POST
D、Request
正确答案
服务器端记录信息确定用户身份的数据是
A、session
B、cookies
C、moonpies
D、localstorage
正确答案
第13题下列说法错误的是()
A、小程序的请求极其简单，基本上没有验证信息
B、用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多。
C、如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据。
D、小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率。
正确答案
第14题下面Python代码输出为()
defdefault_para_trap(para=[]value=0)para.append(value)returnparaprint(第一步{}.format(default_para_trap(value=100)))print(第二步{}.format(default_para_trap(value=50)))
A、第一步[100]
第二步[10050]
B、第一步[100]
第二步[50]
C、第一步[100]
第二步[]
D、第一步[100]
第二步[100]
正确答案
在Scrapy的目录下哪个文件负责存放爬虫文件?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案
第16题xpath中extract方法返回值类型是()
A、列表
B、元组
C、字典
D、集合
正确答案
第17题参数headers=()把请求头添加到Scrapy请求中使爬虫的请求看起来像是从浏览器发起的。
A、HEADER
B、HEADERS
C、HEAD
D、BODY
正确答案
第18题Python中Object=(12345)则Objcet是()
A、列表
B、元组
C、字典
D、集合
正确答案
第19题在Scrapy的目录下哪个文件负责定义需要爬取的数据?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案
Scrapy中使用Xpath获得的结果调用了.extract方法结果以()形式生成
A、列表
B、元组
C、字典
D、集合
正确答案
第21题Python中的容器有()
A、列表
B、元组
C、字典
D、集合
正确答案BCD
第22题使用Selennium获取网页中元素的方法有
A、find_element_by_name
B、find_element_by_id
C、find_elements_by_name
D、find_elements_by_id
正确答案BCD
第23题一个可行的自动更换代理的爬虫系统应该下列哪些功能?
A、有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证，将可以使用的代理IP保存到数据库中
B、在发现某个请求已经被设置过代理后，什么也不做，直接返回
C、在ProxyMiddlerware的process_request中，每次从数据库里面随机选择一条代理IP地址使用
D、周期性验证数据库中的无效代理，及时将其删除
正确答案CD
第24题下列关于在IOS上配置charles的说法正确的是()
A、不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口。
B、手机和电脑需要在同一个局域网下。
C、HTTP代理可以使用&quot自动&quot选项。
D、安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动
正确答案D
下列说法错误的是()
A、mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本，并在Python脚本里面直接操作HTTP和HTTPS的请求，以及返回的数据包。
B、命令行中执行mitmdumpsparse_request.py即可运行python脚本
C、使用python可以自定义返回的数据包，如response.headers，就是返回的头部信息
D、如果返回的是JSON类型的字符串，python无法进行解析。
正确答案
第26题以下HTTP状态码表示服务器本身发生错误的是
A、400
B、503
C、302
D、500
正确答案D
第27题Python中哪种容器生成后可以修改内容
A、列表
B、元组
C、字典
D、集合
正确答案CD
第28题以下HTTP状态码表示服务器没有正常返回结果的是
A、200
B、301
C、404
D、500
正确答案CD
第29题如果目标网站有反爬虫声明那么对方在被爬虫爬取以后可以根据()来起诉使用爬虫的公司
A、服务器日志
B、数据库日志记录
C、程序日志记录
D、服务器监控
正确答案BCD
requests中post请求方法的第二个参数可以为()
A、字典
B、列表
C、json数据
D、字符串
正确答案C
第31题process_spider_output(responseresultoutput)是在下载器中间件处理完成后马上要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案F
第32题需要登录的网站一般通过GET请求就可以实现登录。
T、对
F、错
正确答案F
第33题Python中相比于findall方法search方法对于从超级大的文本里面只找第1个数据特别有用可以大大提高程序的运行效率。
T、对
F、错
第34题UIAutomatorViewer与Pythonuiautomator可以同时使用
T、对
F、错
正确答案F
第35题device.sleep()方法是使用UIAutomatorr关闭屏幕的命令
T、对
F、错
第36题在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致因为这样才能隐藏好自己达到获取数据的目的
T、对
F、错
正确答案F
第37题mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
T、对
F、错
第38题MongoDB是一个关系数据库产品
T、对
F、错
正确答案F
第39题Python正则表达式中&quot.*?&quot是非贪婪模式获取最短的能满足条件的字符串。
T、对
F、错
第40题Charles能截获HTTP和HTTPS的数据包如果网站使用websocket就可以截获。
T、对
F、错
正确答案F
第41题Charles和Chrome开发者工具相比只是多了一个搜索功能。
T、对
F、错
正确答案
第42题爬虫中间件的激活需要另外写一个文件来进行
T、对
F、错
正确答案F
第43题Cookies一般包含在请求头Headers中
T、对
F、错
第44题已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
T、对
F、错
正确答案F
第45题如果目标网站本身就是提供公众查询服务的网站那么使用爬虫是合法合规的。
T、对
F、错
第46题Redis中使用lrange读取数据后数据也会删除
T、对
F、错
正确答案
第47题开源库pytesseract的作用是将图像中文字转换为文本。
T、对
F、错
第48题Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据在Redis中把这个Key删除即可。
T、对
F、错
第49题&quotcurlhttp//爬虫服务器IP地址6800/cancel.jsondproject=工程名djob=爬虫JOBID&quot该命令的作用是启动爬虫
T、对
F、错
正确答案
中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术
T、对
F、错
正确答案

答案来源www.openhelp100.com
作业QQ 515224986

		自动登录	找回密码
密码			立即注册