Spark大数据分析技术期末复习
Spark大数据分析技术期末题型作者:hyn
2022.6.25 于湘潭
题型:
选择:10 * 2’
简答:10 * 5’
编程:2 * 15’
重点:第一章
1.1.2 Spark的优点
1.1.4 Spark的生态系统
1.2.3 Spark应用执行的基本流程
1.4 Spark编程
第二章
一道编程题
几道scala语法选择题
第三章
3.1 RDD创建
3.2 RDD操作(转换,行动操作的定义、区别,宽窄依赖)
3.4 RDD持久化
第五章
(DataFrame、DataStream和RDD的联系与区别)
DataFrame的常用操作
第六章(动、静态数据)
6.1 流计算
6.2 Spark Streaming运行原理
6.5 操作DStream
第七章
7.2.1 属性图
7.2.2 GraphX图存储模式
第八章
Spark在ML上的优势
复习开始第一章Spark的优点(简答题)Spark是基于内存计算的大数据并行计算框架。
运行速度快
易用性好
通用性强
兼容性好
Spark的生态系统(选择题)
应用层: ...
机器学习期末复习
机器学习期末题型一、考试题型:
名词解释:4 * 5’ (回归分析,马尔科夫,预剪枝)-必拿分 20分
简答题:5 * 10’ (决策树条件,常见的聚类方法、卷积神经网络的计算)-拿35+分 35+分
算法改进题:15’(加惩罚项,正则项,损失函数)5+分
问答题:15’(机器学习应用于生活)-必拿分 15分
争取拿75+分
二、重点:
机器学习的应用
监督学习(分类,回归),无监督学习(聚类,降维),强化学习,深度学习
过拟合,欠拟合,泛化
评估方法:留出法,交叉验证法,自助法(重点)
线性回归:公式
**最小二乘法(改进:加正则项(岭回归,套索回归))**
必考:
决策树算法:ID3,C4.5,CART,RF(目前最好)
决策树判断条件
信息增益,信息增益率,基尼系数
HMM能解决的问题
卷积神经网络的计算:
梯度消失,梯度爆炸
常见聚类方法: 原型模型:K均值聚类
密度模型:DBSCAN
层次模型:AGNES
机器学习期末复习名词解释回归分析(重点)
回归分析是处理多变量间相 ...
软件测试技术期中考试复习
概念与应用问题
缺陷的概念,缺陷的等级?缺陷来源于什么?表现在哪些方面?
缺陷报告必须要包含的一些基本信息是什么?包括哪些部分?
决策表法(重点),决策表法设计测试用例(大题)
什么是黑盒测试?什么是白盒测试?什么是性能测试?什么是压力测试?什么是自动化测试?
边界值法的测试用例(大题)
基本路径覆盖(大题),绘制出控制流图,设计最基本的测试用例(54页)
测试需求分析需要做哪两方面的事情?
测试用例是做什么用的?用来解决什么问题?
判定覆盖的基本思想是什么?它是怎么做的?条件覆盖呢?
什么是有效等价类?什么是无效等价类?
软件测试解决了一个什么问题?:展开讨论
接口测试的一个目的何在?为什么要进行接口测试?在进行白盒/黑盒测试的时候,黑盒测试怎么测试的?他起到什么作用,在什么情况下,要用白盒测试法,白盒测试法的作用是什么?
因果图、正交法(补充)
1-4章范围之内,考察最基本的概念,主要分值在第三章
题型填空
测试需求分析需要做哪两方面的事情?
缺陷报告的主要组成部分
名词解释*20
什么是性能测试?什么是压力测试?什么是自动化测试?
缺陷的概念
...
大数据存储技术八股文
大数据存储技术八股文整理:csjh spxzx
前言:在老杨的基础之上,增添了些辅助理解的内容。重新绘制了一些图片,使它看起来更简洁易懂。删除了部分内容,redis的代码等,使文章读起来没那么硬核,降低学习门槛,让读者拥有60分飘过水平即可。
CAP理论CAP理论是分布式系统的理论基础。
一致性Consistency:在分布式系统中的所有数据备份,在同一时刻是否有同样的值
可用性Availability:在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求
分区容忍性Partition tolerance:以实际效果而言,分区相当于对通信的时限要求。系统如果不能在一定时限内达成数据一致性,就意味着发生了分区,必须就当前操作在C和A之间做出选择
高可用、数据一致是很多系统设计的目标,但是分区又是不可避免地事情,由此引出了以下几种选择:
CA without P不要求P,则C(强一致性)和A是可以保证的。(但分区始终是存在的,CA的系统更多是允许分区后各子系统依然保持CA)
典型放弃分区容忍性的例子有 关系型数据库、LDAP 等
CP without A不要求A,相当于每 ...
高级Web技术复习
高级Web技术复习@Author:HYN
2022年春季,2019级数据科学与大数据技术高级Web技术期中考试复习提纲。
Spring的两大特性及其含义
Spring的自动装配机制
Spring核心容器层组成
Spring Bean的作用域
Spring MVC框架组合注解
SpringMVC页面跳转类型
SpringMVC三大组件
Mybatis映射文件
Mybatis的核心对象
动态SQL元素
Mybatis常用注解
Mybatis映射文件中常用元素
考题预测论述题传统JDBC的劣势是什么?
频繁的创建、释放数据库连接会造成系统资源浪费
代码中的SQL语句硬编码,会造成代码不易于维护
JDBC对结果集解析存在硬编码,使得系统不易于维护
Mybatis是什么?Mybatis是一个支持普通SQL查询、存储及高级映射的持久层框架
什么是ORM?Mybatis框架是一个ORM框架。所谓的ORM就是一种为了解决面向对象与关系型数据库中数据不匹配的技术。它通过描述Java对象与数据库表之间的映射关系,自动将Java应用程序中的对象持久化到关系型数据库的数据表中。
名词解释
IOC:控制反 ...
高级Web技术实验(一)
高级Web技术实验一掌握 MyBatis 的环境搭建、核⼼配置⽂件、映射⽂件,学会使⽤基于 xml 和基于注解的 MyBatis 进⾏关 系数据库的增删查改操作。
实验要求1,技术选型:Java + Spring + MyBatis;推荐使⽤的数据库为 MySQL,引擎为 innoDB 存储引擎;
2, 实验结果在 Test 包中创建测试类,将实验结果直接输出到控制台,暂时不需要使⽤前端⻚⾯进⾏展示;
3,提交实验报告,项⽬代码推荐提交⾄ Github 并在实验报告中给出项⽬的仓库地址。
实验过程在mysql中建立mybatis库以及两张表1.我们通过Navicat建立mabatis_test库:
2.在navicat中操作,建立题目要求的两张表格:
c_course:
c_school:
数据库的建表工作已经完成,下面就是对spring以及mybatis进行配置!
配置mybatis1.通过idea创建maven项目,在resources文件夹中创建 mybatis-config.xml核心配置文件!
2.建立pojo与mapper
pojo对应实体类,里面有属性与get ...
计算机网络题库
计算机网络期末复习谨以此文,纪念博文破百,以及建站满一年.
概述简答题
1.试述分组交换的要点
分组交换的要点包括:分组转发、分段重复、独立选路。分组交换最主要的特点就是采用了存储转发技术。将完整的报文分割成为较小的数据段,在每个数据段前面加上必要的控制信息组成首部,就构成了分组。分组是在互联网中传送的数据单元。
2.互联网的两大组成部分的特点是什么?他们的工作方式各有什么特点?
边缘部分:由所有连接在互联网上的主机构成。这部分是用户直接使用的没用来通信和共享资源。
核心部分:由大量的网络和连接这些网络的路由器组成。这部分是为边缘部分提供服务的。
在边缘部分的端系统通信可划分为两个大类:C/S与P2P模式。核心部分工作方式有两种:一种是路由器转发分组,另一种是路由器之间不断交换路由信息。
3.协议和服务有什么区别?有何关系?
协议是控制对等实体之间的通信规则,是水平的。服务是下层通过接口向上层提供的功能,是垂直的。
协议的实现保证了能够向上一层提供服务。要实现本层协议还需要使用下层提供的服务。
4.网络协议的三个要素是什么?各有什么含义?
语法:数据与控制信息的 ...
计算机算法设计与分析复习
写在前面由于本课程是第一次面向本科专业开设,我身为第一届应考生,承担的考试压力要大许多。一是因为没有历年的真题供参考,另一方面是自己也并没有把太多心思放在这门课程的学习上。好在老师给出了复习提纲和样卷。那么我们就按照复习提纲和样卷来做一个全面的复习。
2021考题预测1.插入算法
2.Master定理
3.DFS/BFS
4.回溯方法解决子集树/排列树的搜索问题
5.分支界限方法解决旅行商问题(较难暂时放弃)
6.Las解决0/1背包问题
7.动态规划方法解决多段图问题
8.贪心算法求解装载问题
9.归并排序/快速排序/二分排序
10.回溯方法解决最大团问题/子集和问题
2021期末预测题目全解必须背下来的算法:
DFS123456789101112void DFS(Matrix<bool> &G,int v,vector<bool> visited,Func Visit){ int n = G.Rows();//求出顶点数 Visit(v);//访问根 Visited(v)=1;//已访问 for(int w ...
简析中国社会年轻人心理
写在前面这是一篇长期更新的博文,随着博主年龄和阅历的增长,它的内容只会越来越丰富,客观。
东北县城
计算机网络课程设计之Tracert与Ping程序设计与实现
计算机网络课程设计之Tracert与Ping程序设计与实现今天是课程设计的第二天,下午16:49,我在逸夫楼328写第三个实验。
设计题目Tracert与Ping程序设计与实现
设计内容设计一个Tracert与Ping程序。
设计步骤原理分析Tracert 程序关键是对 IP 头部生存时间(time to live)TTL 字段的使用,程序实现时是向目地主机发送一个 ICMP 回显请求消息,初始时 TTL 等于 1,这样当该数据报抵达途中的第一个路由器时,TTL 的值就被减为 0,导致发生超时错误,因此该路由生成一份 ICMP 超时差错报文返回给源主机。随后,主机将数据报的 TTL 值递增 1,以便 IP 报能传送到下一个路由器,并由下一个路由器生成 ICMP 超时差错报文返回给源主机。不断重复这个过程,直到数据报达到最终的目地主机,此时目地主机将返回 ICMP 回显应答消息。这样,源主机只需对返回的每一份 ICMP 报文进行解析处理,就可以掌握数据报从源主机到达目地主机途中所经过的路由信息。
思路步骤(1)加载套接字,创建套接字库;使用Socket的程序在使用Socket之前必须调 ...