1.分类:关系型 DBMS、文档型 DBMS、键值型 DBMS、对象型 DBMS
2.三级抽象:用户级、概念级、物理级
3.三级模式:外模式、概念模式、内模式
4.两级独立性:指物理独立性和逻辑独立性
1.数据模型分为概念数据模型(实体联系模型)和基本数据模型(结构数据模型)
2.概念数据模型是按照用户的观点来对数据和信息建模,主要用于数据库设计
3.基本数据模型是按照计算机系统的观点来对数据和信息建模,主要用于 DBMS 的实现
4.基本数据模型通常由数据结构、数据操作和完整 性约束三部分组成
5.基本数据模型分为层次模型、网状模型、关系模型和面向对象模型
1.基本运算:并、交、差、笛卡尔积、选择、投影、连接和除法运算。
1.1NF 是最低的规范化要求。如果关系 R 中所有属性的值域都是简单域,其元素(即属性)不可再分,是属性项而不是属性组,那么关系模型 R 是第一范式的,记作 RÎ1NF。
2.如果一个关系 R 属于 1NF,且所有的非主属性都完全依赖于主属性,记作 RÎ2NF
3.如果一个关系 R 属于 2NF,确保数据表中的每一列数据都和主键直接相关,在2NF基础上消除传递依赖
1.增加冗余列:指在多个表中具有相同的列,它常用来在查询时避免连接操作
2.增加派生列:指增加的列可以通过表中其他数据计算生成
3.重新组表:如果许多用户需要查看两个表连接出来的结果数据,则把这两个表重新组成 一个表来减少连接而提高性能
4.分割表:有时对表做分割可以提高性能。表分割有两种方式:水平分割和垂直分割
1.需求分析:调查研究,了解用户的数据要求和处理要求,并按一定格式整理需求说明书,完成的文档数据字典和数据流图
2.概念结构设计:E-R模型,提供能够识别和理解系统要求的框架;为数据库提供一个说明性结构,作为设计数据库逻辑结构,即逻辑模型的基础
3.逻辑结构设计:就是把概念结构设计阶段设计好的基本 E-R 图转换为与具 体机器上的 DBMS 产品所支持的数据模型相符合的逻辑结构
4.数据库物理设计:实际的物理设备上的存储结构和存取方法称为数据库的物理结构
1.特性:原子性、一致性、隔离性、持续性
2.并发控制
两段锁协议:扩展阶段获取封锁,收缩阶段释放锁,可串行化和发生死锁。
3.故障与恢复
分类:事务故障、系统故障、介质故障、计算机病毒
1.分片透明是指用户或应用程序不需要知道逻辑上访问的表具体是怎么分块存储的。
复制透明是指采用复制技术的分布方法,用户不需要知道数据是复制到哪些节点,如何复制的位置透明是指用户无须知道数据存放的物理位置
逻辑透明,即局部数据模型透明,是指用户或应用程序无须知道局部场地使用的是哪种数据模型。
2.架构
(1)全局外模式。它们是全局应用的用户视图,是全局概念模式的子集。
1.概念:一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策
2.框架结构
数据仓库基本功能层、数据仓库管理层、数据仓库的环境支持层
3.架构
数据源、数据的存储与管理、OLAP 服务器、前端工具
4.实现方法
自顶向下法、自底向上法和联合方法
1.技术:关联分析、序列分析、分类、预测、聚类分析及时间序列分析
2.流程:问题定义、建立数据挖掘库、分析数据、调整数据、模型化、评价和解释
1.优先:易扩展、大数据量,高性能、灵活的数据模型、高可用
1.特点: Volume:数据量大,Variety:数据种类繁多,Value:数据价值密度低,Velocity:处理速度快
2.技术:大数据采集、大数据预处理、大数据存储及管理、大数 据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全 )。
1) 文件系统具有以下特点:•针对特定应用系统设计,难度较小; •数据冗余较大,可能在多个文件中复制相同的数据属性; •以应用系统为中心组织、管理数据;•符合特定应用系统要求的文件数据很难在不同的应用系统之间共享。
2) 关系型数据库具有以下特点。 •数据结构需要符合关系模式,设计难度较大;•遵守数据库范式,数据冗余较少; •以数据库为中心组织、管理数据; •数据独立于应用系统,很容易在不同的应用系统之间共享数据。
3) 内存数据库型数据库是将数据放在内存中直接操作的数据库,使用内存型数据库将极大地提高应用的性能,同时通过数据缓存、快速算法、并行操作等的改进,使内存型数据库相对于传统的关系型数据库数据处理性能提高10倍以上,同时内存型数据库的应用受到内存大小,数据恢复要求的限制。
4)
5) SQL语句设计时,影响查询效率的设计原则是: •查询时尽量不要返回不需要的行、列;•需要进行多表连接査询时,尽量使用连接查询,避免使用子查询结构; •尽量避免采用NOTIN、NOTEXIST、LIKE等使用全表查询的操作;•尽量避免使用DISTINCT关键字。
1.分布式数据库系统与并行数据库系统的区别
分布式数据库系统与并行数据库系统具有很多相似点:它们都是通过网络连接各个数据
处理结点的,整个网络中的所有结点构成一个逻辑上统一的整体,用户可以对各个结点上的 数据进行透明存取等。但分布式数据库系统与并行数据库系统之间还是存在着显著的区别的, 主要表现在以下几个方面:
(1)应用目标不同。并行数据库系统的目标是充分发挥并行计算机的优势,利用系统 中的各个处理机结点并行地完成数据库任务,提高数据库的整体性能。分布式数据库系统主 要目的在于实现各个场地自治和数据的全局透明共享,而不要求利用网络中的各个结点来提 高系统的整体性能。
(2)实现方式不同。由于应用目标各不相同,在具体实现方法上,并行数据库与分布 式数据库之间也有着较大的区别。在并行数据库中,为了充分发挥各个结点的处理能力,各 结点间采用高速通信网络互联,结点间数据传输代价相对较低。当负载不均衡时,可以将工 作负载过大的结点上的任务通过高速通信网络送给空闲结点处理,从而实现负载平衡。在分 布式数据库系统中,各结点(场地)间一般通过局域网或广域网互联,网络带宽比较低,各 场地之间的通信开销较大,因此在查询处理时一般应尽量减少结点间的数据传输量。
(3)各结点的地位不同。在并行数据库中,各结点之间不存在全局应用和局部应用的 概念。各个结点协同作用,共同处理,而不可能有局部应用。