数据库半年度大盘点:国内外数据库重大更新解析

发表时间: 2024-07-18 11:06

2024上半年行业回顾

数据库技术呈多元化发展

国产产品下沉应用场景成效不俗


2024年上半年,数据库行业呈现出一系列新态势,其中,国内厂商成为了推动进步的关键角色。基于近些年的积累,国产数据库已经下沉到更深层次的应用场景,并取得不少瞩目的成绩。技术层面上,国产数据库在分布式、多模、向量、AI、云服务与云原生技术、安全、兼容等方面均有了显著进步,并在实际应用中展现出了成效。


分布式数据库领域内,产品不仅实现了规模化应用,且通过行业经验分享加快了实践的步伐。HTAP和多模等特性的引入,极大地扩展了分布式数据库的应用范围;与此同时,国内集中式数据库技术也取得了突破性进展,相关产品逐渐成熟,提供了更为平滑的替代方案,成为众多国内用户的首选。


此外,异构模型数据库产品,如图数据库、时序数据库和向量数据库等,开始受到市场的广泛关注。在传统数据库中,对JSON等类型的支持也日益增强,场景化的应用成为这些技术发展的关键。特别是向量数据库,在近半年来涌现出一批国内厂商的相关产品,这一细分领域的新产品正受到更多关注。


上半年,ChatGPT的热潮也影响到了数据库行业,许多国内数据库产品开始集成自主SQL生成和智能优化等功能,更有头部大厂直接将AI命名为产品后缀,加速提升AI与数据库的结合,相信后续这一能力将是数据库发展的新的竞争热点;在云产品方面,云原生与Serverless仍然是各家追逐的目标,更为灵活、更具弹性的云产品不断涌现;在数据分析领域,湖仓一体和融合型数据仓库的发展迅速,成为投资者关注的焦点;数据安全、软硬件结合以及数据治理等方面也取得了显著的进步。特别是数据安全方面,各家厂商都将安全增强作为产品能力必不可少的一环,并持续增强。


在市场方面,国内数据库厂商之间的竞争日益激烈。头部厂商并驾齐驱的同时,一些新兴厂商也迅速崛起,取得了显著成绩。这反映了国内数据库行业正在经历快速的洗牌过程,预示着将有一批厂商和产品在激烈的市场竞争中站稳脚跟,赢得用户信任。在国际权威的云数据库象限分析中,多家国内厂商未能进入主要报告,仅在荣誉榜单中被提及。这意味着国产数据库还需加快发展步伐,从价格战中抽身,专注于提升产品能力,并加速海外市场布局,以更全面地参与全球竞争。




数据库产品半年度盘点

主流数据库的版本升级与更新亮点



dbaplus社群携手一众数据库行业专家,汇总、梳理并提炼出主流数据库近半年的版本更迭、性能优化、功能提升等关键信息,希望对大家了解数据库发展趋势,以及数据库选型工作有所帮助和启发。


本期要点

DB-Engines数据库排行榜

一、RDBMS

  • Oracle 23ai发布
  • MySQL发布创新版8.3、9.0及首个长期稳定版8.4
  • MariaDB 11.4中的变化和改进
  • PostgreSQL发布17.1新版本/更新16、15、14、13、12版本
  • OceanBase发布面向实时分析OLAP负载的里程碑版本
  • TiDB发布8.1.0 LTS版本和7.6.0、8.0.0两个DMR版本

二、大数据生态圈

  • Elasticsearch发布三个大版本
  • Apache Flink发布1.19.0版本
  • ClickHouse发布24.1、24.2、24.3、24.4、24.5等版本
  • Apache Doris发布2.1.0-2.1.4及2.0.4-2.0.12等多个版本
  • SelectDB 2024上半年技术更新汇总
  • StarRocks发布3.1.x及3.2.x更新版本与3.3 RC版本

三、国产数据库

  • 达梦数据库更新DM8.1版本
  • 巨杉文档型数据库发布v5.8版本更新
  • ActionDB 2024上半年技术更新汇总
  • AntDB 8.2超融合数据库版本更新,并发布智能运维“三剑客”

四、云数据库

  • PolarDB发布PostgreSQL 15版本、分布式V2.4.0版本
  • 腾讯云2024上半年数据库产品更新汇总
  • 京东云2024上半年数据库产品更新汇总
  • ByConity 0.4.0版本发布
  • 拓数派升级云原生虚拟数仓PieCloudDB和向量数据库PieCloudVector

2023年度Newsletter回顾&下载

推出dbaplus Newsletter的想法

感谢名单


为方便阅读、重点呈现,本文对各板块内容进行了精简,需阅读完整版可点击文末【阅读原文】或登录云盘下载:



https://pan.baidu.com/s/1cgCp7fyzhuZP8nlV6BVnOA?pwd=2406(提取码:2406)


DB-Engines数据库排行榜


以下取自2024年6月的数据,具体信息可以参考
http://db-engines.com/en/ranking/,数据仅供参考。



DB-Engines排名的数据依据5个不同的因素:

  • Google以及Bing搜索引擎的关键字搜索数量
  • Google Trends的搜索数量
  • Indeed网站中的职位搜索量
  • LinkedIn中提到关键字的个人资料数
  • Stackoverflow上相关的问题和关注者数


RDBMS



Oracle 23ai发布


2024年5月2日, Oracle Database 23ai正式发布。在过去四年中,Oracle数据库开发部门一直在努力研发Oracle数据库的下一个长期支持版本,重点是AI和开发人员的工作效率。鉴于此版本数据库中对AI的关注,Oracle Database 23c更名为Oracle Database 23ai。Oracle Database 23ai专注于三个关键领域:AI for Data、数据开发、数据关键任务。


Oracle Database 23ai现已在Oracle Exadata Cloud@Customer、OCI Exadata数据库服务和OCI基础数据库服务上推出,Azure Oracle数据库服务中也有提供。对于开发人员,Oracle Database 23ai可在Always Free自治数据库中使用,也可在Autonomous Database 23ai Container Image和Oracle Database 23ai Free中下载。Oracle GoldenGate 23ai和GoldenGate 23ai免费版也可供下载。Oracle Database 23ai for Linux(OL & RHEL 8/9)和Windows的本地部署版本将很快推出,其他平台将在未来几个月内推出。有关详细信息,可查看Oracle Support说明文档ID 742060.1。



MySQL发布创新版8.3、9.0及首个长期稳定版8.4


2024年上半年,MySQL 8.0发布了两个版本,包括8.0.36和8.0.37,这些版本主要是bug修复;而创新版发布了8.3,且发布了首个长期稳定版本8.4,推出了不少新特性。此外,在本期Newsletter发布之前,MySQL发布了创新版9.0(2024年7月1日),以下是对上述所有版本的简要介绍。


一、MySQL 8.0.37起放宽克隆插件版本要求


8.0.37开始,放宽了克隆插件版本要求,允许在同一系列中的不同补丁版本之间进行克隆。换言之,只需主版本号和次版本号匹配,以前还要求补丁版本号也需匹配。例如,克隆功能现在允许从8.4.0克隆到8.4.14,以及从8.0.51克隆到8.0.37。但对于8.0系列,早于8.0.37的版本仍然受以前的限制,因此不允许从8.0.36克隆到8.0.42或反之亦然。


二、创新版MySQL 8.3的重要更新


1、FLUSH HOSTS语句在MySQL 8.0.23中已弃用,已被删除。要清除主机缓存,请truncate Performance Schema的host_cache表或改用mysqladmin flush-hosts。


2、组复制:
group_replication_set_as_primary()现在等待DDL和DCL语句完成,然后再选择新的主节点。


3、删除--innodb和--skip-innodb服务器选项。从MySQL 5.6版本起,innoDB作为默认的存储引擎,--innodb和--skip-innodb服务器选项已经失去存在的意义,在此版本正式删除。


4、删除InnoDB memcached插件。该插件在8.0.22中降级使用,在此版本中正式删除。


5、删除MySQL复制中部分服务器选项和变量。这些变量在之前的版本进行了降级使用,在此版本中正式删除,包括:

  • --slave-rows-search-algorithms
  • log_bin_use_v1_events
  • --relay-log-info-file
  • --relay-log-info-repository
  • --master-info-file
  • --master-info-repository
  • transaction_write_set_extraction
  • group_replication_ip_whitelist
  • group_replication_primary_member


6、禁止使用非空的“IGNORE_SERVER_IDS”列表。从此版本起,当开启基于GTID进行复制时,将不再允许“CHANGE REPLICATION SOURCE TO”指向一个非空的“IGNORE_SERVER_IDS”列表,(由于“IGNORE_SERVER_IDS”与GTID模式不兼容,在8.0中已经降级处理),同理,如果一个已经存在的复制通道,在创建时使用了忽略服务器的列表,当其开启GTID模式时,也将报错。用户可以使用“CHANGE REPLICATION SOURCE TO IGNORE_SERVER_IDS = ();”清空忽略的服务器列表。


7、GTID扩展格式。基于GTID的复制扩展了GTID的格式,用户可以为GTID打上标签,方便对一组事务进行识别管理。新的格式为“UUID:<TAG>:NUMBER”,“<TAG>”是任意字符串,可以通过“SET gtid_next”进行设置,并在当前会话中持久有效。


8、增加了“
explain_json_format_version”系统变量,用于“EXPLAIN FORMAT=JSON”语句。1为默认值,与之前的格式一致,2是基于访问路径的,目的为未来的优化器提供更好的兼容性。


三、MySQL 8.4长期稳定版(LTS)的重要更新


1、该版本新增了直方图自动更新的支持。启用此功能后,每当在父表上运行ANALYZE TABLE时,直方图会自动更新。启用自动更新时,InnoDB在自动重新计算持久性统计信息时也会更新直方图。


2、删除了已弃用的mysql_upgrade实用程序,该实用程序自MySQL 8.0.16以来不提供任何功能。


3、认证插件:默认情况下,“mysql_native_password”认证插件被禁用,如果用户需要兼容旧的应用程序,需要在启动MySQL服务器时,启用该插件“--mysql-native-password=on”。


4、主从复制中“SOURCE_RETRY_COUNT”选项值变更为10,默认情况下,主从复制将在10分钟内,每60秒尝试一次重新连接。


5、主从复制中的“START REPLICA”的“SQL_AFTER_GTIDS”选项支持多线程回放(MTA)。


6、主从复制中使用的大量“MASTER”/”SLAVE”被删除,用户需要使用“SOURCE”/“REPLICA”替代。


7、“mysqldump”中增加“--output-as-version”选项,支持从8.2以后版本的MySQL服务器兼容旧的MySQL服务器。该选项值为“SERVER”,“BEFORE_8_2_0”,和“BEFORE_8_0_23”。


8、“
group_replication_consistency”系统变量的默认值从“EVENTUAL”改为
BEFORE_ON_PRIMARY_FAILOVER。“
group_replication_exit_state_action”系统变量的默认值改为“OFFLINE_MODE”。


9、在“Performance_Schema”中增加线程池的连接信息,并增加“tp_connections”表,用以显示每个线程池的连接。


10、分区:从MySQL 8.0.21开始,如果分区键中包含带索引前缀的列,会显示警告。在这个版本中,这种用法被明确禁止了。如果你在CREATE TABLE或ALTER TABLE语句中使用这些列,系统会报错并拒绝执行。


四、创新版MySQL 9.0的主要更新


1、“mysql_native_password”插件已被删除,如果客户端软件不具备“CLIENT_PLUGIN_AUTH”能力将无法连接服务器。为了向后兼容,“mysql_native_password”在9.0版本的客户端上仍然可以连接到早期版本的MySQL服务器。


2、SQL语句“CREATE EVENT”、“ ALTER EVENT”,及 “DROP EVENT”可以作为PREPARE执行。


3、由包含“IGNORE”关键字的语句忽略产生的错误“ER_SUBQUERY_NO_1_ROW”已从错误列表中删除。


4、Performance Schema中增加了两个表:

  • variables_metadata:提供了关于系统变量的一般信息。这些信息包括MySQL服务器识别的每个系统变量的名称、作用域、类型、范围(如适用)和描述。
  • global_variale_attributes:提供了关于服务器分配给全局系统变量的属性值对的信息。


5、EXPLAIN ANALYZE的输出结果可以用JSON格式保存,语法如下:

EXPLAIN ANALYZE FORMAT=JSON INTO @variable select_stmt


6、Windows版本的相关改进:使用Windows版的用户可以在这个版本里面获得大量的体验改善,修复了Windows安装向导中大量的错误。


7、MySQL Shell

  • 更新并简化了InnoDB ReplicaSet中锁的处理,不再需要多个每个实例的锁。
  • 支持部分或完全解散 ClusterSet。
  • 支持在所有能够访问的成员上执行“.execute().”。
  • 升级检查工具支持对外键参照的检查。



MariaDB 11.4中的变化和改进


MariaDB 11.4是最新的长期支持版本(LTS)。第一个可用版本是11.4.2,于2024年5月29日发布,该分支将一直支持到2029年5月29日。上一个LTS分支是10.11,它将支持到2028年2月16日。


11.4分支包括近期短期支持版本引入的增强功能:11.0、11.1、11.2、11.3,以及之前未发布的新增强功能。以下罗列关键新特性


一、在线DDL变更


在早期的MariaDB版本中,当一个会话正在执行ALTER TABLE MODIFY等DDL语句修改表结构时,其他会话的DML操作如UPDATE、INSERT等将被阻塞,需要等待DDL语句执行完成后才能继续。但是,在现代版本的MariaDB中,这种情况已得到改善。


举个例子:

会话一执行,alter table sbtest1 modify pad varchar(200);

会话二执行,update sbtest1 set pad='nba' where id=10000000;

在之前的版本,会话二会被阻塞。而在新版本里,会话二的UPDATE操作不会被阻塞,可以同步执行,不必等待会话一的DDL语句完成。这个改进大大提高了MariaDB的并发能力,避免了不必要的等待,提升了数据库的整体性能。


二、InnoDB系统表空间会在启动时通过回收未使用的空间进行缩减


InnoDB的一个历史问题是,即使删除了系统表空间数据,磁盘空间也不会被回收。因此,如果你有一个长达数小时的疯狂事务,你可能会看到你的ibdata*文件显著增长,而你却永远无法缩小它们。幸运的是,现在未使用的空间会在MariaDB启动时被释放。


三、单表UPDATE或DELETE语句,支持半连接查询优化


子查询一直以来以性能差而著称,解决方案是用join关联查询代替子查询。在之前的版本,半连接优化仅是针对select操作进行的,可以在不改变原有SQL的情况下,通过内部的优化器,把子查询改写为join关联查询。至于update或delete操作,它们的性能仍旧很差。而在最新的版本里,单表UPDATE或DELETE语句,支持半连接查询优化。


例:explain update t1 set name='aa' where id in (select id from t2 );


四、使用DATE或YEAR函数与常数进行比较的查询现在可以使用索引


例:

select create_time from t_doc where YEAR(create_time)=2015;

select create_time from t_doc where date(create_time)='2015-01-01';


以上两个SQL,可以使用上create_time索引。


五、限制二进制日志文件使用的磁盘空间


担心MariaDB binlog文件增长速度过快而撑爆磁盘空间?那么需要了解一下max_binlog_total_size参数(限制二进制日志文件使用的磁盘空间),该变量对所有二进制日志的总大小(以字节为单位)设置了上限。当达到限制时,最旧的二进制日志将被清除,直到总大小低于限制或仅保留活动日志。默认值0禁用该功能。日志空间没有限制。二进制日志会无限累积,直到磁盘空间已满(该实现基于Percona的补丁)。


六、FULL_NODUP是binlog_row_image系统变量的新值


它的工作原理与FULL类似,即所有列都包含在事件中,但占用的空间更少,IO更少。因为省略了未被UPDATE语句更改的列值,但是开源闪回工具,如reverse_sql不支持它。


七、ALTER TABLE IMPORT更容易使用了


在移动表空间时,不再需要运行CREATE TABLE和ALTER TABLE DISCARD TABLESPACE语句。


例:

FLUSH TABLES t1 FOR EXPORT;

--copy_file $MYSQLD_DATADIR/test/t1.cfg $MYSQLD_DATADIR/test/t2.cfg

--copy_file $MYSQLD_DATADIR/test/t1.frm $MYSQLD_DATADIR/test/t2.frm

--copy_file $MYSQLD_DATADIR/test/t1.ibd $MYSQLD_DATADIR/test/t2.ibd

UNLOCK TABLES;

ALTER TABLE t2 IMPORT TABLESPACE;


以前,必须执行CREATE TABLE和ALTER TABLE...DISCARD TABLESPACE,而且不能重复使用现有.frm文件中的准确表定义。现在直接ALTER ... IMPORT即可。


八、mariadb-dump支持多线程并行备份,类似于mydumper


使用方法:

Shell> mariadb-dump -S /tmp/mysql_mariadb.sock -uroot -p123456

--compact --skip-ssl --single-transaction --master-data=2 --routines --triggers --events test -T /data/bak/ -j 12 --log-error=dump.txt > metedata.txt


注:导出的数据格式为CSV,仅支持本地、单库并行执行。

-T参数,指定存放备份数据目录

-j参数,指定并发线程数,这里为12


九、如何处理主从复制“致命错误1236”


复制功能作为MySQL/MariaDB实现高可用性的核心,几十年来一直扮演着至关重要的角色。然而,在复制过程中,DBA们经常会遇到一个令人头疼的问题——错误号1236。Last_IO_Error: Got fatal error 1236 from source when reading data from binary log。


这个错误意味着从库无法在主库上找到所需的二进制日志(binlog)和对应的位置(position)或全局事务标识符(GTID)。结果,复制进程会报错并暂停。


造成这种情况的常见原因是:

  • 主从同步出现较大延迟。
  • 触发了主库上的binlog_expire_logs_seconds或expire_logs_days变量设置。
  • DBA手动执行了PURGE BINARY LOGS TO 'mysql-bin.00000X'命令。


这些因素都可能导致主库上必要的binlog被删除,从而引发从库无法找到所需的binlog信息,最终导致复制中断(1236错误)。


为了应对这一挑战,MariaDB 11.4版本引入了一个新的参数选项
--slave-connections-needed-for-purge,其默认值为1。这个参数的作用是控制主库清除二进制日志(binlog)的条件。只有当连接到主库的从库数量达到或超过这个指定的阈值时,主库才会执行binlog的清除操作。如果连接的从库数量未达到阈值,主库将禁止清除二进制日志。



PostgreSQL发布17.1新版本/更新16、15、14、13、12版本


2024上半年,PostgreSQL主要发布了12、13、14、15、16版本系列的修正版本12.19、13.15、14.12、15.7、16.3以及17版本系列Beta版本17Beta1,其中值得关注的新特性有:


1、性能

  • 引入可以控制事务、子事务和多事务缓冲区可扩展性的配置参数。
  • 用copy导出大型行时得到两倍的性能提升。
  • 分区和分布式工作负载增强,增加了拆分和合并分区的能力,并为分区表添加
  • 对标识列和排除约束的支持。
  • 可以使用计划器统计信息和公共表表达式(WITH查询)的排序顺序来进一步优化这些查询。
  • 改进了WAL锁的管理方式,性能提高2倍。为逻辑复制添加了新功能,使用pg_upgrade时不再需要删除逻辑复制插槽。


2、开发

  • JSON_TABLE特性的支持,可以将JSON转换为标准的PostgreSQL表,以及SQL/JSON构造函数和查询函数。
  • 为其jsonpath实现增加了更多功能,并能将JSON值转换为不同的数据类型。
  • MERGE命令现在支持RETURNING子句。
  • 一个内置的排序提供程序,它提供了类似于C排序的排序语义,使用UTF-8编码,排序是不可变的,确保无论PostgreSQL安装运行在什么系统上,排序的返回值都不会改变。

3、安全

  • 添加了一个新的连接参数sslnegotiation,允许PostgreSQL在使用ALPN时执行直接TLS握手消除了网络往返。PostgreSQL在ALPN目录中注册为postgresql。
  • 此版本引入了在认证期间执行的事件触发器,并且在libpq中包括一个名为PQchangePassword的新API,它自动在客户端对密码进行散列,以防止在服务器上意外记录明文。

4、监控与管理

  • Vacuum拥有一种新的内部数据结构,显示出最多20倍的内存减少,同时在完成其工作的整体时间上有所改进。此外,vacuum进程不再有1GB的内存使用限制。
  • 引入了一个用于流式I/O的接口,并在执行顺序扫描和运行ANALYZE时可以显示性能改进。

5、其他值得注意的变化

  • PostgreSQL 17添加了一个名为pg_maintain的新预定义角色,授予用户在所有关系上执行VACUUM、ANALYZE、CLUSTER、REFRESH MATERIALIZED VIEW、REINDEX和LOCK TABLE的权限。此版本还确保search_path对于像VACUUM、ANALYZE、CLUSTER、REFRESH MATERIALIZED VIEW和INDEX这样的维护操作是安全的。最后,用户现在可以使用ALTER SYSTEM设置未识别cus的值。



OceanBase发布面向实时分析OLAP负载的里程碑版本


2024年上半年,OceanBase共发布了11个版本,包括面向实时分析(AP)场景的重要里程碑版本4.3。OceanBase 4.3版本引入了基于LSM-Tree架构的列存引擎和新版向量化引擎,将行存和列存数据存储一体化,显著提升了AP场景下的查询性能。同时,新增了物化视图功能、扩展的Online DDL、租户克隆功能,优化了系统性能和资源利用。经测试,OceanBase 4.3在处理大宽表场景下的查询性能达到了业内主流列存大宽表数据库的水平。


以下是这些版本的主要亮点:


1、内核提升:OceanBase 4.3内核在多个关键领域进行了深度增强与优化。优化器代价模型经过重构,支持更精准的成本估算;扩展了Online DDL能力,涵盖了广泛的列类型变更场景;新增了租户克隆特性,提升了数据管理的灵活性。同时,重构了会话管理模块,优化了日志流状态机,引入了S3备份恢复介质支持,并通过精细化的系统资源管理策略显著提升了系统在关键业务负载中的性能、稳定性和可靠性。


2、强化OLAP能力:引入基于LSM-Tree的列存引擎和新版向量化引擎,实现了行存与列存一体化,支持高效处理大宽表,进一步提升了OLAP场景下的查询性能。优化器和执行器针对列存进行了优化,相较于4.2.x版本,TPC-H和TPC-DS性能分别提升了25%和111%。新增兼容的物化视图功能,通过预计算存储视图的查询结果提升了实时查询性能,并支持快速报表生成和数据分析。此外,新增全文索引特性,显著提升了文档检索效率。


3、增强数据导入能力:支持使用LOAD DATA LOCAL INFILE命令导入客户端存储的小规模数据文件;引入了分区交换功能,实现了高效的分区内数据迁移,大幅提升了大数据量处理和重组的性能与灵活性;支持外表分区,实现了大规模并行导入外部表数据;提供增量旁路导入能力,优化了多次导入场景的入库性能;并优化了text和blob列类型的旁路导入性能,扩展了旁路导入的应用场景,降低了用户的使用门槛。


4、兼容性持续增强:在多模态(包括JSON、XML、GIS)功能上进行了升级,新增了JSON多值索引和JSON部分更新能力,进一步促进了异构数据的迁移和融合。持续增强MySQL和Oracle兼容性,新增支持Lateral Derived Tables、MySQL锁函数、Oracle视图注释与远程UDF调用等特性。同时,完善了MySQL权限体系,并新增了操作系统配置检查功能,加固了系统的安全性。


此外,OceanBase云数据库服务OB Cloud在上半年也经过了大量的改进,发布了Serverless、多模集群、通用等多款新产品与能力。



TiDB发布8.1.0 LTS版本和7.6.0、8.0.0两个DMR版本


TiDB发布8.1.0 LTS版本和7.6.0、8.0.0两个DMR版本,夯实大型集群的稳定性和易用性,累计新增和优化特性160+,其中值得关注的特性有:


1、可扩展性与性能

  • 支持拆分PD功能为微服务:TiDB支持将PD的TSO和调度模块拆分成可独立部署的微服务,可以显著降低当集群规模扩大时模块间的互相影响。
  • 建表性能提升10倍:引入新的DDL架构,批量建表的性能提升10倍,该特性能显著提升SaaS场景的建表速度。
  • 提升BR快照恢复速度:引入粗粒度打散Region算法,TiDB快照恢复的数据传输速度提升10倍,能够在1小时内完成对100 TB数据的恢复。


2、稳定性与高可用

  • 跨数据库绑定执行计划:一个执行计划绑定能够匹配到只有Schema不同的多个SQL语句,大幅简化了在SaaS或PaaS建模下的SQL调优工作。
  • 支持TiProxy:TiProxy用来管理和维护客户端与TiDB的连接,在滚动重启、升级以及扩缩容过程中保持连接。
  • 资源管控支持管理资源消耗超出预期的查询:通过资源组的规则,TiDB能够自动识别出运行超出预期的查询,并对该查询进行限流或取消处理。
  • 全局排序:通过对需要处理的数据进行全局排序,可以提高数据写入TiKV的稳定性、可控性和可扩展性,从而提升数据导入与索引添加的用户体验和服务质量。

3、数据库管理与可观测性

  • 引入内存表:INFORMATION_SCHEMA.TIDB_INDEX_USAGE和视图sys.schema_unused_indexes,用于观测和记录索引的使用和运行情况。


4、数据迁移

  • TiCDC支持Simple消息协议和Debezium协议,TiCDC支持使用mTLS(双向传输层安全性协议)或TiDB用户名密码进行客户端鉴权。


此外,6月26日,TiDB Cloud发布了向量搜索公测版,提供功能全面且与SQL兼容的向量搜索解决方案,便于AI应用开发者进行创新和扩展,无需深入了解复杂的基础设施。


大数据生态圈



Elasticsearch发布三个大版本


Elasticsearch在2024年上半年发布了3个大版本,8.12.x、8.13.x、8.14.x,除正式发布了一些新功能特性,也会预览发布一些验证性功能特性,同时性能上也有大幅度的提升,依然保持在每个大版本之间快速迭代了多个小版本,解决一些程序问题。


对于7.17.x也持续更新发布了多个小版本,侧重对已知问题修复,顺便支持升级到8.x版本,解决一些兼容性问题。


Elasticsearch 2024年上半年版本发布


以下是8.12.x~8.14.x版本值得关注的新功能特性:


1、lucene 9.9/9.10发布

  • lucene 9.9/9.10发布,号称史上最快的引擎。
  • scalar-quantization标量量化转换,在向量搜索场景中,向量的转换存储查询,需要消耗大量的存储内存CPU资源;通过向量的有损转换,如float32转为int8,可以大幅度节约存储、节约内存、提升检索性能。
  • FMA算法,全称“Fused multiply-add”,直译“融合乘法加法”,基于SIMD向量指令,将大多数CPU指令融合为一个,在计算向量相似度时获得更快的性能。
  • MAXSCORE算法,直译“最大分值”,在倒排索引中用于快速查询最匹配的TOP-K个数据文档。

2、_inference外部智能模型推理集成

  • _inference是一个智能模型推理接口,最开始只能接入 Elasticsearch平台自己挂载的机器学习模型,来进行相关推理工作。
  • 截止到上半年,已经可以支持多个外部人工智能模型接口,只需要获得认证授权即可,无需下载离线模型,如Hugging face、openai、cohere等。

3、分片分段查询并行化

  • 在Elasticsearch较早版本中,查询数据时,一个分片只有一个线程查询,分片下有多个分段文件,也是按照分段文件逐个检索;截止目前版本,一个分片可以分配多个线程,单个分段最多有一个线程,从而实现了并行化查询,性能大幅度提高,甚至有数百的提高。


4、learning to rank学习排序

  • 在最新版本中,Elasticsearch集成了learning to rank相关功能,并自带机器学习算法、模型训练、模型集成等全套的技术栈,在不借助外部技术栈下,可以快速实现完整的学习排序,从而改进查询结果排序。


5、reciprocal rank fusion混合查询排序

  • 语义查询是基于向量相似度进行的,分值是可以固定在0~1之间;关键字分词查询是基于词频计算分值的,分值大小范围不固定,可以很大,超过1。reciprocal rank fusion混合查询可以同时融合语义查询分值与关键字查询分值,将两种不同的分值进行归一化处理,固定在一个合理的范围,从而实现融合排序。


6、synonyms api同义词专用接口正式发布

  • 同义词一直是搜索的热门技术点,简单的同义词配置,即可实现较好的搜索体验。在之前配置同义词需求,必须先创建索引,在索引内部设置同义词规则,配置同义词词库,耦合性较重,其它索引使用相同的同义词词库也必须重复配置。
  • 选择有了同义词专用接口,在不创建索引情况下,可以独立配置同义词词库,且可以支持任意索引进行绑定。

7、ES|QL正式发布

  • 全新的查询语言引擎ES|QL在8.14.0版本正式发布。
  • ES|QL基于Pipeline管道模型的设计理念,上一步的查询的结果可以作为下一步查询的输入,从而可以组合多种查询逻辑,实现多种数据查询、聚合、转换等需求。ES|QL内置基于全新的查询引擎,语法表达式不会转换DSL,而且直接查询ES的数据,查询性能有大幅提升,部分场景是数倍提升。
  • 至此,Elasticsearch已有5种查询语言表达式,ES|QL、 DSL、SQL、EQL、Query String。


8、JDK 22.x

  • Elasticsearch最新发布的8.14.x版本集成了JDK22.x。基于JVM平台之上的构建的Elasticsearch想要获得性能提升,最直接的方式就是升级到最新的JDK版本,运用最新的JDK特性,重构数据计算的代码与逻辑,如JDK Vector API向量指令。



Apache Flink发布1.19.0版本


2024年上半年,Apache Flink发布1.19.0版本,其中值得关注的新改进有:


1、Flink SQL提升

  • 源表自定义并行度
  • 可配置的SQL Gateway Java选项
  • 使用SQL提示配置不同的状态TTL
  • 函数和存储过程支持命名参数
  • Window TVF聚合功能
  • 新的异步函数AsyncScalarFunction
  • Regular Join支持MiniBatch优化


2、Runtime & Coordination提升

  • 批作业支持源表动态并行度推导
  • Flink Configuration支持标准YAML格式
  • 在Flink Web上Profiling JobManager/TaskManager
  • 新增管理员JVM选项配置选项

3、Checkpoints提升

  • Source反压时支持使用更大的Checkpointing间隔
  • CheckpointsCleaner并行清理单个检查点状态
  • 通过命令行客户端触发Checkpoints


4、Connector API提升

  • 与Source API一致的SinkV2新接口
  • 用于跟踪Committables状态的新Committer指标

5、重要API弃用

  • 为了给Flink 2.0版本做准备,社区决定正式废弃多个已接近生命周期终点的API(具体API可参考发布文档:https://nightlies.apache.org/flink/flink-docs-release-1.19/release-notes/flink-1.19/)



ClickHouse发布24.1、24.2、24.3、24.4、24.5等版本


2024年上半年,ClickHouse主要发布了24.1、24.2、24.3、24.4、24.5五个新版本,其中24.3是LTS版本,值得关注的新功能特性如下:


1、向量化距离函数

在24.2版本中,ClickHouse宣布,cosineDistance、dotProduct和L2Distance(欧几里德距离)函数都已经优化,以利用最新的指令集。对于x86,这意味着使用了融合乘-加(FMA)和AVX-512指令进行水平加-减运算,并针对ARM进行了自动矢量化。


2、自适应异步插入

在传统的插入查询中,数据是同步插入到表中的:当ClickHouse收到查询时,数据会立即以数据part的形式写入到数据库存储中。为了获得最佳性能,数据需要进行批处理,通常情况下,我们应该避免创建过多的小插入并频繁执行。异步插入将数据批处理从客户端转移到服务器端:插入查询的数据首先插入到缓冲区中,然后稍后或异步地写入到数据库存储中。这是非常方便的,特别是对于许多并发客户端频繁向表中插入数据、需要实时分析数据并且客户端批处理引起的延迟是不可接受的情况。


3、Final with PeplacingMergeTree竖直算法

23.12的发布已经为使用FINAL修饰符的SELECT查询带来了重大优化。24.1的版本在FINAL与ReplacingMergeTree表引擎一起使用时带来了一些额外的优化。ClickHouse 24.1尝试通过为ReplacingMergeTree提供更友好的缓存查询时间合并算法来防止由于不必要的内存访问而导致整体性能变慢的情况,该算法与竖直后台合并算法类似,通过减少了CPU缓存驱逐,从而减少了内存延迟。


4、非等值Join运算

之前,ClickHouse只允许在JOIN的ON子句中使用等值条件。在24.5版本中,ClickHouse对ON子句中的非等值条件提供了实验性支持。


5、Cross Join的优化改进

从24.4开始,ClickHouse已经开始启动了JOIN性能优化的进程。用户将会在每个ClickHouse版本中看到JOIN改进。在24.5版本中专注于改进CROSS JOIN的内存使用。


6、递归CTE

SQL:1999引入了递归公共表达式(CTE)用于层次查询,从而将SQL扩展为图灵完备的编程语言。ClickHouse一直通过利用层次字典来支持层次查询。基于新的默认启用的查询分析和优化基础设施,ClickHouse在24.4版本中宣布了递归CTE新功能。ClickHouse的递归CTE采用标准的SQL:1999语法,并通过了递归CTE的所有PostgreSQL测试。此外,ClickHouse现在对递归CTE的支持甚至超过了PostgreSQL。在CTE的UNION ALL子句的底部,可以指定多个(任意复杂的)查询,可以多次引用CTE的基表等。



Apache Doris发布2.1.0-2.1.4及2.0.4-2.0.12等多个版本


2024年上半年,Apache Doris发布2.1.0-2.1.4以及2.0.4-2.0.12等多个版本,其中值得关注的新功能有:


1、查询性能

2.1系列版本着重提升了开箱盲测性能,力争不做调优的情况下取得较好的性能表现,包含了对复杂SQL查询性能的进一步提升,在TPC-DS 1TB测试数据集上获得超过100%的性能提升。与此同时,也对业内多个OLAP系统在同等硬件资源和多个测试数据规模下进行了性能测试,不论大宽表场景或多表关联场景,Apache Doris都具备明显的性能优势,在所有可公开获取性能指标的OLAP系统中排行第一。


2、查询优化器

在2.1系列版本中,查询优化器在整体代际更新的基础上,进行了优化规则的扩展和枚举框架的完善,面向复杂分析场景更加得心应手:

  • 优化器基础设施完善:在多种优化器基础设施方面进行了补充和增强,例如对统计信息推导和代价模型方面的持续改进,使之能够收集更多的特征信息为复杂优化提供基础。
  • 优化规则持续扩展:得益于丰富的实际场景反馈,新版本中查询优化器增强了包括算子下压在内的许多经典规则,结合上述基础设施扩充而引入的新优化规则,使得新版本的查询优化器能覆盖更广泛的使用场景。
  • 枚举框架进一步优化:在查询优化器Cascades和DPhyper两大融合框架的基础上,继续深耕框架能力、优化框架性能,确立了更为清晰的枚举策略,兼顾计划质量和枚举效率,为高性能引擎提供坚实基础。


3、湖仓一体

2.1系列版本进行了大量性能方面的改进、相对于Trino和Spark分别有4-6倍的性能提升,并引入了多SQL方言兼容、便于用户可以从原有系统无缝切换至Apache Doris。在面向数据科学以及其他形式的大规模数据读取场景,引入了基于Arrow Flight的高速读取接口,数据传输效率提升100倍。


4、半结构化数据分析

在2.1系列版本中引入全新的数据类型VARIANT,支持存储半结构化数据、允许存储包含不同数据类型(如整数、字符串、布尔值等)的复杂数据结构,无需在表结构中提前定义具体的列,其存储和查询与传统的String、JSONB等行存类型发生了本质的改变,给用户带来更加高效的数据处理机制。Variant类型特别适用于处理结构可能随时会发生变化的复杂嵌套结构。在写入过程中,Variant类型可以自动根据列的结构和类型推断列信息,并将其合并到现有表的Schema中,将JSON键及其对应的值灵活存储为动态子列。同时,一个表可以同时包含灵活的Variant对象列和预先定义类型的更严格的静态列,从而在数据存储、查询上提供了更大的灵活性。除此之外,Variant类型能够与Doris核心特性融合,利用列式存储、向量化引擎、优化器等技术,为用户带来极高性价比的查询性能及存储性能。


5、基于异步的多表物化视图

在2.1系列版本中引入了基于多表的异步物化视图以提升查询性能,异步物化视图可以全量或者分区增量构建,也可以手动或者周期性地构建刷新数据。在多表关联查询且表数据量较大的场景下,优化器会根据代价模型进行透明改写、并自动寻找最优物化视图来响应查询,以大幅提升查询性能。与此同时,也提供了从外表到内表的物化视图以及直查物化视图的能力,基于此特性,异步物化视图也可用于数据仓库分层建模、作业调度和数据加工。


6、存储优化

引入了自增列、自动分区、MemTable前移以及服务端攒批的能力,使得大规模数据实时写入和数据分区管理的效率更高。


7、负载管理

进一步完善了Workload Group资源组的多租户资源隔离能力,并增加了运行时查看SQL资源用量的能力,进一步提升了多负载场景下的稳定性。



SelectDB 2024上半年技术更新汇总


2024上半年,SelectDB发布SelectDB Enterprise 2.1.0-2.1.4、SelectDB Cloud 4.0.0、阿里云SelectDB 版4.0.0、Cluster Manager 24.0.0-24.0.2以及x2Doris 1.0.0等多个版本,重点特性如下:


1、SelectDB Enterprise、SelectDB Cloud、阿里云 SelectDB版

  • 复杂SQL查询性能进一步提升,在TPC-DS 1TB测试数据集上获得超过100%的性能提升,查询性能居于业界领先地位。
  • 数据湖分析场景性能改进,相对于Trino和Spark分别有4-6倍的性能提升,并引入了多SQL方言兼容、便于用户可以从原有系统无缝切换至Apache Doris。在面向数据科学以及其他形式的大规模数据读取场景,引入了基于Arrow Flight的高速读取接口,数据传输效率提升100倍。
  • 在半结构化数据分析场景,引入了全新的Variant和IP数据类型,完善了一系列分析函数,面向复杂半结构化数据的存储和分析处理更加得心应手。
  • 引入基于多表的异步物化视图以提升查询性能,支持透明改写加速、自动刷新、外表到内表的物化视图以及物化视图直查,基于这一能力物化视图也可用于数据仓库分层建模、作业调度和数据加工。
  • 在数据存储方面,引入了自增列、自动分区、MemTable前移以及服务端攒批的能力,提高大规模数据实时写入的效率。
  • 在负载管理方面,进一步完善了Workload Group资源组的隔离能力,并增加了运行时查看SQL资源用量的能力,进一步提升了多负载场景下的稳定性。

2、Cluster Manager

  • 管控升级为Agent模式,Agent和Server之间直接使用HTTP协议通信,保证安全性。
  • 支持任务审计,查看每个任务的详细信息,包括操作时间、操作人、操作内容等信息。
  • 部署及扩容支持新增计算节点,仅负责数据计算,不负责数据存储。
  • 集群巡检支持定期巡检,按需配置巡检周期并发送通知。
  • 监控模块新增主机维度的机器指标监控。
  • 按照最佳实践,内置告警模版,可按需快速配置告警规则。

3、x2Doris 1.0

X2Doris是SelectDB开发的,专门用于将各种离线数据迁移到Apache Doris中的核心工具,该工具集自动建Doris表和数据迁移为一体,目前支持了Apache Doris/Hive/Kudu、StarRocks数据库往Doris或SelectDB Cloud迁移的工作,整个过程可视化的平台操作,简单易用,减轻数据同步到Doris或SelectDB Cloud中的门槛。



StarRocks发布3.1.x及3.2.x更新版本与3.3 RC版本


StarRocks在2024上半年发布了3.1.x、3.2.x的几个小版本和3.3 RC大版本,除了一些问题修复外,也带来了许多重要的新特性,其中值得关注的包括:


1、存算分离和性能优化

  • 存算分离功能对齐存算一体,缩短了DDL变更时间至秒级,并优化了垃圾回收机制。
  • 发布了StarRocks数据迁移工具,支持数据迁移和同步。

2、数据湖分析能力增强

  • Data Cache支持预热。
  • 优化Parquet、ORC Reader和外表统计信息收集。

3、查询性能和索引支持

  • 中间结果落盘功能优化。
  • 支持全文倒排索引和N-Gram bloom filter索引。
  • 支持Flat JSON。
  • 提升Bitmap函数性能,并优化了全局字典和行列混存表存储格式。

4、物化视图和查询改写

  • 支持基于视图/文本的物化视图查询改写。
  • 优化了物化视图改写代价。
  • 增加Hive/Iceberg/Paimon等湖格式的外表物化视图,并支持异步物化视图的备份和恢复。


5、湖仓生态支持

  • Paimon生态:物化视图支持自动查询改写,优化了Scan Range调度。
  • Iceberg生态:大幅优化元数据访问效率,增加了对equality delete的支持。
  • ClickHouse和Kudu生态:新增了SQL Rewriter工具和Catalog。


国产数据库



达梦数据库更新DM8.1版本


2024年1月至今,达梦数据库主要更新了DM8.1版本,其中值得关注的新特性和新改进有:


1、新增对第三方包PLJSON2.0的支持。

2、线程绑定cpu的系统中新增线程绑核功能。

3、优化比较函数和分析函数、修改函数支持使用空间索引、新增系统函数及其它函数相关功能改进。

4、SQL语句执行性能提升/功能改进。

5、DBLINK优化ORACLE_DBLINK代价计算方式、改进DM到ORACLE的DBLINK相关功能、新增sqlserver兼容模式下的DBLINK查询功能,以及其它DBLINK相关功能的改进。

6、优化存储过程执行性能以及其他存储过程相关功能改进。

7、DSC集群检查点、集群节点连接功能、集群联机日志刷盘功能的改进和其他相关功能的改进。

8、优化DBMS_STATS包收集统计信息性能,以及其他系统包的方法功能改进。

9、DmProvider存储过程参数新增支持按名称绑定、新增支持DmTransaction对象的部分方法以及其他相关功能的改进。



巨杉文档型数据库发布v5.8版本更新


巨杉文档型数据库v5.8更新包括:


1、稳定性提升

升级编目节点消息堵塞机制、LSN机制、慢查询监控指标、索引统计采样、内存管理等多个特性,提升整体系统稳定性及可观测性。


2、容灾能力提升

通过“精细化容灾”提供可以按“亲和性”实现配置的多中心容灾策略,同时提供集合粒度的细化级别,优化中心间的数据流量策略提升异地中心的带宽利用效率。


3、信创技术特性

支持多种芯片在同一集群的混合部署、支持国密算法及鲲鹏芯片加速、支持并通过GB18030-2022标准、操作安全审计等能力。


4、管理工具提升

新的SAC监控管理工具细化了慢查询、节点管理能力,在监控方面提供基于天、周、月的各项指标环比能力,更便于用户发现系统的问题。



ActionDB 2024上半年技术更新汇总


2024年上半年,爱可生集中式关系型数据库管理系统ActionDB发布了4.0、4.2、4.3多个版本,进一步完善了工具生态:

  • 数据传输工具:ActionDB-OMS
  • 数据管理平台:ActionDB-DMP
  • SQL 质量管理平台:ActionDB-SQLE


2024年下半年,ActionDB计划将进一步增强数据库审计能力、OLAP类的列存能力。



AntDB 8.2超融合数据库版本更新,并发布智能运维“三剑客”


2024年上半年,亚信安慧AntDB数据库8.2超融合数据库进行了版本更新,主要更新包括:“超融合”内核能力提升,TP、AP性能提升,分布式事务能力优化。此外,依托亚信科技“渊思”大模型,发布了智能运维“三剑客”:AntDB MTK数据迁移套件、AntDB CC数据库的智能运维平台、AntDB DC数据库开发工具,将在规划部署、巡检优化、故障处理、数据库开发四大应用场景发力,进一步增强AntDB智能运维能力。


云数据库



PolarDB发布PostgreSQL 15版本、分布式V2.4.0版本


2024上半年,PolarDB发布了一系列新版本和新功能,其中值得关注的版本和功能有:


1、PolarDB MySQL版

  • 支持三层解耦架构,计算、内存、存储独立伸缩,极致性价比。
  • 新增多租户模式,实现数据隔离和资源隔离,提升业务稳定性和安全性。
  • 推出NL2SQL解决方案,支持将自然语言转换为SQL语句。


2、PolarDB PostgreSQL版

  • 发布Serverless功能,提供CPU、内存、存储、网络资源的实时弹性能力。
  • 发布冷数据分层存储功能,将冷数据转存到OSS中,有效降低存储成本。
  • 发布PostgreSQL 15版本,增强了SQL功能,改进逻辑复制功能,优化数据库性能。


3、PolarDB分布式版发布V2.4.0版本

  • 推出列存节点Columnar,提供持久化列存索引,提升复杂查询效率。
  • 全面兼容MySQL 8.0的协议和语法。
  • 支持全球数据库网络,提供高性能、稳定可靠的跨云部署解决方案。



腾讯云2024上半年数据库产品更新汇总


一、云数据库MySQL


2024年上半年云数据库MySQL主要推出了集群版架构,发布了新内核特性及全新功能,其中值得关注的动态如下:


1、集群版:发布集群版架构,支持标准型和加强型,提供自动故障切换、任意备节点切换为主节点、备节点只读、按需增删节点、多可用区容灾、节点粒度的监控、集群节点拓扑管理等多种特有能力。

2、数据库内核版本:发布20230601、20230630内核版本,支持闪回版本查询、虚拟索引、range/list 二级分区、Fast Query Cache,增强数据库性能和稳定性。

3、数据库代理版本:发布1.3.10、1.3.12数据库代理版本。

4、多灾备:双节点、三节点架构的主实例支持挂载多个灾备实例,帮助提升业务连续服务能力以及数据的可靠性。

5、数据库代理功能:支持自适应负载均衡,可根据后端负载情况,将请求路由到负载更低的实例上,以达到数据库实例负载均衡;支持均衡分配和就近接入能力,灵活控制应用程序或客户端与数据库代理的连接链路;数据库代理已于4月1日开启商业化服务。

6、异地日志服务:支持慢日志、错误日志投递至异地日志服务。

7、外网架构升级:采用CLB作为外网底层架构,提升数据库外网链路的安全及可靠性。

8、数据库审计:优化数据库审计,审计日志页面新增快捷查询时间,增加字段“表名”、“事务ID”。


二、云数据库Redis


2024年上半年云数据库Redis发布了新特性,值得关注的动态如下:


1、Redis 7.0版本全面上线,进一步增强社区版本的兼容能力。

2、腾讯自研的rehash增强特性,支持自定义rehash操作时间,尽可能减少或降低Redis运行过程中的性能波动。

3、全面提升产品可用性体验,支持无损扩容功能,极大降低扩容对业务的影响。

4、Redis外网架构升级,采用CLB作为外网底层架构,提升数据库外网链路的安全及可靠性。

5、Redis慢日志支持投递至CLB,增强慢日志多维度的统计和分析能力。

6、Redis集群版支持版本升级功能,支持一键平滑升级版本的运维能力。

7、丰富监控指标,其中全球复制支持主备延迟时间和命令数的监控指标,完善监控指标,满足用户不同场景的监控诉求。

8、支持一键连接检查功能,助力用户快速定位出连接异常的原因。


三、云数据库MongoDB


2024年上半年云数据库MongoDB持续优化更新,其中主要的动态如下:


1、支持云盘版架构,利用云原生架构优势和组件功能,支持更多强大特性,如快速变配和快照备份等功能。

2、提供更灵活的分片集群规格管理,支持对分片集群个别分片和Mongos进行配置变更,满足更多场景下的容量需求。

3、日志功能增强,支持查看和检索实例和节点的错误日志信息,进一步提升实例诊断分析能力。

4、可观测性优化,新增一系列的事件告警和监控指标项,提供更加全面的实例监控告警能力。

5、API优化,增加新功能API覆盖,加强API异常校验,完善API说明文档。


四、TDSQL-C


2024年上半年,TDSQL-C主要推出了新的TXSQL内核版本,发布了新内核特性及全新功能,其中值得关注的动态如下:


1、TXSQL:内核特性更新,强化并行查询,支持列存索引、黑洞引擎,只读实例支持通过位点订阅 binlog,优化大事务提交binlog、binlog写入、purge binlog性能、并行DDL功能等。

2、通用型:发布通用型计算规格,相比独享型计算规格价格下降60%。

3、快速回档:支持库表级快速回档能力,大幅提升大数据量实例回档速度。

4、一键迁移:能力提升,支持迁移源端MySQL数据库的只读组,源端数据库开启数据库代理也支持迁移。

5、Serverless:Serverless支持多可用区部署,提升容灾能力;支持绑定多个资源包,能够更精细的管理资源消耗。

6、跨可用区迁移:支持集群跨可用区迁移能力,方便客户变换TDSQL-C集群部署可用区,灵活适配业务场景变化。

7、主备复制方式:支持在设置多可用区部署时选择主备的 binlog 复制方式(异步复制、半同步复制、强同步复制)。

8、版本升级限制:支持设置版本升级限制,灵活控制升级新版本,避免系统在期限内自动触发升级。

9、慢日志:慢日志支持打印本地和远程IO的bytes、所用时间和次数记录,帮助快速定位问题。

10、数据库审计:优化数据库审计,审计日志页面新增快捷查询时间,增加字段“事务 ID”。

11、全新只读分析引擎功能内测中。在只读实例中通过自研引擎LibraDB提供高效率的复杂数据分析查询。针对业务系统中包含的复杂SQL查询、多维数据读取、实时数据分析等场景提供极致的性能体验。


五、TDSQL PostgreSQL版


1、TDSQL PostgreSQL融合版开放公有云服务。


2、TDSQL PostgreSQL融合版版本升级

  • Oracle兼容性持续提升,支持对象大小写对齐Oracle使用;完善dbms_job设计;完善数据类型隐式转换兼容,提升内置函数和系统包兼容度等。
  • 支持执行计划管理,支持支持用户选择计划缓存模式;支持事务内实时统计信息;持续提升优化器性能;保障业务迁移性能更优。
  • 在线升级能力提升,优化升级流程框架,支持版本升级更平滑。
  • 支持多引擎一体化运维,支持重做备机数据对账功能,新增支持csp备份介质等。


3、配套开发工具TStudio增强,完善存储过程可调试、支持对象名称联想功能;巡检工具可视化增强,针对集群实例进行多维度健康检查及报表展示。


六、向量数据库VectorDB


2024年上半年,腾讯云向量数据库(Tencent Cloud VectorDB)持续增强线上运营能力,核心动态如下:


1、向量数据库正式商业化,提供更安全、更稳定的保障和服务。

2、一站式文档检索方案(AI套件)功能升级,支持上传PDF、 Word、PPT等更多格式文件。同时,AI套件还支持自定义单个文档的预处理和拆分方式,提高了文档处理的灵活性,改善了召回效果。

3、向量索引持续优化,提升IVF索引的精度和检索效果。

4、生态优化,上线错误码,细化错误分类,帮助用户快速定位问题。

5、监控优化,支持秒级监控和更多Embedding监控指标,方便用户实时查看实例情况以及Embedding消耗。


七、时序数据库CTSDB


1、时序数据库CTSDB独享型集群正式商业化,灵活配置、独享主机的资源、云原生扩展,以满足对资源独享和重要生产业务的需求。

2、数据安全升级,支持多账号管理与细粒度权限控制,允许管理员一键授权所有数据库的读写权限,或针对特定数据库进行单独权限设置。

3、生态兼容,新增兼容InfluxDB协议的derivative、non_negative_derivative、difference、moving_average等序列函数。

4、支持自动弹性扩展,通过观测CPU/内存监控指标触发,分钟级性能弹性提升,应对不可预期的业务高峰值。


注:关于腾讯云TDSQL PostgreSQL版、TDSQL TDStore引擎版、云数据库PostgreSQL、云数据库SQL Server、数据传输服务DBbridge、数据库智能管家DBbrain、数据传输服务DTS等产品更新信息,可阅读本期Newsletter完整版(点击本文文末【阅读原文】可下载)



京东云2024上半年数据库产品更新汇总


2024上半年,京东云发布及更新了多款数据库产品,主要包括:发布向量数据库Vearch、云原生数据库StarliteDB、云数据库PostgreSQL 15版本,更新分布式数据库TiDB功能、数据传输DTS功能、数据库管理服务DMS功能、数据库自治服务SmartDBA功能等,具体如下:


1、向量数据库Vearch

  • 千亿级向量数据检索:自研Gamma引擎,支持超大规模向量数据检索,能够以毫秒级延时返回千亿级别的数据相似匹配结果。
  • 多模态高效语义检索:支持文档、图片、视频等多维度数据,采用高效的索引和查询算法,可支持50万+ QPS的超高并发。
  • 多种索引方案:支持多种索引方案,IVFPQ索引优化,使检索性能不受文档更新次数限制;支持两种向量距离计算方式,满足不同规模用户不同场景需求。
  • 高可用架构:采用弹性分布式架构,提供多副本高可用特性,实现数据库的持续访问。

2、云原生数据库StarliteDB

  • 云原生:实现资源容器化部署能力,数分钟内完成大规模集群的创建。
  • 高度兼容MySQL:通讯协议与MySQL高度兼容、支持ACID事务,业务替换无压力。
  • 计算与存储分离架构:可以真正做到计算节点按需付费、存储空间按量付费模式,降低使用资源的成本。
  • 海量数据弹性伸缩:最高支持PB级别的海量数据存储,自动实现节点间的数据自平衡。


3、云数据库PostgreSQL

  • 新增支持15版本。


4、分布式云数据库TiDB

  • 新增慢日志功能,可快速查询慢日志详情以及执行计划。


5、数据库管理服务DMS

  • 扩展支持云数据库MongoDB。
  • 新增用户数据库权限管理,权限管控粒度到库维度。
  • 新增工单管理,支持工单申请数据库权限。
  • 优化实例登陆流程,有库权限的实例支持自动登陆。

6、数据库自治服务SmartDBA

  • 扩展支持云数据库PostgreSQL,支持一键诊断、性能趋势、会话分析、慢日志、锁分析、表诊断等功能。
  • 扩展支持云数据库MongoDB,支持实例会话、慢查询、Mongostat、Mongotop等功能。

7、数据迁移工具DTS

  • 提供更丰富的数据同步能力:支持视图、函数、存储过程的同步。
  • 支持对MySQL同构数据同步进行全量数据校验,提升同步效率。
  • 支持在同步过程中新增或减少同步对象、实现数据同步的灵活配置。



ByConity 0.4.0版本发布


2024年上半年,字节开源的基于存算分离架构的云原生数据仓库ByConity发布至0.4.0版本。ByConity整体架构呈现经典的三层存算分离架构,分别为服务层、计算组、存储层,具有资源隔离、读写分离、数据强一致性、弹性扩缩容、高性能等特性。ByConity目前已在用户分析系统、MetaApp数据分析平台等场景落地,有助于避免资源抢占、节约资源成本、降低运维成本。



拓数派升级云原生虚拟数仓PieCloudDB和向量数据库PieCloudVector


拓数派数据计算系统,简称PieDataCS。2024上半年,PieDataCS计算引擎云原生虚拟数仓PieCloudDB发布了多个版本,在性能和功能上均进行了提升和演进。


内核主要更新包括:

  • 数据存储底座简墨进一步迭代,打造了自研全新存储表格式jamn,实现了比开源存储格式parquet倍数提升的性能表现。
  • 打造新一代向量化执行引擎,已完成sort, agg, join, scan, motion, filter等大部分算子的改造,并将在Runtime filter、低基数等其他优化算法上继续优化,在TPC-H和TPC-DS性能得到倍数提升。


生态及平台方面也进行了演进:

  • 数据导入新增Dataflow组件,支持从不同的数据库抽取数据并加载到同构或异构的目标数据库,支持单表、整库批量表、指定表的全量与CDC增量同步;用户可通过云原生平台进行可视化操作,目前支持MySQL与PostgreSQL系统。
  • 打造Flink Connector支持将来自Flink系统中的数据高效写入PieCloudDB。
  • 打造Spark Connector来实现与Spark生态系统的无缝集成。
  • 支持Iceberg表格式查询,丰富对数据湖场景的支持。
  • PieCloudDB云原生平台,在界面用户交互、功能上都进行了大量提升,增加了包括定时执行、数据脱敏、订阅服务、虚拟数仓巡检、审计日志等多项功能。
  • 企业版新增可视化运维平台,提供了GUC管理、监控告警、版本升级等功能。
  • PieCloudDB具备直接对CSV、Parquet、JSON等类型的文件进行SQL查询。
  • 全链路arm支持,兼容国内主流ARM芯片,并完成与华为鲲鹏的兼容互认证。


PieDataCS的第二款计算引擎云原生向量数据库PieCloudVector基于PostgreSQL内核faiss算法库打造,主要功能如下:

  • 支持标量与向量的混合查询。
  • 支持主流的近似最近邻(ANN)算法和向量编码或压缩算法。
  • 支持SIMD/GPU加速,并兼容langchain等大模型工具生态。
  • 基于eMPP(弹性大规模并行计算)架构构建。
  • 实现了向量化和计算资源的弹性扩缩容。
  • 解决了数据一致性问题,并克服了安全性和在线性的技术难题。
  • 全面兼容SQL:2016和PostgreSQL生态。
  • 支持行存和行列混存。
  • 拥有完整的ACID数据管理能力。


2023年度Newsletter回顾&下载


  • 2023上半年盘点:20+主流数据库重大更新及技术要点汇总
  • 2023下半年盘点:20+主流数据库重大更新及技术要点汇总


推出dbaplus Newsletter的想法


dbaplus Newsletter旨在向广大技术爱好者提供数据库行业的最新技术发展趋势,为社区的技术发展提供一个统一的发声平台。为此,我们策划了RDBMS、NoSQL、NewSQL、图数据库、时序数据库、大数据生态圈、国产数据库、云数据库等几个版块。


我们不以商业宣传为目的,不接受商业广告宣传,严格审查信息源的可信度和准确性,力争为大家提供一个纯净的技术学习环境,欢迎监督指正。


下期Newsletter计划时间是2024年12月16日~12月23日,如果有相关的信息提供请发送至邮箱:newsletter@dbaplus.cn


感谢名单


最后要感谢那些提供宝贵信息和建议的专家朋友,排名不分先后。



  • 欢迎提供Newsletter信息,发送至邮箱:newsletter@dbaplus.cn
  • 欢迎技术文章投稿,
  • 发送至邮箱:editor@dbaplus.cn