作者:孙妍 来源:IT时报
11月17日,由StarRocks社区发起、镜舟科技主办的年度大型技术交流峰会StarRocks Summit 2023在上海举行。
这是StarRocks第三次举行年度技术交流峰会,此次既有腾讯、阿里、京东等参与过前几届峰会的互联网“老面孔”,也有来自金融、制造、零售等行业的“新面孔”,比如伊利、平安银行、芒果TV等公司的大数据专家围绕数据进化、技术进化、场景进化来探讨大数据分析的最新趋势和实践。
性能、场景双轮驱动 数据库性能接近本地存储
StarRocks是一款开源OLAP数据库产品,截至目前,已有超过300家市值10亿美元的企业使用StarRocks。StarRocks 社区是由镜舟科技与阿里云、腾讯、小红书、滴滴等互联网公司共同建设,社区用户已突破1万。
此外,企业部署规模也在逐年增长,据腾讯游戏公共数据平台部总监崔玉明介绍,腾讯游戏已上线近100个StarRocks集群,共有1470个BE节点,1300个CN节点,湖数据量达4.99P。
金融营销、用户画像、自助分析、报表体验升级等场景都应用的数仓技术,在StarRocks社区内,不同行业、各种需求碰撞、交融,也产生了不少制胜场景。
过去一年,StarRocks先后发布了三个版本,其中3.0版推出的存算分离架构,在开源业界引起巨大反响。StarRocks TSC Member、镜舟科技 CTO 张友东介绍,升级到存算分离架构后,存储成本下降80%,计算节点可以通过快速弹性、跨可用区部署等方式提高计算的可用性,而且计算资源可以进行物理隔离,按需独立弹性伸缩。
据StarRocks官方说法,升级到3.1版本,并开启Local cache的情况下,存算分离架构下的性能表现已接近本地存储的水平。
目前, StarRocks的湖仓分析能力已支持internal、Data lake、JDBC、ES等catalog,还支持跨数据源的联邦分析。
此外,主键模型的能力在过去一年也持续提升,已支持全内存和持久化的索引,以及partial update、conditional update 的能力。在性能方面,针对批量更新的场景,引入了按列更新的模式,性能相比按行更新提升10倍以上。
湖仓一体新范式 朝云原生进化
“未来数据演进的趋势是湖仓一体,用户无需关注是建湖还是建仓,不管是构建数据湖还是构建数据仓库,企业最终的目标是低成本、高效的解决数据分析问题。” 张友东表示,StarRocks在具备存算分离、湖仓分析、物化视图等一系列特性后,实现了往Lakehouse引擎的升级,借助StarRocks可兼具数据湖和数据库仓库的优势。
目前已有数十家企业在基于StarRocks实践湖仓新范式。芒果TV采用StarRocks存算分离作为统一的Lakehouse,所有数据导入到StarRocks进行统一管理;微信实时数据写入到Iceberg,通过Iceberg直接分析;携程数据统一存储在 Hive,采用StarRocks直接查询加速报等。
“未来,StarRocks还会朝着云原生的方向迈进。”张友东提到,StarRocks将推动实时分析链路精简,通过“ETL on lakehouse,all in one ”的作业模式,帮助企业低成本、高效率地发掘数据价值。
StarRocks社区中,全局字典函数、同步物化视图增强、Paimon Catalog等在内的许多feature(特征)都由互联网大厂贡献。近年来,围绕StarRocks形成的商业生态越来越完善,产品不断落地。未来,社区还将帮助用户完成数据进化、技术进化和场景进化。