大数据保护的真谛:英国的实践方法

发表时间: 2024-04-18 16:28

近日,安全牛推出的中国网络安全行业全景图(第十一版)深度剖析了国内网安领域的最新动态,涵盖了16项一级安全分类与108项二级细分领域,堪称业界选型决策、业务攻坚、市场动态掌握不可或缺的“宝典”。

其中,除灾备基本盘外,英方软件还凭借i2HDFS入选了数据安全-大数据保护领域,那到底什么是大数据保护,英方又是如何实现的?

随着数字经济浪潮来袭,数据已被公认为最重要的生产要素。但数据与石油类似,也需经过采集、处理才能被广泛应用,这使得以Hadoop为代表的开源大数据处理平台获得了广泛认可。

就中国市场而言,经历多年的发展,大数据平台产品的普及率逐步提升,在金融、政务、运营商等多个行业中得到了广泛应用。尤其是随着大量智慧应用的涌现,AI/ML与大数据处理平台融合的趋势明显,让大数据平台产品重要性日趋凸显。

据IDC预测,2027年中国数据量规模将超过76.6ZB,其中企业数据量占比将从60%增长至76%。在数据规模不断提升的大背景下,大数据安全问题也迫在眉睫。如何保证Hadoop等大数据平台安全、高效、稳定运行正在成为很多企业头疼的难题


大数据容灾的几大误区

当前,大数据平台已经成为了许多企业、组织乃至整个社会的关键基础设施。这些平台承载着海量的数据,涉及用户信息、业务数据、交易记录等多个方面,对于企业的运营决策、风险管理以及创新发展都具有不可替代的作用。为此,确保大数据平台的安全稳定运行至关重要。

事实上,近年来大数据安全事件屡见不鲜,但企业对于大数据平台的安全保护误区却依旧存在。

比如,如今很多企业的数据规模达到了PB级,虽然大数据平台拥有多个数据副本,但多数企业却认为并不需要单独的备份/恢复工具;

又如,大数据包含了大量非结构化数据,很多企业认为备份PB级别的大数据往往是一件不切实际且没有意义的事情;

再如,企业认为大数据丢失的话,可以通过原始数据快速且轻松地重构……

显然,这些误区是企业过去多年固有认知造成的。当下,无论是数据规模、数据种类,还是数据处理需求均在发生根本性变化。现阶段,千亿参数的大语言模型和AIGC应用的兴起,带来了更加复杂、多样的数据处理需求。

大数据不仅收集所有数据,还在持续不断地产生新的数据。这些新数据往往具有多样性、实时性和不确定性等特点,因此难以全面收集。此外,大数据的收集过程本身也耗时耗力,且伴随着一定的挑战:数据量庞大,数据处理速度快,数据类型繁多,对数据的实时性、准确性和完整性要求极高。一旦发生数据丢失或处理中断,可能会给企业带来严重的后果。

为了有效应对这些挑战并确保数据收集和分析的正常开展,企业和组织需从业务连续和数据安全的角度出发进行灾备系统建设,进而确保数据的安全和可靠性,最终在数字经济时代获得核心竞争力。


i2HDFS为大数据安全护航

作为灾备领域领先厂商,英方软件填补了国内市场关于大数据平台容灾的空白,推出i2HDFS大数据平台实时同步产品

i2HDFS是一款用于大数据平台实时事务数据捕获与同步的高性能系统。产品通过监听源大数据平台上的变化事件,实时同步变化数据到目标大数据平台,可实现跨集群的大数据平台实时复制,为企业解决大数据平台PB级数据迁移、迁移验证、备份和恢复、容灾等场景下的烦恼,确保大数据平台的生产业务不中断,数据不丢失。

大型城商行大数据平台容灾实践

某大型城市商业银行大数据分析服务平台已上线运行数年,承担着全行关键数据的存储与分析工作。

随着大数据平台重要性等级的提升以及频频发生的宕机事件,灾备系统建设的合规性要求愈发严格。现阶段,该行业务数据大幅增长,出现了小文件增多,影响数据分析性能;冷数据占比过高等系列问题,如不得到及时解决,将影响该行数据应用、数据服务、数据分析等数字化场景的正常开展。

基于此,目前该行亟需进行容灾建设,以实现数据同步、存算分离。在确保大数据平台高效分析的同时,确保全行的数据安全及业务系统的稳定运行。

针对该大数据平台PB级的数据,通过英方i2HDFS等相关产品,将源端大数据平台中的数据实时同步至目标端,实现大数据平台的容灾,备端提供只读访问功能,供多方订阅。

最终实现在将数据准实时同步至大数据只读集群,读写分离,提高数据分析效率的同时,冷热数据分离存储,有效降低数据存储成本。

IDC最新调研数据显示,当前接近80%的企业中,AI/ML与数据处理平台的融合度低于50%。这意味着,未来大数据平台等数据基础软件未来将迎来一轮升级。其中,大数据平台的容灾能力作为重要一环,是企业IT建设不可忽视的一部分

随着英方i2HDFS在金融、制造、医疗等行业用户的相继落地应用,未来也将为更多用户的大数据平台保驾护航。