MIT团队革新数据库:生成式AI助力轻松数据分析

发表时间: 2024-07-09 18:36


一种新工具让数据库用户在无需了解幕后机制的情况下,更轻松地对表格数据执行复杂的统计分析。


GenSQL,这一数据库生成式 AI 系统,能够帮助用户只需按几下键即可完成预测、异常检测、缺失值推测、错误修正或生成合成数据。


例如,若该系统用于分析一贯高血压患者的医疗数据,它能捕捉到对于该特定患者而言偏低但通常处于正常范围内的血压读数。


(来源:MIT News)


GenSQL 自动集成表格数据集与生成式概率 AI 模型,该模型能够考虑不确定性,并基于新数据调整其决策过程。


此外,GenSQL 可用于生成并分析模拟数据库中真实数据的合成数据,这对于不能共享敏感数据(如患者健康记录)或真实数据稀疏的情况特别有用。


这一新工具建立在 SQL 基础之上,SQL 是一种自 20 世纪 70 年代末推出的数据库创建与操作编程语言,全球数百万开发者使用。


“从历史上看,SQL 教会了商业世界计算机可以做什么。他们不必编写定制程序,只需用高级语言向数据库提问即可。我们认为,当我们从单纯查询数据转向向模型和数据提问时,我们将需要一种类似的语言来教会人们如何向具有数据概率模型的计算机提出连贯的问题。”MIT 大脑与认知科学系概率计算项目负责人、资深作者 Vikash Mansinghka 如是说。


当研究者将 GenSQL 与流行的人工智能数据分析方法比较时,发现它不仅速度更快,而且结果更为准确。尤为重要的是,GenSQL 使用的概率模型是可解释的,用户可以阅读和编辑这些模型。


论文的主要作者、来自大脑与认知科学系及概率计算项目的研究员 Mathieu Huot 补充道:“仅使用一些简单的统计规则观察数据并试图寻找有意义的模式,可能会遗漏重要的交互作用。你真正想要做的是在一个模型中捕获变量之间的相关性和依赖性,这可能相当复杂。通过 GenSQL,我们想让大量用户能够在不必了解所有细节的情况下查询他们的数据和模型。”


参与该论文的还有 MIT 研究生 Matin Ghavami 和 Alexander Lew、研究员Cameron Freer、Digital Garage 的 Ulrich Schaechtel 和 Zane Shelby、电气工程与计算机科学系教授及计算机科学与人工智能实验室(CSAIL)成员 Martin Rinard,以及卡内基梅隆大学助理教授 Feras Saad。这项研究最近在 ACM 编程语言设计与实现会议上公开。


(来源:Proceedings of the ACM on Programming Languages)


结合模型与数据库


SQL(结构化查询语言)是一种用于存储和操作数据库中信息的编程语言。通过SQL,人们可以使用关键词(如汇总、过滤或分组数据库记录)对数据提问。


但查询模型能提供更深入的洞察力,因为模型能捕捉数据对个体的含义。例如,一位女开发者若想知道自己的薪酬是否过低,她可能更关心对她个人而言薪酬数据意味着什么,而不是数据库记录中的趋势。


研究者注意到 SQL 没有提供有效方式来整合概率 AI 模型,而同时,使用概率模型进行推断的方法又不支持复杂的数据库查询。


他们构建了 GenSQL 来填补这一空白,使得用户能利用直接而强大的正式编程语言查询数据集和概率模型。


GenSQL 用户上传他们的数据和概率模型,系统自动集成这些信息。随后,用户可以运行查询,这些查询同时受到后台运行的概率模型输入。这不仅允许更复杂的查询,还能提供更准确的答案。


例如,在 GenSQL 中的一个查询可能是:“西雅图的开发者熟悉 Rust 编程语言的可能性有多大?”如果仅查看数据库中列之间的相关性,就可能会忽略微妙的依赖关系。而整合概率模型能捕捉更复杂的交互。


此外,GenSQL 采用的概率模型是可审核的,人们可以看到模型用于决策的数据。此外,这些模型为每个答案提供了校准不确定性的度量。


例如,借助这种校准不确定性,如果用户就少数群体(在数据集中代表性不足)患者的癌症治疗预测结果询问模型,GenSQL 会告知用户其不确定程度,而非过分自信地推荐错误的治疗方法。


更快且更准确的结果


为了评估 GenSQL,研究者将其系统与流行的神经网络基线方法进行了比较。GenSQL 的速度是这些方法的 1.7 至 6.8 倍,在几毫秒内执行了大多数查询,同时提供了更准确的结果。


他们还通过两个案例研究应用了 GenSQL:一个系统识别出临床试验数据的错误标签,另一个则生成了准确的合成数据,捕获了基因组学中的复杂关系。


接下来,研究者希望更广泛地应用 GenSQL 来进行大规模的人口建模。通过 GenSQL,他们可以生成合成数据,以控制分析中所用信息的同时,对健康和薪资等事项进行推断。


他们还想通过增加新优化和自动化功能使 GenSQL 更易用、更强大。长远来看,研究者希望让用户能以自然语言在 GenSQL 中提问,目标是最终开发出类似 ChatGPT 的 AI 专家,用户可以就任何数据库与其交谈,其答案依据 GenSQL 查询得出。


该研究部分由美国国防高级研究计划局(DARPA)、谷歌和 Siegel 家族基金会资助。


原文链接:https://news.mit.edu/2024/mit-researchers-introduce-generative-ai-databases-0708