微软全新知识图谱技术GraphRAG深度解析

发表时间: 2024-07-08 19:37

在 AI 领域,检索增强生成(RAG)技术已经成为提升大语言模型(LLM)性能的工具。RAG 通过结合外部数据库的信息,让 LLM 的回答更加准确。传统的 RAG 在处理复杂和全局性问题上存在一定的局限。

微软最近推出的 GraphRAG 技术,通过创建知识图谱,提升了 RAG 的性能。GraphRAG 不仅能在细节上精确匹配文本,还能在全局范围内连接数据点,提供更准确和全面的答案。这项技术在处理复杂信息和回答全局性问题时表现出色。

GraphRAG 的发布增强了 AI 聊天机器人和回答引擎的性能,并为企业处理私有数据集提供了工具。GraphRAG 已经在 GitHub 上免费开放,任何人都可以使用这一技术来提升自己的 AI 应用。

GraphRAG 通过知识图谱解决了 RAG 的不足。知识图谱是一种能把数据中的信息连接起来的结构化表示方式。GraphRAG 通过从索引到的文档中创建知识图谱,更准确地回答问题。GraphRAG 不再仅仅依赖最相似的几个文本块,而是利用整个数据集来提供答案。

GraphRAG 的核心在于知识图谱的创建和应用。知识图谱可以把各种“实体”(比如人、地点、概念和事物)之间的关系表示得很清楚,方便机器理解。GraphRAG 通过创建所谓的“社区”,把一般主题和更细化的主题分层次组织起来,然后由 LLM 对每个社区进行总结,形成“数据的层次化摘要”来回答问题。

我会用中文重新构建这张图片的内容:

问题:哪些公众人物在各种娱乐文章中被反复提及?

一般 RAG 回应:

在各种娱乐文章中被反复提及的公众人物包括<公众人物 1、2、3 和 4>。这些个人因各种原因备受关注,从他们的职业成就到个人生活。

<公众人物 1> [...]

<公众人物 2> [...]

<公众人物 3> [...]

<公众人物 4> [...]

这些人物经常被报道是因为他们的高知名度以及公众对他们的职业和个人生活的兴趣。他们在音乐、体育或个人关系方面的活动都有重大的文化和经济影响,这从媒体报道和公众反应中可以看出。

图谱 RAG 回应:

娱乐行业广泛而多样,包括电影、电视、音乐、体育和数字媒体。某些公众人物因其在这些领域的重大贡献和影响而脱颖而出。以下总结列出了在各种娱乐文章中反复被提及的关键人物,反映了他们在行业内的影响力和存在感。

演员和导演 [... 20 位人物 ...]

争议中的公众人物 [... 3 位人物 ...]

音乐人和高管 [... 5 位人物 ...]

运动员和教练 [... 7 位人物 ...]

网红和企业家 [... 3 位人物 ...]

这些人物在娱乐文章中被反复提及,说明他们持续的相关性和公众对其工作的兴趣。他们的影响力涵盖了娱乐的各个方面,从塑造电影和电视的文化叙事到推动音乐和数字媒体的趋势。这些个人不仅对各自的领域有贡献,还影响着更广泛的文化景观,经常成为社会讨论和公共话语中的核心人物。

LLM 评估:

全面性:获胜者 = 图谱 RAG

多样性:获胜者 = 图谱 RAG

赋能性:获胜者 = 图谱 RAG

这种层次结构让 GraphRAG 在回答问题时既能提供高层次的概览,又能给出准确的细节。实际应用中,它在处理私有数据集时,能基于整个数据集给出全面的回答,而不只是依赖最相似的文本块。

微软还发布了一个解决方案加速器,提供了一个易于使用的 API 体验,托管在 Azure 上。这一举措旨在促进社区的参与和合作,允许爱好者和专家为 GraphRAG 的发展和改进做出贡献。开源性质确保了更多人能够从这些技术进步中受益。

GraphRAG 的未来面临挑战,比如高昂的索引和全局搜索成本、响应速度较慢等问题。未来的研究将致力于优化这些方面,降低成本,提高性能。随着技术不断发展,GraphRAG 在处理多模态数据和实现更复杂的语义推理上也有望取得突破。

论文:https://arxiv.org/html/2404.16130v1