近日,在微软Iginte全球技术大会上,微软发布了一系列AI相关的全新优化模型、开发工具资源,旨在帮助开发者更深入地释放硬件性能,拓展AI场景。特别是在与NVIDIA的合作中,微软为开发者提供了一系列强大的AI加速和应用解决方案。
微软发布的TensorRT-LLM封装接口,专为OpenAI Chat API设计,可以在NVIDIA硬件上实现更好的加速和应用。这款库可以大幅提升AI推理性能,并且还在不断更新中,以支持越来越多的语言模型。值得一提的是,TensorRT-LLM是一款开源库,这意味着开发者可以自由地使用和改进它。
此外,微软还为Windows平台发布了TensorRT-LLM,使得配备RTX 30/40系列GPU显卡的台式机、笔记本可以轻松地完成要求严苛的AI工作负载。只要显存不少于8GB,开发者就可以在本地直接运行各种AI应用,而不需要连接云端,这对于保护私有数据和防止隐私泄露具有重要意义。
微软还与NVIDIA合作,为开发者提供了丰富的优化模型和资源。例如,即将发布的TensorRT-LLM v0.6.0版本将在RTX GPU上带来最多达5倍的推理性能提升,并支持更多热门的 LLM,包括全新的70亿参数Mistral、80亿参数Nemotron-3。这将使得台式机和笔记本也能随时、快速、准确地本地运行LLM。
根据实测数据,RTX 4060显卡搭配TenroRT-LLM,推理性能可以跑到每秒319 tokens,相比其他后端的每秒61 tokens提速足足4.2倍。而RTX 4090则可以从每秒tokens加速到每秒829 tokens,提升幅度达2.8倍。
强大的硬件性能、丰富的开发生态、广阔的应用场景,使得NVIDIA RTX正成为本地端侧AI不可或缺的得力助手。越来越多的优化、模型和资源,也在加速AI功能、应用在上亿台RTX PC上的普及。目前已经有400多个合作伙伴发布了支持RTX GPU加速的AI应用、游戏,而随着模型易用性的不断提高,相信会有越来越多的AIGC功能出现在Windows PC平台上。
总的来说,微软Iginte全球技术大会展示了AI领域的最新成果,为开发者提供了丰富的资源和工具,帮助他们更好地开发和应用AI技术。这不仅是微软和NVIDIA之间的深度合作,也是整个AI行业发展的一个重要里程碑。