掌握今日大型模型行业挑战:基础模型与长文本处理全解析

发表时间: 2024-03-29 12:34

作者 | 连冉

编辑 | 郑玄

3 月 23 日-24 日,聚焦全球开发者精英,由上海市人工智能行业协会(SAIA)主办的 2024 全球开发者先锋大会(2024 GDC)在上海举办。

这场大会是中国大模型公司展示其最新科研成果和技术创新的重要舞台,极客公园 Founder Park 作为大会战略合作伙伴联合打造了「大模型展示及研讨专区」,与波形智能、Dify.AI、百川智能、Zilliz、月之暗面、Kyligence、Xmind AI、看见概念、弥知科技一众国内优秀的 AI 企业,打造了AI产品互动展区,并举行了 Workshop 和创业者闭门交流会等行业向的分享内容。

极客公园|Founder Park 大模型展示及研讨专区

来自国内大模型领域最前沿的创业者和技术专家,分享了他们的行业认知,讨论了基础大模型、长文本、数据,以及应用落地等行业关键问题。

我们梳理了所有嘉宾的分享内容,提炼了其中的关键信息。不论是在大模型领域工作、创业,还是单纯关心行业发展,他们的分享都对洞察行业有极大的帮助。

周王春澍,波形智能Cofounder & CTO,《大模型如何做到超长文本写作》

波形智能是最早将大型语言模型应用于互联网场景的科技企业之一。通过自研模型,波形智能构建了覆盖全产业链的AI交互内容平台。GDC 期间,波形智能展示了其 AI 创作大模型「Weaver」及其首款产品「蛙蛙写作」,这是一个能够生成几十万字甚至上百万字长篇小说的工具。

Workshop 期间,周王春澍分享了大模型在超长文本写作方面的创新技术与应用。

首先,他介绍了RecurrentGPT技术,这是一种能够处理并生成无限长文本的方法,它通过架构的改变和额外的训练,使得模型能够处理更长的输入数据。这种技术的核心在于高效/稀疏注意力机制、递归神经网络(RNNs)和状态空间模型,它们共同提升了模型处理长文本的能力。

周王春澍进一步阐述了记忆增强的代理(Memory-Augmented Agent)的概念,其中包括短期记忆和长期记忆的应用。短期记忆使得模型能够处理更复杂的上下文信息,而长期记忆则赋予了模型在更长时间内保留和回忆信息的能力,这通常通过外部向量存储和快速检索系统来实现。

Recurrent Prompting是另一种关键技术,它通过计划、概述、行动、写作为、记忆更新和总结等步骤,不仅提高了文本的连贯性,还有助于故事和小说的规划。

波形智能推出的Weaver大模型作为全球领先的创作工具,通过Instruction BackTranslation和Constitutional DPO等技术,使得生成的内容更具人类特色,提升了写作的「人」味。

在个性化和垂直领域写作方面,Weaver模型展现了其强大的适应性,能够根据特定的参考文风生成相似的旁白,覆盖了创意写作的多个方面,如写作、续写、润色、风格迁移和总结等。此外,Weaver模型在性能上超越了同型号的GPT-4,同时在成本效益上表现出色,比GPT-4便宜10倍,比GLM-4便宜5倍。

在训练方法上,Weaver模型采用了持续预训练、监督式微调和偏好优化等策略。特别是在偏好优化方面,采用了Constitutional DPO方法,通过专家原则注释和数据合成来提升训练数据的质量,从而提高了模型的性能。

最后,周王春澍介绍了Weaver模型的应用场景,包括为开发者提供的标准化API、云端和本地的私有化部署选项,以及Weaver-Ultra和蛙蛙写作1.0等产品。这些服务以其自然的笔风、个性化训练、快速生成和情感细腻等特点,为企业级客户提供了定制化的解决方案,推动了人工智能在创意写作领域的应用和发展。

波形智能展台

何文斯,Dify.AI 产品负责人,《Dify Workflow:从 Prompt 工程到 Flow 工程》

Dify.AI 是一个全球领先且开源的大型语言模型应用开发平台,由前腾讯云 CODING DevOps 核心团队创建。自去年5月上线以来,Dify.AI 已经取得了显著的成就,包括在 GitHub 上获得超过 18K的 star。

作为Dify.AI 的产品经理,何文斯探讨了从传统的 prompt 工程向流程工程(Flow Engineering)的转型,并分享了Dify.AI 在这一领域的实践和成果。

何文斯解释了流程工程的核心概念,这是一种通过将复杂任务分解为更小、更易管理的步骤来降低系统复杂度的方法。这种方法通过增加人类监督和控制,减少了对单一提示词技术和模型推理能力的依赖,从而提高了大型语言模型在处理复杂任务时的性能。

何文斯举例说明,在代码编程任务中,基于GPT-4的成功率通过流程工程从19%提升至44%。这种方法通过减少对提示词技术和模型推理能力的依赖,提高了系统的可观测性、稳定性和容错性。他强调,流程工程的关键优势在于其可观测性、稳定性和容错性。

演讲中,何文斯还讨论了为什么需要流程工程。他指出,过长的提示词会导致大型语言模型的指令遵循能力下降、注意力丢失和产生幻觉。此外,他提到了大型语言模型在推理能力上的局限性,尤其是在多步骤推理任务中,准确率会随着步骤的增加而显著下降,根据 Berkeley Function Call Leaderboard 的数据,多步工具调用达到4次以上时,整体准确率会降到50%以下。何文斯还讨论到 Yann LeCun教授观点:LLM并不是通往AGI的充分途径,因为其缺乏对物理世界的理解和分层推理能力。

演讲中讲到吴恩达教授最新提出的“AI Agent Workflow(智能体工作流)”,这一概念应用的正是流程工程的理念,智能体工作流将会大规模推动今年 AI 的进展,甚至有可能超越下一代模型。强烈建议所有 AI 领域的工作者关注这一领域。

何文斯进一步分析了流程工程适用的应用情景,将其分为严肃情景和创意情景。严肃情景,如企业知识库、聊天机器人和数据分析,更依赖于流程工程和传统技术,落地难度较高;而创意情景,如情感陪伴、营销写作和文章翻译,落地难度较低,流程工程可以显著提高生产力。

在演讲的最后部分,何文斯介绍了Dify.AI 正在开发的新产品——Dify Workflow。他提到,这个产品将提供更多的人类监督和控制,以及更好的任务迭代处理流程。

Dify.AI 展台

高雨辰,百川智能算法总监,《打造大模型时代的超级底座》

百川智能是一家研发通用人工智能并提供相关服务的中国公司,核心业务是打造基础大模型及其颠覆性上层应用,是目前国内领先的大模型技术公司之一。

高雨辰谈到了百川智能采用的技术策略与解决方案:百川智能借鉴传统计算机架构,将大模型视为新时代的「CPU」,并强调内存(上下文窗口长度)和硬盘(搜索增强技术)的重要性。公司提出了「大语言模型+搜索增强」技术路线,通过结合互联网实时信息和企业知识库,解决了大模型实时数据不足和专业数据不足的问题。百川智能还推出了百川智能知识库产品,该产品结合了向量搜索和稀疏索引,以及消除模型幻觉的能力,为用户提供了高效、准确的信息服务。

高雨辰也分享了百川智能在大模型方面的认知:

  • 大模型落地面临着人才、算力、训练周期、效果稳定性和更新升级等多方面的挑战。尤其是在人才方面,训练领域大模型对算法人员的要求极高,而在算力方面,甲方通常有自身的需求,这些都增加了大模型落地的成本和复杂性。
  • Agent不仅仅是一个工具,而是能够创造和使用工具的智能体。公司的最终目标是造出一个能够创造工具并使用工具的Agent,这将是一个重大的技术突破。

最后高雨辰还谈到了百川智能在商业化方面的思考: 在ToB领域,将持续探索大模型能力边界,与金融、消费、娱乐等领域的头部企业共同探索大模型的行业落地。也将不断探索大模型技术的前沿创新,打造面向C端的超级应用。

百川智能展台

Jerry,Zilliz 开发者生态及市场运营负责人,《2024 年重新再来说说什么是向量数据库》

Zilliz 是一家致力于开发用于 AI 应用的非结构化数据平台的公司,是全球最流行的开源向量数据库 Milvus 的创造者,被广泛应用于如图片分析、视频分析、语音分析、自然语言处理(NLP)、自动驾驶和AIoT等。Milvus 被全球超过 5000 家企业使用,累计下载安装量超过 20 M。2023 年,Zilliz 又推出了基于 Milvus 的云原生服务 Zilliz Cloud,已实现全球 5 大云 13 个节点的全覆盖,是全球首个提供海内外多云服务的向量数据库企业。

Jerry首先指出,向量数据库的概念已经出现和发展了五六年,并且在业界已经有了广泛的实践和开源尝试。他提到,自从2015年到2018年间向量检索算法取得了显著进步以来,这一领域的需求和演进一直在增长。

在解释向量和向量检索的基本概念时,Jerry强调了向量在表示非结构化数据特征方面的重要性。他提到,通过深度学习模型,可以将非结构化数据转换为向量,从而在多维空间中进行高效的检索。他还讨论了最近邻问题在向量检索中的核心作用,以及如何通过不同的算法来解决这一问题。

Jerry 介绍,Milvus作为全球首款开源向量数据库,由Zilliz开发,具有云原生分布式的特点,支持存储计算分离和高可用性。Milvus 2.0版本集成了多个AI生态系统,如OpenAI、Langchain、Huggingface和Pytorch,提供了强大的功能和灵活性。Jerry提到,Milvus在GitHub上拥有超过26,000个星标,下载量突破千万,显示了其在社区中的受欢迎程度。去年Zilliz也推出了基于Milvus的云服务Zilliz Cloud,为AIGC用户提供了开箱即用的向量数据库服务,丰富生态的同时也进一步降低了使用门槛和成本。

然而,Jerry也指出了向量数据库面临的挑战,包括非结构化数据与向量存储之间的割裂、缺少embedding能力以及无法直接对接常用数据源等问题。他预见,向量数据库的未来发展可能会朝向非结构化数据处理平台的方向发展,这将涉及到更多的数据处理任务,如ETL、embedding、向量检索和数据分析。

在讨论开源和商业化的问题时,Jerry强调了开源对于技术公司从0到1的重要性,并分享了他对开源项目如何影响商业化的看法。他提到,尽管开源可能会带来一些商业化的挑战,但Zilliz将继续支持开源,并提供商业化版本以满足不同用户的需求。

Zilliz 展台

唐飞虎,月之暗面开发者关系负责人,《从 LLM Riddle 到哄哄模拟器,Moonshot AI大模型应用实战案例分享》

月之暗面 (Moonshot AI) 创立于2023年3月,致力于寻求将能源转化为智能的最优解,通过产品与用户共创智能,2023年10月推出全球首个支持输入20万汉字的智能助手产品Kimi,2024年3月18日,月之暗面宣布旗下产品Kimi 在长上下文窗口技术上再次取得突破,无损上下文长度由20万字提升至200万字。

唐飞虎在 Moonshot AI 担任开发者关系职位的职责,他的主要任务是向开发者分发模型代金券,并支持富有创意的项目,例如独立游戏开发者阿case在B站分享的大模型解谜游戏体验。

唐飞虎谈到,随着多模态模型的进步,结合stable diffusion模型的流程或工作流可以创造出新的应用形式。他还提到了大模型在游戏中作为模式的应用,使得玩家能够与NPC进行直接对话。他强调了模型微调和提示工程在大模型应用中的关键作用,并指出随着模型能力的增强,原本需要微调的任务现在可以通过提示工程来实现。

在分享中,唐飞虎谈到了Moonshot AI推出的200万字大模型试用版,这是一个具有里程碑意义的版本,因为它的大规模使得它在理解和生成文本方面具有更强的能力。他举例说明了用户如何使用这个模型来模仿《红楼梦》中林黛玉的言谈举止,这表明了模型在理解和模仿文学作品中角色的独特语言风格方面的潜力。

具体来说,用户可以通过向模型提供一些关于林黛玉的背景信息和特定的文本样本,来指导模型生成类似风格的文本。这种模仿不仅仅是简单的文本复制,而是模型在理解了林黛玉的性格、语言习惯和情感表达后,生成的具有相似风格的新文本。这样的应用展示了大模型在文学创作、角色模拟和内容生成方面的巨大潜力。

唐飞虎鼓励开发者利用Moonshot AI的开放平台进行尝试,这意味着开发者可以注册并使用这个大模型来实现自己的项目和创意。开放平台提供了一个实验场,开发者可以在这里探索大模型的各种可能性,无论是在文学创作、游戏设计、教育工具开发还是其他任何可以想象的应用场景。这些信息表明Moonshot AI不仅提供了强大的技术工具,还建立了一个支持创新和实验的生态系统,旨在促进开发者社区的成长和发展。

关于Moonshot AI意外迎来了大量流量,导致线上服务一度崩溃。唐飞虎解释说,这是公司没有预料到的情况,但已经采取了多种方法,例如增加更多的计算机器,更智能的调度策略,期望能够缓解短期内流量指数增加的问题。

关于产品线,唐飞虎强调,Kimi的主要目标是面向消费者市场(ToC),因为公司相信通过大模型的扩展(scaling)可以赋能用户和开发者,而面向企业市场(ToB)的挑战在于需要极高的定制化成本,而随着模型能力升级,这些定制化工作往往会成为累赘。

月之暗面展台

李栋,Kyligence 合伙人兼副总裁,《大数据+大模型:高效开发企业数据产品和数据资产》

Kyligence是一家领先的Data + AI企业服务软件供应商,由Apache Kylin的创始团队于2016年成立,专注于数据分析、指标平台及AI技术。公司获得了全球和国内头部分析机构的认可,并受到头部投资机构的支持。

李栋的演讲围绕「指标+AI」这一核心议题展开,阐述了大数据与大模型如何结合并实际落地。他强调了企业数据产品在BI向AI转变过程中的重要性,包括决策增强、决策支持和决策自动化。通过引用Peter Drucker(彼得·德鲁克)的名言,李栋强调了衡量和管理数据的重要性,并指出指标作为统一的数据语言,对于数据决策知识积累至关重要。

在AI时代,企业业务决策将更多依赖于AI,涵盖决策增强、决策支持和决策自动化。AI要成为数据驱动的关键,首先需要理解企业的指标体系,这是数据和业务的共同语言。

Kyligence 提供智能一站式指标平台产品 Kyligence Zen,并内置 AI 数智助理 Kyligence Copilot。通过利用大语言模型自动评估 KPI、业务归因并指导行动,帮助用户通过自然语言对话代替传统的可视化报表,提供数据摘要和自动归因分析等功能。李栋还提出了 AI 时代数据产品的新形式,包括自然语言对话、自动化经营战报、移动端数据洞察、集成 IM 实现从洞察到决策的闭环,以及开放接口和低代码集成第三方。李栋还演示了这一产品在银行业的应用场景。

李栋还讨论了 AI 数据分析需要解决的技术挑战,如数据和结论的正确性、用户问题的理解、数据口径的统一、数据权限管理等。Kyligence 采用的技术路线是“指标+AI”,即通过指标平台管理和计算指标,以保障数据查询的准确性。指标平台还保障数据安全性,实现用户权限控制和避免数据篡改风险。

最后,李栋分析了大模型在数据分析场景下的能力评测结果,指出参数量在400亿以上的大模型效果较好,且国产大模型在某些场景下优于GPT3.5。他的演讲总结了Kyligence在大数据与大模型结合方面的见解和实践,展示了公司如何通过创新技术提升AI在企业中的应用可靠性,并推动数据产品的新形式发展。

Kyligence 展台

夏袭韵,Xmind AI 产品负责人 & 王安之 Xmind AI 产品经理,《思·释·卜 - AI 创新应用三重奏》

Xmind是最专业和最流行的思维导图工具,今天近千万用户使用Xmind来澄清思维,管理复杂的信息,头脑风暴。夏袭韵作为Xmind AI 产品负责人,分享了Xmind的发展历程并重点介绍了其负责的 AI 思维导图产品。

夏袭韵展示了Xmind AI 和 Chatmind两款产品的特色和优势。Xmind AI通过内置的Copilot功能,针对团队协作场景提高创造力和生产力;Chatmind则更专注于个人用户,通过大模型和prompt的协作,提供个人思维扩展的工具,帮助用户一句话生成和优化思维结构。

夏袭韵进一步强调了AI技术在思维导图中的应用,通过AI的能力,用户可以高效地整合各种格式的信息,如PDF、链接、图片和视频,直接转化为思维导图摘要,显著提高了输入效率。同时,AI技术还能够帮助用户拓展思维边界,在输出内容时提供多样化的选项,满足不同场景的需求,大大降低了用户使用思维导图的门槛。

随后夏袭韵分享了在AI native产品中具体的设计实践,包括如何明确使用场景、提供明确的产品用途、构建足够的上下文以及结合图形界面和语言界面的优势。她强调,在产品中提供有用的信息给大模型能够更好地理解用户意图。

王安之则分享了AI大藏经这款产品,它帮助用户以文言文对照白话文的形式阅读佛经,大大降低了用户的学习成本。他提到,尽管佛经的文本量巨大,翻译难度高,但通过AI技术,他们能够很好地完成这一艰巨任务,让更多人能够轻松获取、理解和学习佛经知识。

接着,王安之进一步介绍了佛经机器人的开发,它能够通过对话的形式深入学习佛经相关知识,并找到佛经中对应的相关内容。以及AI大藏经非常重视用户的反馈,通过专业人士的使用反馈来优化翻译质量。

最后,王安之还提到了近期发布的新品AI塔罗牌应用——Quin,它提供了一种全新的自我探索和决策辅助方式。Quin能够模仿人类塔罗师的方式,提供个性化的解读和持续对话,成为一个全天候的塔罗牌伙伴。

Xmind AI 展台

胡修涵,看见概念创始人,《AI 时代下的 UGC 内容社区,能有什么想象力?》

「看见概念」的目标是「让每个人的故事被看见」,其愿景是构建一个AI时代的UGC内容社区,鼓励和支持创造性表达和故事分享。

胡修涵在其演讲中提出了一个关于AI时代下UGC内容社区的愿景,即通过「看见概念」公司,实现「让每个人的故故事被看见」的目标。他认为AI时代为UGC内容社区带来了新的机会,尽管变化可能比预期慢,但他相信这一变化正在发生。

他强调内容生产是驱动需求变化的关键因素,特别是在内容平台如抖音和小红书的发展中,供给侧的爆发先于消费形式的变化。

胡修涵提出了社会化创新的概念,认为广泛的公众参与是内容创作的关键。他提倡开源内容协作,认为这不仅可以带来文化认同,还能满足小众爱好的需求。在AI时代,这种个性化的供需关系变得更加可行。此前的NFT等新兴趋势表明,围绕共识构建故事可以构成价值。

在AI的角色定位上,胡修涵认为AI应作为叙事的编曲家,而非简单的内容生成器。他通过实验和实践,展示了AI如何在UGC内容创作中发挥作用,尤其是在世界观构建、角色设计和情节生成方面。他强调,尽管AI能提供知识和关联,但创意的核心灵感仍需人类提供。

在技术层面,胡修涵探讨了AI作为创作伙伴的角色,强调了AI作为Composer而非Creator的角色,以及在GenAI下技术可行性的讨论。他提出了通过AI技术实现创意的概念,即使是简单的模板创作也能变得有意义。

胡修涵还分享了他们团队进行的内容实验,通过控制变量的方法来探索哪些AI内容能够在最少人为参与下获得持续流量。他们发现,世界观可以通过平台构建,角色设计可以由用户轻松完成,但情节的控制仍然是一个挑战。他强调了无论是PGC、UGC还是AIGC,找到最有效的内容要素供给方式是至关重要的,保证尽可能AI化的前提下还要有人愿意消费制作出来的内容。

最后,胡修涵提出了基于社区的创作分享目标,以及社区和MMORPG的结合,鼓励用户通过活动和角色扮演来创作和分享故事。他展望了一个通过技术进步,如基础视觉模型的升级,来讲述更好故事的未来,并强调了持续改进演绎细节能力的重要性。

他相信随着技术的进步,每个人都能参与到故事游玩和创作过程中。他认为,原创和二创之间的界限将变得模糊,而创意和创新的效率将得到前所未有的提升,推动人类文明的进步。

看见概念展台

结语

GDC大会为大模型领域的企业提供了一个展示技术创新的平台。例如,波形智能展示了其在超长文本写作方面的技术突破,Dify.AI介绍了从Prompt工程到Flow工程的转型,百川智能和Zilliz分别分享了他们在大模型技术和向量数据库方面的进展。这些分享不仅展示了企业的技术实力,也促进了行业内的技术交流和知识的传播。

通过Workshop和闭门交流等形式,大会促进了对大模型技术在不同行业应用的深入探讨。例如,月之暗面(Moonshot AI)分享了其在游戏开发中的潜力,Kyligence讨论了大数据与大模型结合的实践,而Xmind AI和看见概念则分别探索了AI在思维导图和UGC内容社区中的应用。这些讨论有助于行业内的企业和专家更好地理解大模型技术的多样化应用,推动相关领域的创新和发展。

GDC大会也为大模型领域的商业模式提供了探索的机会。企业通过分享他们的产品和解决方案,展示了如何将大模型技术商业化,并创造新的收入来源。这些讨论和展示有助于启发行业内其他企业思考如何有效地将技术创新转化为商业价值。

通过互动展台等形式,GDC大会为公众提供了了解和体验大模型技术的机会。这有助于提升公众对大模型技术及其应用的认知,增加社会对该领域的兴趣和支持,为行业的长期发展营造良好的社会环境。GDC大会的成功举办,也反映了中国政府对人工智能和大模型领域的重视和支持。通过这样的国际性大会,可以向世界展示中国在这一领域的成就和潜力,为中国大模型领域与全球市场的接轨提供了平台。