OpenAI的AI PDF工具如何一年内吸引五十万用户?

发表时间: 2024-11-27 10:15

Z Talk 是真格分享认知的栏目。

AI PDF 是一款可以帮助用户总结、聊天和整理 PDF 文件的工具,上线于去年年底。在不到一年时间里,AI PDF 迅速扩张并获得约 50 万注册用户,在 GPT Store 中完成了超过 200 万次对话,并屡次被 OpenAI 推荐。

作为 AI PDF 的创始人兼 CEO,Vicente Silveira 经常听到自己的「死亡倒计时」:在 OpenAI 宣布允许用户上传文档时,人们认为所有 GPT 套壳产品都完蛋了。而

如今,AI PDF 是世界上最受欢迎的 AI

PDF 阅读器之一,他们只依靠一个五人团队和一轮融资,就做到了现在的成绩。

在近期的一次访谈中,同样是 GPT 套壳产品创业者的 Dan Shipper 与 Vicente Silveira 深入交流了 AI 套壳产品如何存活、小规模和专业化如何成为创业的早期战略优势,以及为什么套壳产品不会被 ChatGPT 碾压等问题。

本文转载自 Founder Park,以下是全文:

01 在 PDF 处理上把功能做到极致

Q:对于不了解的人来说,你是 AI PDF 的 CEO。全球最大的 AI PDF 阅读器之一。你们从去年底上线以来就已经有约 50 万注册用户,在 GPT 商店完成了超过 200 万次对话,刚开始收费就已经有将近 3000 名付费用户。

我觉得最有趣的是,特别是在 AI 发展早期,现在也是,有种说法认为这些 AI PDF 公司都是昙花一现。但我觉得你正在打造一个很有意思的业务,你也是这波 AI 经济浪潮中用精简团队创业的代表之一。

你们公司在没有融很多钱的情况下实现了收支平衡。我知道你们只做了一轮亲友融资,没有融太多风险投资。很多人觉得这样做不可能建立好的业务,但我觉得特别是借助 AI,用小团队其实可以悄悄地做出很棒的业务。

跟我们聊聊你的业务和经营理念吧。

Vicente Silveira:我有个「死亡倒计时器」,记录着距离上次被预言「死亡」多少天,因为我们时不时就会被宣布「死亡」。但实际上,我们的业务一直在增长。有趣的是,当 OpenAI 第一次允许在 ChatGPT 上传 PDF 时,很多人说我们这类产品就要完蛋了,当时我们有些竞争对手确实放弃了。但我们坚持了下来。

最开始时,ChatGPT 刚出来,我在尝试对 ChatGPT 做属性注入测试,发现了一些问题。我给 OpenAI 的 Greg Brockman 发了封邮件,他回复说这很有意思。他说我背景不错,但目前没有合适的职位,让我等几个月。我就问能不能给我个 API 或让我加入新的开发者计划,这就是我们的起点。

我们试了很多想法,但 PDF 相关的项目立刻就火了,因为这是人们最先想用 AI 解决的问题之一。处理大量 PDF 文档确实很痛苦,而 PDF 又是跨平台最主要的文档格式,所以大家自然而然就被吸引过来了。

Q:既然 ChatGPT 里有 PDF 阅读器,为什么人们还要用你们的产品?

Vicente Silveira:最开始做这个产品时,我们甚至都没有让用户上传 PDF 的地方,只是让用户提供链接,然后我们的服务器去获取内容。很多人给我们 Google Drive 和 Dropbox 的链接,但因为我们发展得太快,我们被当成了恶意爬虫。于是 Google 和 Dropbox 开始限制我们的 IP。

这对用户来说体验很差,因为他们会遇到错误提示。所以我们就想不如让用户直接上传文件试试看,当时还以为没人会这么做。我的联合创始人 Kartik 觉得这看起来很吓人。但令人惊讶的是,一周之内,我们网站的域名就成了链接中排名第一的域名,超过了 Google 和 Dropbox。

我们发现,那些愿意使用 ChatGPT 并且愿意折腾插件的用户其实都是敢于冒险的早期使用者,所以我们就为他们打造产品。

回到你的问题,为什么在 ChatGPT 有了这个功能后人们还在用我们的产品,是因为他们不只是想上传一个文件就完事了,他们想上传整个文件夹。即使到现在,ChatGPT 好像也只能上传 20 个文件,而我们这里有用户一个账号存了超过 15 万个文件。我们支持多层文件夹,没有其他平台支持这些功能,但这很重要,因为用户需要低门槛的使用体验,而且要尊重他们创建的文件夹结构,这是产品体验的一部分。

Q:听起来用户继续使用你们的产品是因为你们总是领先 ChatGPT 一步。你觉得为什么他们最终不会也做多文件夹上传呢?比如像 NotebookLM 就允许打开很多文件。你担心这个问题吗?或者你有什么战略性的考虑,认为你们能比 ChatGPT 或 Gemini 做得更深入?

Vicente Silveira:我觉得这些公司,特别是 ChatGPT,他们的重点是发展通用人工智能,打造一个足够好用的产品让很多人使用,这样他们就能收集训练数据来反哺他们的系统。我觉得他们不会专注于某个特定方向,主要是在触及各个核心用例的最低要求。

比如想想 Loom,为什么 Loom 能以近 10 亿美元的价格被收购。Loom 只是录制视频而已,但他们把这个用例做得特别好。尽管 YouTube 有这个技术也没做,Vimeo 有这个技术也没做,所有主要的供应商都有这个技术但都没做。但 Loom 抓住了这个用例。对我们来说,我们抓住的是让用户能够用他们的文档集合来完成端到端工作流程这个用例。

02 目标用户足够精准

Q:正如你说的,ChatGPT 和 Claude 是一种通用工具,他们的用例非常广泛。当人们使用 ChatGPT 和 Claude 时,他们会发现一些他们之前不知道存在的具体用例。

我们有个叫 Spiral 的产品,可以自动化很多创意工作,帮你写标题、想推文之类的。这些用 Claude 也能做,但 Claude 不是专门为此设计的。我们认为,人们会通过使用这些通用工具发现 AI 的用例和要解决的问题,这创造了机会,让一些创业者能够为特定人群、特定工作流程提供专门的解决方案。比如对我们来说,就是面向营销人员和创作者,他们有非常具体的工作流程需求,专门为此设计的产品能更好地服务他们。

我很好奇,因为我理论中的一个关键点是,你需要有特定的用户群体才能为这种工作流程提供强大的支持。但听起来你是在往上层走,更偏向通用性。你们心中有特定的用户群体吗?

Vicente Silveira:我们经常被问到这个问题。有意思的是,我们的目标用户是技术早期使用者,敢于冒险的极客,并且实际工作中要处理大量文档的人。

这些特征都很重要。他们不仅仅是早期使用者——因为很多 ChatGPT 和 Claude 的用户只是想看看有什么可能性,他们没有实际的工作要做,只是想了解技术,能和别人讨论这些东西,我们的目标用户不是这样的人。

我们的目标用户是现在就有实际工作要做,而且有大量文档要处理的极客。这些特征的组合造就了我们的用户群。具体是些什么人呢?律师、研究员、会计师、作家……这些不同类型的用户有个共同点:他们都会带着大量文档来到平台,而且他们现在就有工作要完成,他们想用新的方式——AI 优先的方式来完成工作。

另外我想强调一点,我们和 Claude 或 ChatGPT 这样的平台相比角度不同,我们相当于是给 AI Agent 一个云端硬盘,这和仅仅让 AI Agent 访问一些文件是很不一样的。我们 AI Drive 中的 Agent 能够创建新文件、更新文件元数据、浏览文件结构等。它实际上是在驱动这个云盘来完成用户的工作,因为很多工作都涉及处理大量文档。这是很重要的,而这并不是其他平台的重点。

Q:你觉得为什么别的平台不把这个当作重点?

Vicente Silveira:因为我认为这对实现他们的目标来说并不必要。而且这还会引入一些他们可能不想处理的新问题和风险。这个平台更适合那些喜欢探索和折腾的用户。比如在我们的产品中,我可以代表你访问聊天历史文件,并使用搜索工具来检索这些文件。这是很有争议和风险的功能,大平台不会愿意这么做的。

Q:所以你们的核心用户就是新技术的早期采用者。我觉得你们把聊天内容当作文件来处理这件事太酷了。不过这确实只吸引特定类型的用户。

03 构建产品的核心思路:

解决实际问题

Q:有一类用户是像我这样的信息爱好者,可能分布在不同行业,比如律师或会计。但你们的营销似乎并不特别针对这点,更多是在讲 AI PDF 的一般功能。这是为什么呢?

Vicente Silveira:我们正在调整这一点,因为我们的产品在不断发展。回想当初,我经常给人建议说要从最简单的开始。我们最开始只做了一个插件,就是个简单的 API。那时我的服务器还是运行在 Replit 上。我们通过这种方式发现了市场。但那时我们只是个插件,不能独立运营。

那时候没有网页应用,没有账户系统,跟用户没有直接关系。用户需要去 ChatGPT,启用插件,才能找到我们。

虽然没过多久,但感觉已经很遥远了。那时我们只是 ChatGPT 的一个附加功能。但我们发现用户需要一个能完整处理 AI 和文件的环境,还要能验证文件内容。就像你在 AI Drive 右侧看到的,有原始文件作为参考。

更重要的是,我们意识到在可预见的未来,主要模型提供商之间会持续竞争,Google、Anthropic、OpenAI,可能还有 X。这些提供商都能提供独特的模型能力。我在你的播客里听到你提到尝试过 Claude 和其他产品。用户们都想要最新最好的技术。如果你把文件上传到 ChatGPT,结果明天 Claude 有了更好的推理模型,你还得重新上传一遍。我们就提供一个统一平台,让你可以使用所有模型。

Q:你们的做法很有意思:先迈出第一步,做个插件,等它开始运作了,发现客户需要不同于 ChatGPT 的使用方式,就去建立新的产品。然后再逐步添加功能。

这和另一种方式不同——有些人会先想好点子,做个演示文稿,融资组建团队,花一年时间把愿景变成现实。这两种方式都可以,都有利弊。

我看到的一个权衡是,你们最终建立的产品与最初差异很大,所以公开营销和产品现状之间需要不断调整。对那些一开始就把愿景完整展示的人来说,他们的问题不是这个,而是有没有人想要这个产品。我很好奇你是怎么选择这种方法的?

Vicente Silveira:你说得对,确实有不同的方式,我也有其他创始人朋友选择了不同路径。

首先要考虑什么适合你。对我们来说,这一切源于我和创始人 Kartik 的周末项目,一切只是因为我们的热爱。

另一点是,虽然感觉 AI 时代已经到来,但我们其实还处在 AI 周期的早期。这个技术的稳定性和生产力还不够清楚。就在这短短时间里,我们经历了很多变化。我们最近和一家公司交流,他们自己花了多年构建了 PDF 提取模型。但用 GPT-4 试了一下,就完全超越了他们多年的工作成果。Microsoft 有篇很棒的论文,对比了他们多年开发的隐私信息检测模型和 GPT-4,结果 GPT-4 完胜。这只是第一波大变革,变革仍在继续。我们最初构建时,聊天功能都不太好用。而现在聊天功能很完善,还有了多模态聊天等功能。如果看看 Sam Altman 他们在做的事,他们说 AI 会变得更强大,成为真正的智能体。应用在前进的同时,基础模型在不断进化。

通过为早期采用者构建产品,我们在解决实际问题。这很重要,因为他们都有自己的工作。我们能够跟踪市场的发展,避免像早期互联网那样,出现 ICQ 这样最终变得无关紧要的产品。所以对我们来说,这既是战略性的,也是防御性的。

Q:让我理解一下你说的。你们采用探索者心态,快速把产品推向市场。听起来你的意思是,通过服务早期采用者,你们能够跟上最新技术,避免落后。你们是如何通过服务早期用户,完成从快速进入市场到保持不落后之间的连接的?

Vicente Silveira:我认为早期用户给了我们更多实验的空间。比如产品中引入的 Agent 功能。大多数用户习惯用常规聊天,但早期用户在推动我们前进,他们想要 Agent 功能来完成更多任务。

我们在努力与核心早期用户合作,同时也听取那些已经在向前迈进的用户的意见。早期采用者能给我们更多实验的容忍度,因为像 Agent 这样的功能现在还不够完善。有时候效果很棒,有时候可能会卡住。但他们真的想看到这项技术会如何发展。这就是为什么这类用户能帮助我们同时推进主要用例和前沿用例。

04 去做大公司做不了的事情

Q:我觉得这跟我们一直在讨论的竞争问题息息相关:如果你是一个很小的团队,你怎么跟 OpenAI、谷歌或 Notion 等公司竞争呢?

我觉得你说的很对,当你是大公司时,你必须服务很多用户,很难去冒险。

有一段时间,人们对人工智能的感觉是,人工智能会足够聪明,永远不会犯错,大公司可以做任何初创公司能做的事情。我一直觉得不是这样的,大公司总能找到搞砸事情的方法。这并不是因为他们不聪明。只是大公司不能冒险。

我最近买了一个健身追踪应用,我很喜欢它。但它里面有一个 AI 功能,这个 AI 非常平庸,它基本上什么有用的东西都没说。原因是他们必须让它适用于最普通的用户。因为他们是大公司,如果它说了什么有风险的话会很糟糕。

但这意味着作为一家大公司,你能提供的体验在很多方面都不如小公司。小公司可以决定去服务这些不在乎有没有瑕疵的用户,决定去探索可能的边界。

Vicente Silveira:是的,我完全赞同。初创公司能有机会崛起,唯一的原因就是现有企业的某些核心弱点。而通常这个弱点就是他们的客户。大公司因拥有庞大的客户群而强大,但正是因为如此,他们也很难在这些客户身上冒险。

举个例子,比如一个主流的电子表格产品。为了满足客户需求,这些公司投入了大量资源开发功能,并且为用户提供了专门的培训课程。用户每天都会使用这些产品,期望获得固定的体验,同时也希望有一点 AI 的加持——就像是「在产品中撒点 AI」。

但如果要彻底改变这种体验,比如以 AI 为核心,用户不再点击按钮,而是直接告诉 Agent 去完成任务,这种转变对现有客户来说过于激进。通常来说,这种根本性的改变是大公司难以做到的。

这也就是为什么初创公司会有机会,像你们和我们这样的公司可以引入全新的工作方式。我们有一个类比:想象一下非常富有的人是如何运作的。他们通过聪明的助手完成复杂事务,这些助手能够深入了解他们的需求,并在背后处理一切复杂操作。我们认为 AI 的未来发展方向会非常接近这种模式。当然,现在距离这个目标还有很远的路要走,但我们正在朝这个方向不断靠近。

抓住这种机会,去构建这种全新的体验非常重要,这也是我们所努力实现的目标。

Q:完全同意。这也是我经常写到和思考的问题——其实人们一直都在雇用各种助手,他们解决的问题和 AI 将来能做的事情有很多重叠。也许 AI 能做一些雇佣私人助理做不到的新事情,但确实有很多经验是可以借鉴的。

就拿我来说,我经营着一家媒体公司,雇了很多人,比如编辑、作家和设计师。我觉得如果你想了解媒体的未来,关键不是创意团队会消失,而是个人创作者从一开始就能完成很多我现在要雇人做的事情。我还是会有很多员工,只是能在更高的层面工作。因为剪视频的人可能一下子就能剪两倍的视频量。

我很好奇,像你这样的业务规模,应该可以进行风投融资吧,为什么只做了亲友融资?

Vicente Silveira:说实话,我们的融资经历有点纠结。一开始感觉特别棒,觉得马上就能融到很多钱,甚至在考虑要不要融更多。但后来过程就开始拖沓了。我感觉自己又回到了在 Meta 工作的时候,整天改 PPT,还要见风投。而且当时用户一直在问我们要新功能,然而那会儿就我和 Kartik 两个人。我真的很讨厌这种感觉。既然我们可以直接变现,那就先这么做吧,以后再说。

而且那时候 AI 投资的第一波热潮已经过去了,大家都很谨慎。从产品角度来说,那时我们还很依赖 OpenAI 和 ChatGPT,不像现在这样了。所以基于这些原因,我们决定先专注做产品,我觉得这个决定是对的。

Q:很有意思。你觉得将来还会继续融资吗?或者说你们的发展路径是怎样的?

Vicente Silveira:应该会吧。主要是我们想要谨慎和认真地考虑什么时候融资,为什么融资,怎么用这些投资。这又回到了创业公司未来需要多少人力和软件的问题。我们觉得实际上比过去 5-10 年传统认知的要少。我们要确保做对,不能像 Bill Gurley 说的那样,有些公司融到钱后就变得懈怠了,这是我们要避免的。

我还想说说这一点和之前谈到的经验差异,以及如何通过精简节省成本。

比如说产品的用户引导流程。当你注册我们的产品时,我们的引导做得很糟糕。而你们的引导做得很漂亮,我试过你们的 Spiral,我很喜欢。所以我们在想,好吧,我们需要改进引导流程。我想要做的是让 AI 来负责用户引导。这意味着什么呢?与其使用某个要配置的第三方产品,或者自己从头开发,不如给你一个了解我们产品的 AI 助手。它知道你从哪里来,比如我们有个律师专用的落地页,如果你是从那里来的,那很可能你就是律师。

它会说:「嘿,这就是我们产品的功能。要不要上传一个文件,我可以给你演示一下?」就是让 AI 来完成这项工作。我们刚招了一个人负责这块,这个真人的工作就是管理这个小助手,负责确保它完成任务。当然,随着 AI 越来越强,它能做的事情也会越来越多。所以这是一种迭代的思维方式,我们觉得随着招聘更多人,他们会负责管理产品中的不同 AI 助手,这些助手会为用户和公司完成特定的工作。

05 想用好 AI,

要学会当管理者

Q:我很喜欢这个想法。我一直在说所谓的「分配经济」(allocation economy)。你说的正好符合这个思路——在分配经济中,你不是做具体的执行工作,而是做管理工作,管理智能资源的分配,管理各种 AI 助手。在这种模式下,管理技能会变得比现在更重要,也需要更广泛地普及。这个想法很有意思。

我很好奇,你之前提到用更小的团队和更少的资金现在能完成更多工作,跟 10-15 年前相比,你能具体量化一下这个差异吗?

Vicente Silveira:当然可以,这种变化随处可见。我可以举个在 Meta 工作的例子。Meta 当然很有钱,在生成式 AI 之前,作为一个产品经理,如果想了解某个功能的情况,比如用户遇到的主要问题,就要去找支持团队的人。他们的工作就是整理这些反馈,做成报告。这可能要花一天时间,如果他们很忙的话,取决于你的问题优先级,可能还要更久。

现在所有这些工作都可以用 AI 直接完成。这只是一个例子,说明有了现在的工具,我们能更高效地完成以前只有大公司才能做到的事情。

Q:是的,确实如此。从我们内部开发的应用来看,如果某人技术全面,有足够的支持,能把一个以前需要一年完成的产品在 2-3 个月内完成。这确实很神奇。我可能对风投有点偏见,一直都不太愿意融资。我们在 2020 年融了一点,大约 70 万美元,最近又融了一点,大概 15 万美元。这种规模在风投眼里简直是笑话,他们会说「这点钱能干什么?」但对我来说,我们总共融资不到 100 万美元,却开发出了好几个产品和公司。我觉得一年后还会有更多。

说到融资的意义,理论上你花几个月时间融资,可以雇更多人,在增长上投入更多,把原本需要一年才能达到的进度提前到三个月完成。这个逻辑还在,但情况已经不同了。通过合理使用 AI,你已经获得了很多这种提速效果,这很有意思。当然,别人也都能用 AI。所以在某种程度上,额外的资金还是有帮助,但对于技术团队来说,资金一直都比较容易获得。我觉得真正会用 AI 的反而比较少,比获得资金更难。对硅谷的技术团队来说,很多人日常工作中都不怎么用 AI,因为他们觉得「我比 AI 厉害」之类的。不过这种情况正在改变,真正深入使用 AI 的人确实效率提高了很多。

Vicente Silveira:对我们来说,各个层面的生产力都提高了。我有软件工程背景,职业早期写代码,后来转去做业务就基本不碰代码了。但有了生成式 AI 后,就像骑自行车变成了电动自行车,轻松就能爬山了,真是太神奇了。

我说我有两个导师,一个是 AI,另一个是我的联合创始人。我发现即使对他这样的世界级工程师来说,效率也提高了很多。所以不管你处在什么水平,都能变得更强。这确实是事实。

我们觉得大众对此的认识还很不足。我很喜欢你的播客节目,因为它帮助传播这样一个理念:AI 是为所有人服务的。如果你只看主流媒体,会觉得 AI 要么会杀死你,要么会抢走你的工作,而且富人会变得更富。这是什么信息?这对大众有什么影响?这只会让人丧失动力,剥夺人们的主动性。实际情况恰恰相反。

你刚刚说应该学习当管理者,其实只要能用 AI,你就在练习当管理者。只要有手机就能用 AI。你开始分配任务,如果 AI 没做好,你就会发现是自己的要求不够清晰——这就是管理工作的重要部分。然后你会改进你的提示词或问题。你还要检查 AI 的成果,判断质量好不好。

Q:显然,大规模推广 AI 确实涉及很多复杂的社会和经济问题。但人们往往忽视了它作为即时提升技能的工具有多强大。比如说我们公司内部就有一些英语非母语的同事,他们说英语很流利,但写作水平相对差一些,这限制了他们获得工作机会、晋升或承担某些任务的能力。但自从 ChatGPT 出现后,情况完全不同了。他们立刻就能写出流利的英语,这为他们打开了之前没有的机会,而且他们什么都不用做。

这也是我想在节目中展示的内容——告诉大家一些简单的入门方法,同时也分享一下走在最前沿的人在做什么,这样可以帮助更多人提升。希望通过提高底线,能为人们创造更多经济机会。如果我现在是 11 岁的话,我肯定会整天和 ChatGPT 聊天。

虽然很多人担心 AI 公司过于激进地向公众发布产品,但从另一个角度来说,我们很幸运生活在一个所有公司都在努力让 AI 变得尽可能便宜的世界。想象一下另一种情况:如果是 IBM 发明了这个技术,可能头 15 年只有国防部才能用,那就太糟糕了。我能想到很多相反的情况,比如只有富有的大公司才能使用这种强大的智能工具。如果必须二选一的话,我更喜欢现在这种人人都能用的世界。

Vicente Silveira:你说得对。希望更多人能看到这一点。因为这是我第一次亲眼看到一个技术革命。现在大多数人在这场革命的一开始就都有能力使用它,但以前不是这样的,比如 PC 最开始就很贵。我是在巴西长大的,我们那时候买不起,只能偷偷走私零件,组装成「科学怪人」似的电脑。手机刚出来的时候也是这样,人们要过很久才能用上,网络也不好。但现在不一样了,只要你能用手机上网,你就能用 AI,而且 AI 对带宽要求不高。

我们现在看到的发展趋势是从简单的问答式对话,就是我问一个问题 AI 回答,发展到 AI Agent,也就是我给它一个任务它就去执行。这带来了很多新的可能性。我们现在花很多时间为 AI Agent 开发工具,这个过程很有意思,因为你要考虑工具好不好用,是不是符合预期等等。有人说当 AI 能做所有事情的时候,就没什么可做的了。但是用富人的比喻来说,即使你很有钱可以雇很多人创业,但大多数时候这样也不会成功,因为你需要领导力、人才、远见和毅力来组织这些人,让公司真正成功。我觉得 AI Agent 也是一样的道理。

Q:有个很奇怪的误区,人们觉得有了 AI Agent就不用动脑子了。但是你管理过人吗?人类本身就是通用智能,但管理人也很难啊。确实和自己动手做是不一样的体验,但即使别人帮你做,你也要学会如何分配任务。

新手经理都要面对这个问题:我该授权多少?要不要事无巨细地管?如果我管得太细,事情确实会按我想要的方式完成,但这样我就失去了管理的意义,还不如自己做。如果我授权,我就有更多时间做其他事情或者从更高层面思考问题,但结果可能不如预期。这正是现在很多人对 AI 的抱怨:「它做得不好,还不如我自己做来得快」。这跟经理们面临的问题一模一样。

即使在一个有超级厉害的 AI Agent的世界里,仍然有很多看不见的工作要做,比如界定任务范围、选择合适的资源、有品味和远见知道自己想要什么。也许将来 AI 连这些也能做,但在那之前,在使用 AI Agent 的过程中,仍然需要很多人为的技巧和才能来引导它们。