深度访谈——为何科技行业正竞相采用人工智能编程技术?
Anysphere 首席执行官迈克尔・特鲁尔与客座主持人凯西・牛顿探讨 Cursor 以及编程的未来。
Anysphere 首席执行官迈克尔・特鲁尔 |
凯西・牛顿是《平台经营者》通讯的编辑,也是《硬分叉》播客的联合主持人。
大家好,欢迎来到《解码器》节目!我是凯西・牛顿,《平台经营者》通讯的创始人兼编辑,同时也是《硬分叉》播客的联合主持人。在接下来的几期《解码器》节目中,我将担任客座主持人,我们的节目安排非常精彩,我对此感到十分期待。
如果你有关注过我的工作,尤其是我在《边缘》杂志担任记者期间的内容,就会知道我是一个十足的效率工具迷。优秀的效率工具能将技术进步转化为人类的进步,而且它们还很有趣!我喜欢尝试新软件,每一款新工具都让我期待它能实现我梦寐以求的配置。
多年来,我使用过很多这类程序,但很少有机会与开发它们的人交流。所以,在我主持的《解码器》节目中,我非常想和那些大型且有趣的效率工具公司背后的人们聊聊,了解他们正在开发的产品以及这些产品如何帮助我们高效完成工作。
这就引出了我今天的嘉宾:Anysphere 的首席执行官迈克尔・特鲁尔。你可能没听说过 Anysphere,但很可能听说过它的旗舰产品 Cursor。Cursor 是一个自动化编程平台,它整合了 Anthropic、OpenAI 等公司的生成式人工智能模型,助力用户编写代码。
Cursor 被构建在程序员们所说的集成开发环境(即 IDE)的标准版本中,配备了像 Cursor Tab 这样的技术,能在你编写代码时自动补全代码行。Cursor 迅速成为全球最受欢迎、增长最快的人工智能产品之一,而迈克尔从麻省理工学院毕业后于三年前联合创办的 Anysphere 公司,如今正逐渐成为后 ChatGPT 时代最成功的创业公司典范之一。
所以我坐下来和迈克尔聊了聊 Cursor、它的工作原理,以及为何人工智能编程技术能被如此广泛地采用。你将会听到迈克尔的解释,在过去几年里,整个领域的发展速度非常快 —— 在旧金山,科技公司的高管和员工经常告诉我,他们的员工有多喜欢使用 Cursor。
人工智能评论家担心这项技术可能会让工作实现自动化,这种担心是有道理的 —— 但你会听到迈克尔说,失业不会源于像他正在开发的这种工具的简单进步。尽管旧金山湾区的很多人认为超级智能的人工智能会在一夜之间重塑世界,使得像 Cursor 这样的产品变得毫无意义,但迈克尔却认为变革会来得慢得多。好了,下面有请 Anysphere 的首席执行官迈克尔・特鲁尔。我们开始吧。
那么,什么是 Cursor?它能做什么?目标用户是谁?
我们开发 Cursor 的初衷是让它成为构建软件的最佳方式,特别是借助人工智能进行编程的最佳方式。对于非技术人员来说,我认为目前理解 Cursor 的最佳方式是,把它看作一个功能极其强大的文字处理器,工程师们通过大量的编写工作在其中构建软件。他们坐在一个看起来像文字处理器的界面里,编辑着数百万行的逻辑代码 —— 那些看起来不像自然语言的内容。Cursor 能帮助他们更高效地完成这项工作,尤其是在人工智能的辅助下。
目前,Cursor 主要通过两种方式实现这一目标。一方面,当 Cursor 观察你工作时,会尝试预测你在 Cursor 中接下来要进行的一系列操作。这就是自动补全功能,在编程领域,它的作用比在文字写作中强大得多,因为与写作不同,在编程时,你接下来 20 分钟的工作内容往往是完全可以预测的。而在写作中,计算机很难预判作者将要在页面上写下什么内容。计算机没有足够的信息来理解作者接下来的创作思路。
另一方面,人们使用 Cursor 的方式是越来越多地将工作委托给它,就像与另一位程序员搭档工作一样。他们把一些小任务交给 Cursor,让 Cursor 来处理。稍后我们会更深入地探讨这款产品。但首先,让我们谈谈这一切是如何开始的。你创办 Anysphere 时,正在研发计算机辅助设计(CAD)软件。后来是如何转向开发 Cursor 的呢?
我和我的联合创始人已经从事编程工作有一段时间了,而且我们研究人工智能的时间几乎和编程时间一样长。我的一位联合创始人曾在大型科技公司从事推荐系统方面的工作。另一位长期从事计算机视觉研究,还有一位则致力于让机器学习算法能够从极少的数据中学习。我们中的一位甚至曾借助机器学习中大型语言模型(LLM)技术出现之前的相关技术,开发过一个与谷歌竞争的产品。
但我们研究人工智能已经有很长时间了,同时也做了很长时间的工程师,并且热爱编程。2021 年,有两个时刻让我们非常兴奋。一个是使用了一些首批真正有用的人工智能产品。另一个是有大量文献表明,即使我们没有新的想法,通过增大模型规模和增加训练数据,人工智能也会变得更好。
这让我们对创建公司的模式感到非常兴奋,那就是选择一个知识工作领域,为该领域打造最好的产品 —— 一个在人工智能开始改变工作方式时,人们可以开展工作的地方。我们希望能把这项工作做好,吸引很多人使用我们的产品,然后观察人工智能在哪些方面对他们有帮助,在哪些方面没有帮助,以及在哪些地方人类必须多次纠正人工智能或者在没有人工智能帮助的情况下完成工作。我们可以利用这些信息来改进产品,并推动底层机器学习技术的发展。这或许能让我们走上一条道路,随着这项技术的成熟,真正开始构建知识工作的未来,同时也成为推动底层技术发展的力量。
所以,我们对这种创建公司的模式产生了兴趣,但我们真正热爱的技能、真正热爱的知识工作是在计算机上构建东西,而起初我们并没有涉足这个领域。正如你所提到的,我们先去了另一个领域,也就是计算机辅助设计。我们试图为机械工程师提供帮助,但事实证明这是一个非常不合适的决定,因为我们四个人中没有一个是机械工程师。我们有一些朋友对这个领域感兴趣。我们过去也从事过机器人技术方面的工作,但这并非我们的专长。我们之所以这么做,是因为当时似乎有很多人在致力于借助不断发展的人工智能技术,帮助程序员提高工作效率。
但在机械工程领域工作了大约六个月后,我们又回到了编程领域,部分原因是我们对这个领域的热爱。
另外,我们觉得那些我们原以为已经占据了这个领域的人虽然开发了一些有用的东西,但他们的方向与我们不同,而且他们对待这个领域的态度似乎缺乏必要的雄心。所以我们决定打造借助人工智能进行编程的最佳方式,Cursor 就这样诞生了。
我了解到,你们早期使用的一款人工智能工具是 GitHub Copilot,它大约在 ChatGPT 问世前一年推出。你们最初对 Copilot 的反应是什么?它对你们想要开发的产品有何影响?
Copilot 很棒。它给了我们非常大的影响,而且它是我们使用的第一款真正以人工智能为核心且有用的产品。作为长期研究和关注人工智能的人,让我们感到遗憾的是,人工智能在很大程度上还只是停留在实验室或玩具阶段。在我们看来,作为消费者,人工智能对我们生活的影响主要体现在推荐系统上,比如各种新闻推送、YouTube 算法等等。GitHub Copilot 是第一款核心功能真正有用的人工智能产品,而且它并非华而不实。
所以,Copilot 是一个很大的灵感来源,当时我们还在考虑是否应该从事学术事业。Copilot 证明了,不,现在是时候在现实世界中研究这些系统了。即便在 2021 年,Copilot 也存在一些不足之处。在某些地方,产品的错误非常明显,你不能完全信任它输出的代码,但它仍然非常令人兴奋。
另外需要注意的是,除了是第一款有用的人工智能产品外,Copilot 也是我们长期以来采用的最有用的新开发工具。作为程序员,我们优化了自己的工作环境,修改了文本编辑器等工具。当时我们使用的是一款名为 Vim 的非常特别的文本编辑器。所以,它不仅是我们使用过的第一款有用的人工智能产品,也是我们长期以来使用过的最有用的开发流程工具。
这很有趣。所以你们都喜欢软件,喜欢使用软件,还在努力寻找能提高自己工作效率的软件。我觉得这可能让你们非常适合解决 Cursor 正试图解决的问题。
是的,我认为关注我们所使用的工具很有帮助,而且在联合创始团队中,大家对工具的关注程度实际上是不同的。我的一位联合创始人是那种典型的早期采用者,他会第一个使用新浏览器,第一个尝试所有新事物。我们中的几个人则有点滞后,所以我认为这种不同的观点有助于我们做出一些产品决策。
你把 Cursor 描述为一种功能极其强大的文字处理器。软件工程师可能会称之为集成开发环境(IDE)。开发者从 20 世纪 80 年代就开始使用 IDE 了,但最近,人工智能实验室推出了一些可以直接在终端运行的工具,比如 OpenAI 的 Codex 或 Anthropic 的 Claude Code。为什么有人会选择使用 Cursor 而不是这些工具呢?
我认为这些工具都非常有用。我们希望成为的,我认为我们首先是作为这种 IDE,这种文本编辑器存在的,但我们真正关心的是进入一个编程发生彻底变革的世界,特别是一个你可以开发专业级软件,甚至可能不需要真正查看代码的世界。是的,这就是那种未来的编程模式,它将改变这种需要阅读数百万行逻辑代码和晦涩编程语言的奇怪现状。
我们想要实现的世界是,你只需要表达构建所需软件的最基本意图。你可以告诉计算机它真正需要了解的最简短信息,它就能填补所有空白。如今的编程是一项极其耗费人力和时间的工作,有些事情描述起来相当简单,但要让它们在计算机上实际运行并呈现出来,需要数千小时的工作、庞大的团队和大量的精力,尤其是在专业层面。这就是我们想要达到的目标 —— 创造一种新的编程形式。我认为这始于一个编辑器,然后会不断发展。
所以我们已经处于这个过程中了。现在,在 Cursor 中,你可以通过我们的 Tab 系统与一个代理进行一对一的协作。然后,我们正逐渐让你进入一个越来越多的编程工作可以并行委托给多个助手的世界。我们需要打造一种产品体验,让这种工作方式变得出色且高效,让你了解这些并行助手正在为你做什么 —— 深入其中,在有帮助的地方进行干预,在它们向你反馈工作时,不需要阅读每一行代码就能理解它们的工作。
我认为在提高编程效率的工具领域存在竞争环境。仅使用终端用户界面存在局限性,因为终端的表现力和对用户界面的控制是有限的。从一开始,我们就认为,要实现代码自动化并将其替换为更好的东西,需要双管齐下的方法:一方面需要构建一个程序员进行工作的界面,需要发现工作的样子,需要构建用户界面;另一方面需要构建底层技术。所以,与一些终端工具相比,我们的一个优势就是对用户界面有更大的控制度。
我们在模型层面也做了很多工作,对其进行改进,而不仅仅是让它在演示层面表现出色。人工智能产品需要在速度、稳健性和准确性方面进行大量的优化工作。对我们来说,一个重要的产品手段是构建一个模型集合,与 API 模型协同工作,以提高它们的能力。
所以,每次你在 Cursor 中调用一个代理时,都会用到一系列模型 —— 其中一些是 API 模型,一些是自定义模型,而且对于某些形式或某些功能,比如超级自动补全,完全是自定义的。这也是我们与其他解决方案的一个区别。
让我们来谈谈这些专有模型。它们似乎是你们取得成功的重要推动力。当 ChatGPT 和 OpenAI API 首次发布时,我们看到很多初创公司涌现出来,但它们很快就被认为只是 API 的包装器,只是试图在别人的技术之上构建一些东西。Cursor 一开始也是类似的情况,它使用其他公司的 API 来创建产品。从那以后,你们开始在此基础上进行构建。再详细说说你们正在构建的内容,以及你们希望如何通过它与那些纯粹的包装公司区分开来?
在进入模型方面之前,我想补充一点,“包装器” 这个词源于人们刚开始开发人工智能产品的时候,当时只有有限的时间来让产品更深入一些。现在,我认为我们正处于一个产品过剩的阶段。所以即使你只是使用 API 模型进行构建,我认为在很多领域 —— 我们所从事的软件开发生命周期领域,以及其他类似领域 —— 都可以在这些基础上构建非常深入的产品。所以至少在某些领域,“包装器” 这个词已经有点过时了。
但在模型层面,我认为从一开始我们就想打造一款能吸引很多人使用的产品。这种规模带来的一个好处是,你可以看到人工智能在哪些方面对人们有帮助,在哪些方面没有帮助,以及在哪些地方需要纠正。这对于让人工智能更好地为人们服务是非常重要的输入。因此,目前我们的 Tab 模型每天处理超过 10 亿次模型调用,它是世界上实际编写最多生产代码的大型语言模型之一。
我们现在已经是第四或第五代模型了。它是利用产品数据进行训练的,通过观察人工智能在哪些方面对人们有帮助、在哪些方面没有帮助,来预测如何为人类提供帮助。这还需要大量的基础设施和专业人才才能使这些模型变得非常出色。
例如,与我们一起开发这些模型的有雅各布・杰克逊,他在 GitHub Copilot 出现之前就开发了类似的产品,名为 TabNine,这是最早的一种编程自动补全产品。他也是最早开发百万令牌上下文窗口模型的人之一,所以他在让模型理解越来越多的信息方面做了大量工作,当然,这也需要专业人才和专业基础设施来完成这项工作。
我认为,在我们曲折地开发 Cursor 的过程中,有一件事确实帮了我们,那就是当我们从事计算机辅助设计工作以及在之前的一些探索中,我的联合创始人不得不深入研究机器学习基础设施和建模方面的内容。当我们真正开始开发 Cursor 时,作为热爱产品的人,我们以为需要很长时间才会开始自己建模,但这比我们预期的要早得多。
最近,我和一家大型科技公司的首席技术官共进晚餐,我问他哪些编程工具在工程师中很受欢迎,他告诉我他会定期就此问题对工程师进行调查,他们提供了 Cursor 的试用版。他说他收到了工程师们的恐慌信息,说:“请告诉我们你不会拿走 Cursor,” 因为他们已经变得非常依赖它了。
你能说说为什么对于程序员来说,这感觉像是这个职业历史上的一个前后转折的时刻吗?像 Cursor 这样的工具在工程师的日常生活中带来了哪些不同?
我认为我们目前离所能达到的上限还有很远很远,离一个大部分编程工作被更好的方式取代的世界也还有很远很远。但就现在而言,这些产品和模型已经能为程序员做很多事情,并且已经承担了相当一部分工作。
我认为这项技术在编程方面特别出色,原因有几个。一是编程是基于文本的,而这可能是该领域研究得最透彻的形式。互联网上也有很多编程数据,比如很多开源代码。编程也很容易验证。因此,人工智能进步的一个重要动力是训练模型预测互联网上的下一个词,并不断增大模型规模。这种进步动力在很大程度上已经发挥了作用,但仍有更多工作要做。
但接下来推动模型进步的是强化学习。基本上是教模型玩游戏,类似于 2010 年代中期,人类教会计算机非常擅长下围棋、玩《Dota》和其他视频游戏。我们的语言模型也正达到这样一个水平,它们可以完成任务,你可以设置游戏让它们在这些任务上变得更好。编程在这方面很有优势,因为你可以编写代码,然后运行它,查看输出结果,判断它是否符合你的预期。所以我认为这项技术在很多方面都特别适合编程,而且我认为这是将这项技术推向世界并让人们从中发现真正价值的最前沿的用例之一。
我的感觉是,也许我过去一天需要工作 8 小时,现在可能接近 5 或 6 小时。是这样吗?
我认为在某种意义上是的,在一些公司里,过去需要 8 小时完成的工作现在实际上可能需要 5 或 6 小时。我认为这是事实,虽然不是所有公司都是这样,但在一些公司确实如此。但我想指出的是,我不认为程序员的工作时间在缩短。我认为这在很大程度上是因为软件具有很大的弹性,而且我认为非技术人员,或者那些不是专业编程人员的人,很容易低估专业级编程的低效性,这在很大程度上是因为编程是无形的。
想想像 Salesforce 这样的公司里的程序员,那里有数千万行、数百万个文件的现有逻辑描述了其软件的工作原理。每当他们需要对其进行修改时,他们都必须处理这个庞大而难以驾驭的 “泥球”,并对其进行编辑。这就是为什么很多人会对一些软件的发布周期如此缓慢感到震惊。所以是的,我认为确实存在效率提升,但我认为目前这并没有减少程序员的工作时间。
好的。你提到了非技术人员。Cursor 被很多专业程序员使用,但今年出现了 “氛围编程” 这个术语,用来描述更多业余程序员(有时甚至是完全的新手)所能做的事情,而且他们经常使用像 Cursor 这样的工具。Cursor 的 “氛围编程” 使用场景有多大?你认为 “氛围编程” 的未来会怎样?
我们的主要目标是帮助那些以开发软件为生的人,目前来说就是工程师,所以这是我们的主要使用场景。有趣的是,当你专注于这个使用场景,并利用从中获得的理解来推动技术进步,让程序员达到更高的抽象层次时,它也会让编程变得更容易上手,这一点我们非常兴奋。
我认为最终,开发软件会变得容易得多。你不必拥有丰富的编程语言和编译器知识。但我确实认为,我们距离任何人都能开发软件的世界还有相当一段距离。我认为在任何人都能开发专业级软件之前,还有很多工作要做。
话虽如此,看到人们从零开始启动项目和原型,看到专业环境中的设计师这样做,真的很酷。看到非技术人员为专业软件项目贡献小的补丁、修复漏洞或修改小功能,也非常有趣。这就是 “氛围编程” 的使用场景,虽然不是我们的主要使用场景,也不是公司主要的收入来源,但我认为随着我们不断突破专业开发者的能力上限,这个场景会变得越来越重要。
不过,我很好奇你认为对它的需求有多大。我知道这不是你们业务的重点。人们喜欢谈论它,而且我觉得,从未开发过软件的人,突然之间就能为自己创建一个小的待办事项应用程序之类的东西,这种感觉一定很酷。
是的。在这一点上,我可能和我的一些同事看法不同。我认为,在当前的世界里,“氛围编程” 的使用场景可以分为两类:一类是娱乐性的,如果你做这些事情主要是为了个人娱乐或爱好;另一类更偏向专业,我认为是设计师制作原型,或者是那些为客户服务的人,他们为专业代码库修复漏洞。
我和一些同事的不同之处在于,有一群人对终端用户编程、一次性应用程序和个性化软件非常感兴趣,他们希望每个人都能完全构建自己的工具。我认为这真的很酷。我认为实现这一点很棒,而且我认为很多非技术人员会有兴趣这样做。但我仍然认为,即使到了任何人都能在电脑上构建东西的世界,大多数使用场景仍将由世界上 5% 的少数人来满足,他们非常关心这些工具并致力于构建它们,而其他人会更多地使用这些工具,因为我认为人们对这类事情的兴趣差异很大。
所以,是的,目前在商业上,我认为很多 “氛围编程” 更多地属于中途尝试或娱乐性质。有些人会对它感兴趣一段时间,然后就把它放在一边了。还有一些属于专业领域,是那些以软件为生但现在不编程的人在使用。
我认为你是对的,因为我在更传统的公司工作时,每当引入一款新软件,大家都会感到不安。所以这就是我认为大多数人不会成为专业的 “氛围编程者” 的原因。不过我喜欢软件,所以我对 “氛围编程” 很好奇。也许两三代之后,在 Cursor 的帮助下,我就能为自己制作一些有用的东西了。
你之前提到人们使用 Cursor 主要有两种方式。一种是 “我看着代码,你帮我自动补全”,另一种是 “我给你一个任务,然后走开,回来看看你构建了什么”。你最近告诉《stratechery》的本・汤普森,在未来 6 到 12 个月里,你认为专业软件工程师大约 20% 到 25% 的工作可能会是后一种情况,即把工作交给计算机,让计算机从头到尾完成。
在过去一个月左右的时间里,这个数字有什么更新吗?你认为这个数字最终能达到多高?
我认为这些事情很难预测。是的,我认为有一些因素阻碍我们达到 100%。其中之一是让模型学习新事物,比如理解整个代码库、理解组织的背景并从错误中学习。而且我仍然认为,这个领域还没有一个完美的解决方案。
有两个可能的解决方案。一个是延长 “上下文窗口”,大型语言模型能看到的文本或图像有一个固定的窗口,而且这个窗口是有限制的。除此之外,就只是出厂时的模型,以及后来输入到模型中的新信息,这与人类的学习方式大不相同,因为人类在世界中不断经历,大脑一直在变化,不断获得新的东西并记住它们,显然有些记忆会消退,但在某种程度上还是会保留下来。所以解决持续学习问题的第一个可能方案就是把上下文窗口做得非常大。
第二个可能的解决方案是训练模型。所以每次你想让它们学习新东西或新能力时,你都要收集一些相关的训练数据,然后把它融入到模型中。我认为这两种方法都有很大的问题,但这是其中一个阻碍因素。我认为,尽管过去五年进步速度非常快,但整个行业在机器学习领域真正具有突破性的、能带来范式转变的想法的产生速度还是相当慢的。
所以,用某种其他方式的持续学习来取代长上下文、上下文学习和微调,我认为这个领域在产生大量此类想法方面并没有很好的记录。我认为这类想法的产生速度可能是每三年一个。所以我认为这还需要一些时间。
我认为多模态方面也需要时间。这对编程很重要的原因是,你想操作软件,想点击按钮并实际使用输出结果。你还想使用带有图形用户界面的工具来帮助你制作软件。例如,像 Datadog 这样的可观测性解决方案,对于理解如何改进专业软件非常重要,所以这似乎是必要的。
这些模型现在可以连贯地工作几分钟,在某些情况下甚至几小时,但要完成相当于人类几周时间的任务则是另一回事。所以,仅仅从架构上来说,能否在这么长的序列中保持连贯性,还有待观察,而且我认为这会很棘手。
但是,要实现 100% 的自动化,存在所有这些技术障碍,还有很多可以列举的障碍,以及许多未知的未知因素。我认为在一年左右的时间里,即使只是从高级文本指令到整个代码库的修改,乐观地说,你可能可以完成目前编程工作的一半以上。
我看到 Meter 发布的一些研究,他们观察软件或人工智能模型的平均工作时长,发现这个时长正以惊人的速度翻倍。所以,我认为你指出的障碍非常重要,但总的来说,任务的完成情况似乎确实在不断改善。最终,人类往往不会去做那些特别长的离散任务。所以我确实认为,人们越来越容易想象一整天的工作都可以由人工智能完成。
当然,当然。我认为预测这些事情确实很棘手,但有一个相关领域或许能预示这里的发展情况,那就是自动驾驶的历史,显然它已经取得了巨大的进步。在旧金山,有 Waymo 的商用自动驾驶汽车,而且据我所知,特斯拉也取得了很大的改进。
但我记得在 2017 年,人们认为自动驾驶在一年内就能完成并部署。显然,要让它在世界范围内普及仍然存在很大的障碍。尽管自动驾驶既困难又复杂,但与该领域一些人现在谈论的其他事情相比,它似乎是一个上限低得多的任务。所以让我们拭目以待。
我确实想问问时间线的问题,但我会稍后再问。好了,迈克尔,现在让我问你一些《解码器》节目中经典的问题。Anysphere 现在有多大规模?有多少员工?
我们现在大约有 150 人。
好的,当你考虑公司未来的规模时,你是设想拥有一个非常庞大的员工队伍,还是一个更小、更灵活的团队?
我们确实喜欢更灵活的团队,而且我认为这里需要说明的是,虽然对于我们正在处理的工作范围,我们希望保持团队的灵活性,但在未来几年里,团队仍然需要大幅扩张。但是,是的,我想知道是否有可能建立一家蓬勃发展的科技公司,做非常重要的工作,而团队规模最多可能在 2000 人左右,或者类似的规模。就像《纽约时报》的规模。我们很想看看这是否可能,但我们目前的员工数量肯定还需要大幅增加。
你们的组织结构是怎样的?你有几位联合创始人。你们如何分配职责?
公司最大的两个部门是工程和研究方面,比如一般的研发,以及面向市场的方面,比如服务客户。这家公司真的受益于拥有一大批联合创始人和一个庞大且非常有能力的创始团队。所以在这个范围内,我们有很多分工合作。特别是,我们的创始团队中有一群人在早期的市场开拓方面做了出色的工作。这在很大程度上完全来自创始团队,并且完全归功于其中的一部分人。所以在整个业务中,我们有很多分工合作。
同时,我认为当你聚焦到技术方面时,四位联合创始人都非常专注于这一点,把所有精力都放在这一个领域。我认为我们很幸运,在我们这个领域,有很多非常有用的产品可以开发。而且我相信,最重要的一点,也是你不能搞砸的一点,就是生产出这个领域最好的产品。因此,我们能够在业务的其他部分保持相对精简,尤其是相对于我们的规模而言,同时相对于工程和研究部门的比例也保持精简,并且仍然能够成长。
你自己负责公司的哪些部分?哪些工作是你亲力亲为的,而且如果有人想插手你会生气的?
我花了很多时间尽我所能帮助团队成长。我们认为招聘非常重要,特别是对个人贡献者的招聘。我认为科技公司衰落的一种方式是,最优秀的个人贡献者开始感到脱离公司,他们对公司没有控制权,人才密度降低。如果你在做技术方面的工作,无论管理层有多优秀,如果做实际工作的人不够优秀,我认为你能做的事情是有限的。我认为管理层的作用范围是有限的。
所以我通过投入大量时间在招聘上来提供帮助。我们仅仅依靠联合创始人招聘,没有聘请专门的招聘人员,就把团队扩大到了大约 75 人。现在有很棒的人在帮助我们进行招聘。有招聘方面的人与我们密切合作。但我在这方面投入了大量时间,然后尽可能在工程和产品方面提供帮助。这是两个最大的重点领域,此外还有一长串次要的事情。
所以你很年轻,我想你 25 岁,必须在融资、收购、所有你刚才提到的招聘决策等方面做出很多重大决定。你是如何做决定的?你有一个框架,还是一切都是临时决定的?
我不确定有一个统一的框架。一些常见的策略对我们有帮助,我们尽最大努力在整个团队和组织中广泛征求意见。这不仅适用于我 —— 我们尝试对公司的所有决策都这样做。我们越来越多地有一个非常明确的直接负责人,然后很多其他人提供他们的意见。每个决定都是非常独特的。
其他一些众所周知且有帮助的方法包括了解决策的风险程度和可逆转性。而且我认为,特别是当你处于我们这样的领域,考虑到它的发展速度,你在每件事上能花费的时间和收集的信息都是有限的。是的,还有其他方法,比如清晰地传达决策,并以此来迫使自己明确决策的思考过程。
好吧,既然你提到了招聘,我们再多谈谈招聘。有传言说 OpenAI 曾考虑收购你们。我不得不问,鉴于马克・扎克伯格最近的大举招聘,他有没有邀请你去他在太浩湖的家?
(笑)没有,没有。
没有吗?他没有带着 2 亿美元的签约奖金来说:“迈克尔,你为什么不来我们这儿呢?我们正在构建超级智能。”
没有。这对我们来说算是毕生的事业。所以是的,我们感到非常幸运,拥有这样的技术阵容、最初的创始团队阵容、决定加入我们的人,以及产品的发展态势,这些都让我们能够执行这个自动化编程的宏伟目标。时间会证明我们是否会成为实现这一目标的人,但作为长期从事编程工作且几乎同时研究人工智能的人,能够重塑编程,帮助人们借助人工智能在电脑上构建任何他们想要的东西,这对我们来说似乎是完美的。我认为这也是这项技术最好的商业应用之一。所以,不会(接受邀请)。
是的,听起来你真的想保持独立。
是的。
Meta 最近的大举招聘有没有让你们最近的招聘明显变得更困难? 难?
没有,并没有。我们试图保持研究团队相当小的规模。我的意思是,整个公司相对于它所做的事情来说都算是小的,尤其是研究团队。我认为人们在考虑招聘决策时的方式不同,而且我认为我们所提供的东西对那些想加入一个特别小的团队、专注于用人工智能在现实世界中解决问题的人最有吸引力。
我们是一家有点特别的公司。你谈到了一些由那些研究 API 模型的优秀人才开发的产品。但我认为我们是一个奇特的实验性公司,正好介于基础模型实验室和普通软件公司之间;我们努力在产品方面和模型方面都做到非常出色,并让它们相互促进。所以我认为我们吸引了特定类型的机器学习研究员或机器学习工程师。对他们来说,重要的是参与其中,而不是参与其他一些事情。
最后一个关于招聘的问题。本周有报道称,你招募的两位曾负责 Claude Code 的人在几周后就离开了。你能说说发生了什么吗?
凯特(吴)和鲍里斯(切尔尼)都很棒,而且我认为他们在 Claude Code 上还有很多事情要做,据我所知,他们是 Claude Code 的幕后推手,那是他们的成果。作为一个从一开始就从事某件事长达三年半的人,我理解那种归属感。我认为他们还有很多事情要做,而且他们对此很兴奋,所以他们决定留在(Anthropic)。
你提到 Cursor 处于一个有趣的位置,介于大型实验室和其他使用你们软件的初创公司之间。在招聘时,你如何描述 Cursor 的文化?
我认为描述当前团队的一些特点,或许并不令人惊讶 —— 我们对流程持怀疑态度,对等级制度也持怀疑态度。所以,当我们承担越来越雄心勃勃的项目时,需要越来越多的协调。但在一定程度上,考虑到公司的规模,我们试图在这两方面都保持精简。
我认为这是一个非常注重 intellectual honesty 的团队,在这里人们感到很自在。批评事物、在对工作提供反馈时保持开放,感觉风险很低。但我也认为这是一个非常有求知欲的团队。我认为人们对做这项工作感兴趣是为了实现编程自动化的最终目标 —— 不涉及任何工作与生活平衡的问题,因为我们希望这里能让处于各种工作与生活平衡状态的人都能做出出色的工作。
到目前为止,在这里没有人真的把这仅仅当作一份工作。他们真的对我们所做的事情感到非常兴奋,而且我认为现在是构建技术的一个特殊时期。我认为在外界看来,我们所做的事情似乎非常专注和低调,部分原因是我们与外界的沟通太少了。我们在这方面需要做得更好。
我认为在很大程度上,人们认为 Cursor 是 “那个发展非常快的东西”。他们知道一些顶级指标之类的东西来衡量它的 adoption 速度有多快。在内部,我们认为招聘那些虽然可能非常有雄心,但仍然非常谦逊、低调、专注和冷静的人非常重要,因为周围有很多噪音。我认为,仅仅是有一个清晰的焦点并埋头苦干,实际上不仅对人们在这个领域感到快乐非常重要,对团队的执行力也非常重要。
你提到了与外界的沟通。我认为 Cursor 的历史在很大程度上是一段让客户满意的历史。但最近你们改变了定价方式,人们对此非常不满。基本上,你们从固定费用转向了更多的基于使用量的定价,一些人在不知不觉中超出了他们的限额。你从这次经历中学到了什么?
我认为从中学到了很多,而且我们有很多方面需要改进。首先说明一下,Cursor 的定价方式,从一开始就是,总的来说,你注册一个订阅,然后在订阅期内可以获得一定次数的 AI 使用权限。定价在不断演变,功能在不断增减,限额也在上下调整,而且随着时间的推移,有不同的方式可以消耗或不消耗这个限额。与此同时,“使用一次 AI” 的含义,以及它给人们带来的价值和在某些情况下的潜在成本,都发生了很大的变化。对我们来说,一个很大的变化是,当 “你使用 AI” 时,AI 的工作时间越来越长。
你提到过那张图表,显示 AI 的最长工作时间从几秒到几分钟,再到现在的几小时,而且增长速度非常快。我们正处于这一前沿,现在当你让 AI 去做某件事或回答某个问题时,它可以工作很长很长的时间。这改变了它能给你带来的价值。你可以从只是问一个简单的编程问题,到让它为你写 300 行代码,这也改变了潜在的成本。特别是,它对成本中位数的影响较小,但对成本方差的影响较大。所以我们推出了一系列定价变化,其中最受关注的是从每月限额以请求次数计算,转向以你所消耗的潜在计算资源计算。
关于你所说的,有一点需要补充的是,基于使用量的定价一直是 Cursor 的一个重要组成部分,因为在 Cursor 的整个生命周期中,人们使用 AI 的次数越来越多。然后他们开始超出限额,我们想给人们一个突破限额的方法。这次变化改变了使用量定价的结构,不再基于请求次数,而是基于潜在的计算资源。这一点肯定本可以沟通得好得多。我认为我们从这次经历中学到了很多,未来还有很多需要改进的地方。
我认为消费者尤其难以理解基于使用量的定价,因为他们习惯了 Spotify 和 Netflix,每月支付 10 或 20 美元,就可以尽情使用。人工智能的经济模式并非如此。
是的,我认为看看我们这个领域的情况会很有趣,因为我认为至少到目前为止,对于消费者聊天应用市场,看看每个用户的计算资源消耗曲线如何随时间上升会很有趣。但在过去 18 个月左右的时间里,这一曲线可能相当平缓,我并不会感到惊讶,因为最初的 GPT-4,虽然我没有任何内部信息,但从模型规模来看,似乎已经取得了很大的进步,实际上可以缩小模型规模,同时保持相同的智能水平。所以我认为,在像 ChatGPT 这样的产品中,大多数专业用户使用的模型实际上可能随着时间的推移而变小,计算资源的使用量也在下降。
但在我们这个领域,我认为对于单个用户来说,计算资源的使用量可能会上升。在某种情况下,如果令牌成本下降不够快,它可能会变得更像 AWS 的成本,而不太像 Percy 这类效率软件的成本,这还有待观察。但需要注意的是,我们确实认为为用户提供选择非常非常重要,所以如果你想开启所有功能,获得最好、最昂贵的体验,我们希望成为借助 AI 进行编程的最佳方式。
我们也希望成为借助 AI 进行编程的最佳方式,如果你只想支付可预测的订阅费用,并获得该价格所能提供的最佳体验。即使是针对主要的个人计划,即 20 美元的专业计划,绝大多数用户也不会达到他们的月度限额,因此不会收到需要开启使用量定价的提示。
我就是那种 AI 用户。我从来没有达到过限额,这让我觉得我需要更多地使用它。
前 5% 的用户和普通用户之间存在非常非常大的差异。所以有些人使用 AI 的频率非常非常高。
好了,在我最后的几个问题中,我想了解一下你对人工通用智能(AGI)的看法,因为我们之前谈到,你指出了在构建更先进的系统时存在的一些非常现实的技术问题,这些不仅仅是人工智能中真正未解决的问题。比如,给这些系统更长的记忆时的上下文大小,帮助它们以人类可能的方式学习,我们还不知道如何做到这一点。然而,行业中有很多人认为,到 2027 年、2028 年,世界将会变得非常不一样。那么,在那些认为一切都将发生巨变的人和那些认为我们正处于一个需要数十年时间的进程起点的人之间,你会把自己放在哪个位置?
我认为我们处于一个复杂的中间地带,我们确实认为这将需要数十年的时间。但我们也认为,人工智能仍将是世界上一种变革性的技术变革。可能比…… 只是一种非常非常大的技术变革。当我们开始开发 Cursor 时,有趣的是,我们会得到两种截然不同的反应,而且我认为随着第一批惠及数十亿人的人工智能产品的兴起,其中一种反应正越来越不受欢迎。
但在 2022 年初,我们会得到两种反应。一种反应是:“你为什么要研究人工智能?我不确定在这方面真的有很多事情可做。” 另一种反应来自我们那些对人工智能非常感兴趣的亲密朋友和同事,他们会说:“当人工通用智能将在 Y 年内(可能是 2024 年或 2025 年)淘汰所有这些东西时,你为什么要研究‘某 X’应用程序”—— 无论是计算机辅助设计还是专门的编程。
我们认为这是一条中间道路,就像一个参差不齐的顶峰,如果你真正深入了解到目前推动人工智能进步的因素,我认为,同样,有一些想法确实奏效了,中间有很多细节需要填补,但有一些非常非常重要的想法。我认为,尽管在过去十五年里有很多人从事深度学习工作,但该领域产生想法 —— 真正重要的想法 —— 的速度并没有太大变化。我认为有很多现实的技术问题需要我们去解决。所以,我认为人们有一种将这些模型拟人化的倾向,看到它们在某些方面表现出色,甚至超越人类,然后就认为它们在所有方面都会表现出色。我真的认为这是一个非常参差不齐的顶峰。
所以,我认为这将需要数十年的时间。我认为这将是渐进式的。我认为我们对 Cursor 最雄心勃勃的希望之一是,如果我们成功地实现了编程自动化,并构建了一款出色的产品,让你只需用最少的意图就能在电脑上构建东西,那么这一成功以及我们在实现这一目标过程中需要摸索出的技术,可能也有助于推动人工智能的发展和总体进步。
我认为可以回顾这样一个实验,如果你在 2000 年或 1999 年,想要推动人工智能的发展,你能做的最好的事情之一就是研究类似谷歌的东西,让它取得成功,并向世界开放其研发成果。所以,至少在某些方面,我认为我们正在做的事情就是试图做到这一点。
所以听起来你不认为仅仅通过一次更大规模的新训练,增加更多的参数,我们就会迎来一个机器上帝。
时间会证明一切。我认为对这些事情保持合理的怀疑态度很重要。但我最好的猜测是,这需要更长的时间,但它仍然会是一个巨大的变革性事件。
好了,最后一个问题。我们今天多次谈到预测通常是多么困难,所以我不会让你做一些疯狂的事情,比如预测五年后 Cursor 会是什么样子。但当你想到两年后的 Cursor 时,你希望它能做到现在还做不到的什么事情?
我认为有很多事情。所以,在短期内,我们对这样一个世界感到兴奋:你可以把越来越多的工作委托给速度快、有帮助的 “助手”,并且在协调这些 “助手” 工作的同时,能够构建一种非常棒的体验,让这项工作变得令人愉快。
我们长期以来一直感兴趣的另一个想法,有点冒险,是如果你能进入一个越来越多的工作都委托给人工智能的世界,你会开始遇到一个问题,那就是你是否会查看代码。你是逐行阅读所有内容,还是完全忽略代码?我认为在专业环境中,无论是完全闭眼忽略代码,还是逐行阅读所有内容,都不会真正奏效。
所以,我认为你需要这种中间地带,而这可能表现为编程语言的演变,使其更高级、更不正式。编程语言本质上是程序员用来精确指定你希望计算机做什么的用户界面。它也是你查看和确切了解软件当前工作方式的一种方式。
我认为有一种可能是,编程语言将演变得更高级、更简洁。不再是数百万行代码,而是数十万行代码。我认为在一段时间内,构建软件的一种重要方式是你可以阅读、指向和编辑这种更高级的编程语言。
这也涉及到公司背后的一个更大的想法:在模型方面有很多工作要做。这个领域会做一些,我们也会尝试做一些。但我们想要实现的最终状态也是一个用户界面问题,即如何将你脑海中的东西呈现在屏幕上。
我认为完全通过在聊天框中输入来构建软件的愿景是很强大的。我认为这是一个非常简单的用户界面。你可以用它走得很远,但我不认为它能成为最终状态。当你构建专业软件时,你需要更多的控制。所以你需要能够指向屏幕上的不同元素,能够深入到最细微的细节并改变几个像素。
你还需要能够指向逻辑的某些部分,确切了解软件的工作原理,并能够编辑非常精细的内容。这需要重新思考这些东西的新用户界面,而目前的用户界面是编程语言。所以我认为它们将会演变。
好了。你正在做的很多事情都很有趣。迈克尔,谢谢你来到《解码器》节目。
谢谢你的邀请。
评论