准备好迎接生成式人工智能的热潮吧!大科技公司会凭借其工具和设备主导市场吗?哪些初创公司将获得巨额利润?“X的副驾驶”会成为致富的商业策略吗?初创公司如何构筑壕沟以阻挡其他淘金者?美国是否将再次拥有最富有的金矿?
生成式人工智能(GenAI)的热潮已经全面展开。GenAI现在可以创造出与人类创作的内容(文字、图像、视频和音频)往往难以区分。写作、视觉设计、编码、营销、游戏制作、音乐创作和产品设计等领域正在迅速受到GenAI的影响。随着创意服务被整合到Microsoft Office 365、Slack、Discord、Salesforce Cloud和Gmail等产品中,GenAI将在我们意识到之前提高数十亿人的生产力。我们很快将使用GenAI来创建任何事物的初稿。
那么谁将从GenAI中获利?我向OpenAI的Dall-E-2文本到图像服务提出了这个问题,它生成了下面的图像。效果不错。
2018年,我写了一篇关于谁将在人工智能领域获利的热门博文。这是我对成千上万个新用例中投资数十亿美元的GenAI的后续文章。实际上,这场淘金热潮中存在着五个“层次”的潜在价值捕获:
-
基础设施 - 提供运行庞大的GenAI计算模型的芯片和云基础设施的公司。
-
基础模型 - 构建生成创意输出的大规模文本、图像、音频和其他模型的公司。
-
应用程序 - 大型和小型公司正在构建供消费者、企业和政府使用的应用程序,用于创意任务。
-
行业和组织 - 作为其创意活动的一部分,将从GenAI应用程序、工具和平台中提取价值。
-
国家 - 将在国内外创建、出口和部署GenAI技术的国家。
在这些层次中,谁将成为赢家?
大科技公司已经在GenAI基础设施领域占据主导地位,拥有云服务和硬件芯片。
微软和谷歌在美国云市场上处于有利地位,而百度和阿里巴巴在中国市场上处于有利地位。它们庞大的超级计算云基础设施被设计用于运行GenAI的复杂、昂贵、大规模的文本、视觉和音频基础模型。已经有许多开发者使用它们的云AI API服务和工具来构建应用程序,随着创业者们争相开发几乎无限的GenAI用例,这一趋势预计将加速。亚马逊在基础模型方面一直保持沉默,所以一个重要问题是他们将如何应对。
GenAI需要大量的计算能力来生成创意输出。OpenAI的首席执行官Sam Altman曾表示:
“我们将不得不在某个时候对ChatGPT和Dall-E-e进行一定程度的商业化;计算机成本令人瞠目结舌。”
有传言称,OpenAI的GPT-3训练成本仅在能源账单上就达到了1200万美元。毫不奇怪,OpenAI在2023年初从微软获得了100亿美元的进一步投资,其中很大一部分将以访问Azure超级计算基础设施的积分形式提供。
芯片制造商对超级计算能力的需求充满期待。拥有超过5000亿美元市值的英伟达(NASDAQ: NVDA)股价从2018年的60美元上涨到2023年初的240美元。大科技公司也在投资自己的AI优化芯片。最近,美国对向中国出口先进AI芯片实施了禁令,这将加速中国国家援助和国内半导体产业的投资(同时也加剧了地缘政治紧张局势)。考虑到所需的投资规模,这个领域的赢家将是那些已经是大公司或得到大公司支持的人。
大科技公司的规模和范围使它们在开发GenAI基础模型时具有竞争优势。这些模型是在大量数据上进行训练的,利用了大科技公司庞大的计算资源。例如,OpenAI的GPT-3文本模型,也被称为大型语言模型(LLM),是在约45TB的文本数据上进行训练的,这些数据代表了从英语互联网的大部分内容中“吸取”的5000亿个单词。同样,OpenAI的Dall-E-2文本到图像模型是在6.5亿个图像-标题对上进行训练的。
大科技公司不想通过未来数十亿终端用户产生的巨额收入流失其在云服务领域的领导地位。微软已与OpenAI合作,而谷歌最近推出了其Bard语言聊天机器人,它与其Imagen模型相辅相成,用于根据输入文本创建逼真的图像。
中国的大科技公司也没有坐以待毙。阿里巴巴正在测试一种内部聊天服务。百度已经提供了ERNIE-ViLG,一种文本到图像参数模型,并正在测试一种新的聊天机器人服务。大科技公司的规模使它们拥有几个初创公司难以复制的优势。
大科技公司可能是唯一能够应对GenAI阴暗面的参与者。尽管GenAI仍处于初级阶段,但基础模型的问题已经显现。这些问题涉及到真实性(GenAI生成的内容是否准确)、偏见(对特定群体的偏见)和有害内容(如种族主义、厌女或仇恨言论)。2023年初,由于谷歌的Bard聊天机器人服务给出了错误和冒犯性的回答,谷歌的市值蒸发了1000亿美元。微软的有限发布的Bing聊天机器人也显示出用户绕过保护措施后出现了令人不安(甚至是种族主义的)回应,尽管其股价没有急剧下跌。还有一种名为“提示注入”的新型网络攻击,可以通过注入恶意指令来绕过防护措施。
开发这些基础模型的挑战在于确保其输出既负责任又准确。基础模型不能简单地复制从互联网各个角落获取的有偏见和有害内容。这些模型还具有“幻觉”特性。这意味着它们可以自信地对问题给出构思良好、雄辩的答案,但这些答案可能在事实上是错误的。正如Character.AI的联合创始人Noam Shazeer在《纽约时报》中所说:
“...这些系统并不是为了真实性而设计的。它们是为了进行合理的对话而设计的。”
换句话说,它们是自信的胡扯艺术家。
大科技公司无法承担模型失败可能带来的声誉、财务和战略风险。它们正在构建包括防护措施和模型调整在内的监督监管系统。为了赢得用户的信任并满足可能的监管要求,大科技公司需要为模型的透明度、可解释性和引用来源设计解决方案。从人类反馈中进行强化学习(RLFH)将需要大量的人员来审查和评估模型对问题的回答。这些都不是简单的问题,在规模上解决这些问题需要资本、工程人才、数据集以及拥有数十亿用户的大科技公司的人类反馈循环的规模,大科技公司在这方面处于有利地位。
尽管规模庞大,但大型科技公司将无法控制整个基础模型热潮。它们的模型广泛适用于回答几乎任何可想象的消费者问题,但并不总是适用于企业的垂直任务。为什么呢?大型科技公司的水平模型(1)在专业任务上表现不佳,(2)经常无法保护企业的专有数据,(3)没有在非英语语言上进行训练,(4)缺乏透明度和可解释性,(5)不太适合在边缘设备和本地使用,(6)在云端运行成本高昂,(7)使公司对大型科技公司产生依赖。
一些资金充裕的初创公司提供了与大型科技公司基础模型相对的选择。
-
成立于2021年的Anthropic专注于更可靠、可解释和可控的LLM,并已筹集了超过10亿美元的资金,其中最近一笔3亿美元的投资来自谷歌。
-
AI21labs为其Jurassic-1文本模型筹集了1.19亿美元。Jurassic-1的参数数量超过1780亿,与GPT-3的规模相似。
-
Cohere为LLM和自然语言处理(NLP)作为服务筹集了1.65亿美元。
-
BLOOM是一个由私营部门Hugging Face和欧洲研究机构支持的私营-公共研究LLM项目,旨在创建一个具有1760亿参数的开源LLM。它已经在46种人类语言上进行了训练,包括在大多数LLM中代表性不足的20种非洲语言。
-
总部位于英国的Stability AI最近为其开源图像生成服务Stable Diffusion筹集了1亿美元,估值超过10亿美元。
大型科技公司意识到他们的模型局限性,特别是微软最近宣布企业将能够“精细调整”他们的模型,而不必担心专有数据被共享,以建立更好的模型。
然而,这些措施并不能满足所有人的需求。德国初创公司Adelph Alpha已筹集了3100万美元,正在解决企业对大型科技公司基础模型的担忧,提供自己的“欧洲”中心模型。但是,尚不清楚他们是否能够在规模上竞争。
大型科技公司将赢得水平基础模型的竞争,为一些资金充裕的初创公司提供了机会。也许像BLOOM和Stable Diffusion这样的开源模型将获得规模,或者至少找到一个小众市场。按照惯例,将有工具和服务提供商从中获利,使使用这些基础模型变得更加容易。但总体而言:
大型科技公司的市场主导地位将因为他们能够有效地免费提供基础模型,从而增强,因为他们将从底层云服务中获得大部分收入。
尽管大型科技公司将赢得GenAI热潮的工具和设备,但应用层面更具公平竞争性。现有的企业软件公司、全栈初创公司以及成千上万个基于这些基础模型的初创公司将提供新的GenAI应用。
传统的企业软件公司,如Salesforce和微软,将通过有机增长或收购为数十亿用户提供GenAI能力。微软还将其GenAI聊天机器人服务整合到其Bing搜索应用程序中,直接挑战谷歌的搜索霸权。
一小部分资金充裕的初创公司将提供专门的“全栈”应用。在具有专业数据、序列和计算要求的领域,这些公司将开发自己的基础模型。例如,GenAI可以通过构建自己的模型和应用程序,彻底改变药物发现和材料科学。投资者将被这些初创公司所吸引,因为它们可能提供丰厚的财务回报和强大的竞争防御能力。
例如,Adept AI已筹集了6500万美元,开发基于LLM的自然语言界面的下一代机器人流程自动化(RPA)。处于隐秘模式的Inflection.ai正在做类似的事情。Character.AI是一个聊天机器人,采用角色的声音和知识,为企业应用提供全栈实现的专门LLM支持,该公司估值约为10亿美元,已筹集了2亿至2.5亿美元。
GenAI的采用速度将非常快。如果一个AI生成的市场宣传稿的初稿不完美,那么很容易进行编辑。ChatGPT是历史上增长最快的消费者应用程序,仅在发布后两个多月内就拥有超过1亿月活跃用户。这意味着对于几乎无限数量的GenAI创意应用的争夺将是激烈而迅速的。
将GenAI投入使用将使全球的消费者、企业和组织使用基于这些基础模型构建的初创公司提供的应用程序。许多GenAI初创公司将采用“Copilot for X”的商业模式,以帮助用户处理“创意”任务,如写作或编码,以及重复性任务,如数据输入或表单填写。以下是一些在各个垂直用例中赚钱的初创公司。
-
通用文本写作初创公司正在实时帮助用户处理日常写作任务,如电子邮件撰写、文档创建和文本表单填写。AI21labs的Wordtune将“将您的文本重写为专业的文案”。写作助手之王是Grammarly,已筹集了超过4亿美元。写作初创公司的列表很长,包括Lex、HyperWrite、Compose AI和Rytr等。
-
销售和营销初创公司包括筹集了1.45亿美元的巨头Jasper.ai。Anyword已筹集超过4500万美元,为销售提供“高转化的文本内容”。Persado为语言生成筹集了超过6600万美元,其“96%的时间超过您最好的文案”。初创公司越来越专注于特定任务,如编写产品营销描述。
-
图像生成初创公司使用Open AI的DALL-E-2、Stability AI的Stable Diffusion和Midjourney的文本到图像基础模型。初创公司包括帮助用户创建拼贴画的Art Breeder。
-
消费者面部和头像初创公司包括Lightricks的Facetune应用程序,可帮助创建“完美”的Instagram图像。Lightricks已筹集3.5亿美元。用户可以使用非常受欢迎的Lensa AI应用程序创建个人“魔法头像”。Reface允许用户将自己的脸替换到不同的场景中,已筹集550万美元。
-
产品设计初创公司包括Botika,该公司正在通过在各种场景中穿着高质量服装的模特的超逼真图像中“重新定义时尚摄影”。Maket通过文本提示“在几分钟内生成建筑平面图”,Tailorbird加快了家庭装修平面图的创建。Swapp已筹集700万美元,帮助自动化项目的施工文件。TestFit已筹集2200万美元,用于辅助房地产设计。
-
视频初创公司提供视频构思、生成、编辑和团队协作工具。Runway是资金最充裕的初创公司,已筹集近1亿美元。Magnifi已筹集超过6000万美元用于视频编辑,而InVideo已筹集超过5300万美元。包括Hour One在内的几家初创公司提供文本到视频服务。总部位于伦敦的Synthesia已筹集超过6700万美元,用于其头像视频创建平台。总体而言,NFX正在追踪54家为生成式视频初创公司筹集了总计5亿美元的资金。7. 音频 GenAI初创公司包括音乐创作公司**Soundraw、Boomy和Aiva。Splash已经筹集了2300万美元**,允许用户创作原创音乐并为任何旋律演唱歌词。DupDub已经筹集了超过2.5亿美元用于配音服务,并声称拥有100万用户。Descript已经筹集了超过1亿美元,为音频转录、播客、屏幕录制、音频和视频编辑提供语音克隆。Deepgram的语音转文本服务与BigTech和OpenAI的Whisper竞争,并已获得超过8700万美元的资金。
-
游戏生成初创公司希望为制作工作室节省数亿美元的生产成本。Masterpiece Studio已经筹集了600万美元用于创建2D到3D模型。Replica已经筹集了500万美元,专注于为游戏、电影和元宇宙提供AI声音演员。Latitude/AI Dungeon是一家游戏工作室,已经筹集了400万美元用于基于文本的游戏生成。VoiceMod已经筹集了超过700万美元,为《堡垒之夜》等游戏和Skype等应用程序提供实时语音变声。Ponzu是一家用于创建3D表面纹理的初创公司,而**Charisma AI是一家用于创建非玩家角色(NPC)虚拟角色的初创公司。Inworld已经筹集了7000万美元**,用于其面向AI开发者的平台,用于“创造沉浸式现实、虚拟角色和元宇宙空间”。总体而言,A16Z目前在游戏行业追踪超过50家初创公司。
-
聊天机器人和对话AI初创公司包括垂直领域的健康症状检查工具**ada,已经筹集了1.9亿美元**,以及总部位于英国的**Healthily,已经筹集了约7000万美元**。考虑到AI每年可以为呼叫中心业务节省800亿美元,初创公司正在筹集大量资金。Cresta AI已经筹集了超过1.5亿美元,而伦敦的PolyAI已经筹集了6800万美元用于其“超人类语音助手”。
-
编码合作伙伴初创公司正在效仿微软的**GitHub Copilot,声称可以自动生成高达40%的代码。Warp是一家将自然语言转换为计算机命令的公司,已经筹集了7000万美元**。Tabnine已经筹集了3000万美元。
-
知识管理、摘要和企业搜索初创公司包括**Primer AI,已经筹集了1.68亿美元**,以及**Otter,已经筹集了6300万美元**。总部位于斯德哥尔摩的初创公司**Sana Labs已经筹集了5460万美元**,以促进组织内信息的发现、共享和再利用。
GenAI应用初创公司正吸引大量资金。全栈初创公司将在药物研发等垂直领域筹集大量资金,他们将创建高度专业化的模型和应用程序。在更广泛的B2B领域,竞争将是横向和纵向的,以合作伙伴商业模式为中心。一方面,横向初创公司将为各行各业提供服务,例如Jasper的销售和营销助手。另一方面,初创公司越来越多地专注于行业、职能和任务。
获胜者将通过以下方式实现规模和防御能力:
-
强大的投资回报率(ROI) - 对于他们的用例来说,以及短时间内证明其价值。
-
专有和定制的基础模型 - 使用本地化、专业化和专有的公司数据对特定受众进行“微调”。
-
工作流程 - 证明可用性并深度集成到客户流程中,一旦安装后很难移除。
-
反馈循环 - 例如通过人类反馈的强化学习,改进模型与用户意图的一致性。
-
飞轮动力学 - 越多的反馈和其他反馈,通过“微调”改进模型性能,使用量越大,势头越大。
-
投资的规模和速度 - 由于大部分知识产权属于基础模型,利润率较低,游戏的关键在于规模。那些能够快速建立品牌并吸引大量用户和客户,使飞轮旋转起来的初创公司将成为该类别的领导者。
在B2C GenAI消费者领域,具有速度和大规模消费者获取预算的横向参与者很可能赢得竞争。
AutogenAI是一家总部位于英国的B2B初创公司,其在竞标管理合作伙伴领域处于有利地位。他们花费了过去两年时间开发一款帮助企业节省时间、金钱并提高投标、招标和提案质量的应用程序。他们使用公司网站内容、赢得和输掉的销售投标、营销文案和年度报告的示例来“微调”OpenAI的LLM。他们还提供人机监督用户界面,以协助审查生成内容和事实的来源和准确性。这也提供了一个关键的人类强化学习循环,增加了使用量。客户越来越多地将他们的应用程序用作下一代知识管理和搜索工具,使其更具黏性。
**一些GenAI初创公司将被收购,并成为更大型企业和消费者应用程序的功能。**例如,拥有数百万用户的大型社交媒体公司将收购最新的面部和头像创建初创公司。现有的图形设计软件公司将收购最有前途的图像和视频编辑初创公司。例如,微软现在在其CRM和ERP应用程序中原生地提供GenAI的“Microsoft Dynamics 365 Copilot”。
简而言之,如果能够迅速建立规模和飞轮,一些幸运和勇敢的初创公司将获得成功。同样,一些全栈初创公司将在药物研发等专业用例中取得成功。由于其大规模的筹资轮次、统一的市场以及人们、企业和政府对创新的快速采纳,美国初创公司将占据主导地位。但是,大多数初创公司将一无所获,只为这场淘金热的提供者(主要是美国的BigTech)贡献利润。
这是关于谁将从生成AI中获利的系列文章中的第一篇。在接下来的文章中,我将讨论哪些组织将从GenAI中获益最多,以及哪些国家和公民将从这项技术中获益最多。
欢迎您的反馈。