在过去的时间里,用户习惯了 「按 1 查询、按 2 转人工、按 3 返回上一层」,企业把「分流」视为首要目标,而不是「解决问题」。
这些 AI Voice Agent 初创企业已经在包含:汽车金融、保险、客服、餐厅等各个垂直领域里,实现了商业化闭环。
每家AI Voice Agent公司都看似解决一个具体流程,但合在一起,就是一个巨大的结构性变化:
在这个拐点上,我们盘点了18 家具有代表性的公司。从高估值的企业级平台,到 YC 孵化的深垂直工具,再到短时间内跑出 PMF 的新物种。
AI 真正进入成熟期,总是关于「应用」,往往从「能在行业里跑起来」这一刻开始。
在 AI Voice Agent 领域,落地的方式非常明确:扎进那些高频、重复、强依赖人工沟通的流程,让 Agent 直接接手每天数以万计的电话、预约、询问与任务执行。
本文盘点了18 家在真实业务场景中跑出速度的 AI Voice Agent 初创公司,包括:
Typeless 是一个聚焦「语音输入 → 高质量文本」的效率工具产品,核心思路很简单:用户只需开口说话,系统就能实时把口语转换成经过润色、格式化、去掉冗余语气词的文字。
它支持超过 100 种语言,定位面向全球用户,并提供 Mac 和 Windows 的桌面版本,背后为华人团队。
Typeless 的核心卖点在于「摆脱键盘」,让用户用说话的方式完成写邮件、写文档、写信息等任务。
它强调文字生成是「经过润色的」,系统会自动处理填充词、重复表达、结构混乱的问题,让口语内容读起来像是你认真打字写好的。如果你习惯中英文混说,Typeless 也支持准确识别不同语言。
它还提供语境适配能力,例如在邮件中会变得更正式,在聊天应用里会变得更自然,在文档里会自动格式化结构。
此外,它支持「选中文字 → 用语音修改」以及「朗读文字 → 用语音让系统总结或分析」的交互方式,让语音真正变成一种通用输入层。
虽然没有明确的融资信息或孵化机构记录,它更像是从用户需求出发、逐渐在效率工具领域打磨出来的产品。
Typeless 产品团队的操盘人是华人创始人兼CEOHuang Song。由真格基金天使投资,
从产品形态看,这是一个执行力很强的小团队,以「做出真正高质量的语音输入工具」为目标。
【1】首先,文本输入效率的痛点长期存在。思考往往跟不上键盘,而语音输入天然快。
【2】其次,它覆盖的场景非常广:写邮件、写文档、写客服回复、写 IM 信息都能受益。
【3】第三,Typeless 的 AI 能在第一时间给到「看得见的提升」,用户只要用几分钟就能感受到速度和质量的变化,这类产品很容易形成用户黏性。
【4】最后,它的工具化路径很清晰,桌面软件 + SaaS 订阅的模式也容易扩张。
Pine AI 是一家华人 AI Voice Agent 公司,它提供的服务有点像「帮用户打电话、处理麻烦事的智能助手」。
能够处理的方面非常杂:从取消订阅、申诉账单、谈判费用,到处理各种繁琐的客服沟通,都能通过 Pine AI 的 Agent 完成。
团队属于典型的早期公司,非常年轻。它的定位很鲜明:不去服务企业客服团队,而是直接站到消费者一侧,帮助普通人处理那些耗时又令人头痛的电话流程。
比如:你想降低宽带费用、取消某个订阅、索要退款、对错误收费提出申诉,Pine AI 的 AI Agent 就会在获得授权后代表你拨号、排队、和客服沟通,直到事情办成。
从 App Store 描述来看,它可以立即取消订阅、自动谈判账单、帮用户节省费用,甚至提供「按成功收费」的模式:帮你省到钱才收费。
整体上,它提供的是一种「把麻烦事交给 AI 处理」的消费者服务,用 AI 把传统的电话沟通链路做成可自动化的个人 Agent。
官网提出的使命很明确:减少用户在客服电话中的等待时间、降低沟通压力、提高处理效率。
语音通话 Agent 对技术、流程、监管都有要求,能落地说明团队已经做好基础设施准备,也成功跨过前期门槛。
Pine AI 的 CEO 是华人 Stanley Wei(Agora Inc.的前 CSO & COO)。根据很多报道,他是在经历过一次信用卡申诉的漫长流程后受到启发,决定做这家公司。
从产品特性来看,这是一支执行速度快、对语音技术和消费者交互体验理解较深的团队。
和企业通电话的流程复杂、等待漫长、体验常常很差,「帮我打电话」几乎是消费市场中最普遍的刚需之一。
相比聊天机器人,Pine AI 要在真人电话场景中实时沟通、理解客服逻辑、推动流程,技术难度更高,竞争也更少。
Pine AI 站在消费者一侧,让 AI 成为「你的个人 Agent」。这种服务在 Agent 赛道里相对新,同时拥有较强的可复制性。
Sierra 是一家专注于企业客户服务和支持场景的对话 AI 公司。其官网介绍:
其核心产品 「Voice」 模块,强调 Agent 能够「用人一般的语音质量」与客户通话,同时兼具多通道能力(语音、聊天、渠道整合)。
Sierra 做的事情很简单,他们的核心产品叫 Sierra 平台,本质上是一个企业级的 AI Agent 操作系统和数据平台。
更新订阅、换货处理、账单查询这种原本要人工客服处理的事,它都能独立跑完。而且,Sierra 能直接连接企业内部系统,也能和 CRM 等现有工具顺畅对接,让 AI 进入业务流程里办事。
Sierra 还推出了语音通话场景支持,让客户可以通过电话与 AI Agent 对话,而不仅仅是聊天窗口。
其在业内被视为一个「AI Agent 平台」的代表性公司,与传统客服机器人和聊天机器人厂商有所区别,重点在于让语音表现、动作执行和品牌声音保持一致性。
Sierra 是 2023 年在美国成立的公司,但从出生那一刻起,它就不是普通初创。
它的早期客户已经是企业级市场里比较重量级的存在,比如 SoFi、Ramp、Brex,还有 SiriusXM、ADT、Thrive Market 这类超大规模公司。
能把这些体量的客户拿下,本身就意味着 Sierra 的产品就不是「给中小企业试试」,而是真的能扛住大型公司的复杂系统和高要求。
Sierra 到目前的总融资是 6.35 亿美元,2025 年 9 月那轮 3.5 亿美元让它的估值一口气冲到了 100 亿美元。
Clay Bavor 则是 Google 的重量级老将,在公司里干了快 20 年。这两个人联手,让 Sierra 在资源、人脉、GTM、产品理解层面几乎自带「最高配置」。
Sierra 的估值并不是因为讲了一个「AI 的宏大故事」,而是因为它真的抓住了大企业的痛点。
Bret Taylor 在 Salesforce 多年的经验,让他对 Fortune 500 的需求细节非常清楚,比如安全、合规、系统集成这些大课题。而他在 OpenAI 的角色,则让 Sierra 可以第一时间接触最新的模型和技术方向。
再加上它的大多数客户都是年营收超过 10 亿美元的巨头级公司,Sierra 一开始就站在了企业级市场的 TOP 位置。
原因其实很现实:这家公司既懂大型企业要什么,也能真正把 AI 做成「能落地、能扩展、能进系统」的产品,而且创始团队本身就在硅谷和企业市场的核心圈层里。
Retell 是一家专做「超低延迟语音代理 API」的平台型公司,目标用户不是普通消费者,而是全球的开发者。
它想解决的核心问题很简单:让 AI 和你说话的方式,像一个真人一样自然、不卡顿、不抢话。主打能力是让语音对线 毫秒以内,这在整个行业里都是非常激进的指标。
Retell 的产品只有一个核心方向:一个「可以让开发者快速搭建语音代理」的 API 平台。它把 Voice Agent 最难的部分:语音对话中的「轮换机制」,做成了核心技术。
它的 turn-taking model 让 AI 可以像真人一样「听你说到一半就明白你的意思」,并且能处理自然的打断,不会出现那种「你一句我一句」的机械对话感。
对开发者来说,这个产品能直接拿来搭建招聘、客服、陪伴、培训、调研等任何语音相关的应用。
因此,企业用户可以在平台里几分钟就搭出一个 AI Voice Agent,从角色设定、任务目标,到变量、对话流程,都能自己配置,不需要工程师从 0 写代码。
和很多只做文本聊天的工具不同,Retell 能真的「打电话」,它可以接电话,也能主动外呼,跟用户进行自然对话。这种体验比传统机器人要流畅得多。
更重要的是,它还能处理现实世界里常见的电话流程,比如按键式 IVR 导航、呼叫转接、甚至批量外呼,同时也能对接企业本身已有的 SIP 中继或 VoIP 系统。
它可以从文档或网站自动同步知识库,通话结束后还能自动做总结、分析对话,例如预约时间、客户意图、订单号这种「业务重要信息」。
技术层面,他们把语音体验打磨得比较极致,延迟大约在 500ms 左右,通话过程中几乎没有「AI 停顿感」,并且已经支持18+ 种语言。
Retell 的另一个优势是升级速度快,他们紧跟 GPT-4o、GPT-4.1 这类最新模型做迁移,所以平台整体的理解力、对话能力会随着模型迭代快速提升。
虽然公司年轻,但它切中了语音 AI 最难的技术痛点:低延迟和自然流畅度。随着越来越多产品想加上语音模式,Retell 的 API 就变成了大家常说的「基础设施」。
这也是为什么它在开发者社区里增长很快,几乎所有需要语音交互的人都会先来试一下它的延迟能做到什么程度。
Retell 的团队非常技术导向,核心成员大多来自 Google、Meta 和字节 ByteDance。CTO Zexia Zhang 是 Google 语音翻译和 NLP 技术的核心工程师之一,属于那种「做过一线大规模语音系统」的专家。
CEOBing Wu之前在 ByteDance / TikTok 做产品,做的是需要处理海量用户、复杂交互的全球化产品,所以他对「语音这种高实时场景怎么落地」很有 Sense。
另一位联合创始人Todd Li则是典型的 YC 创业路线 批次里带着团队一路从 demo 打磨到真正能上线跑业务的版本,是能把混乱的想法变成可上线产品的人。
整个团队既有大厂经验,又一起在 YC 里冲过早期阶段,既懂产品,也懂技术,还懂怎么把东西快速推向市场。
投资人的逻辑其实很清楚:未来会有成千上万家公司需要 Voice Agent,但不会每家公司都自己做低延迟语音栈。
相比 Sierra 这种做「端到端解决方案」的巨头,Retell 选择成为整个语音生态里的「核心零部件供应商」。
在 Voice Agent 的黄金时期,这类做基础设施的公司往往更容易成为标准,也更容易真正做大。
Dex 做的事情很特别:它不是帮企业找人,而是站在候选人这一端,让 AI 变成用户的「个人人才代理人(Talent Agent)」。
它的目标是让找工作的流程倒过来跑,不是让候选人去到处投简历,而是让 AI 先深度了解候选人,然后替候选人去市场上筛选、匹配、申请、准备面试,甚至给出薪资建议。
Dex 的核心产品就是名为「Dex」的 AI 招聘官。它的设计出发点完全不是面向 HR,而是给候选人用的。
候选人需要和他通过语音聊几句,讲讲经历、擅长的内容、想做什么、不想做什么、心里理想的团队和文化是什么。
这些过去很难体现在简历里的细节,AI 都能捕捉和分析。之后它会替你去市场找机会、帮候选人提交申请、给出面试准备建议,甚至告诉候选人某个岗位的合理薪资区间。
虽然年轻,但它瞄准的不是一个小市场,而是一个全球规模超过数万亿美元的人才匹配行业。招聘行业一直存在着巨大的效率损失和错配问题,尤其是高质量候选人往往没有时间整理简历、浏览职位。
CEO Paddy Lambros 有十年招聘经验,面试过超过 1 万名候选人,对传统流程的低效、机械和错配问题有非常深的体感认知。他的优势不在技术,而在「行业洞察」。
CTO Harry Uglow 则补上了技术这一侧,让 Dex 能够把语音理解、个性建模、匹配推荐串成完整的产品链路。
这一对「领域专家 + 技术负责人」的组合,也是 Dex 能拿到好投资的原因。
投资人的判断逻辑很清晰:招聘行业的核心瓶颈不是简历筛选技术,而是「对人本身的理解不足」。
语音对话可以捕捉到简历上永远写不出的动机和软技能,而把这个理解反向用于「AI 帮人找工作」,是一种彻底不同的模式。
Dex 没有选择去做自动化「筛 CV」,而是努力去在「寻找机会」这一环节做一些动作。
EliseAI 是一家估值达到 22 亿美元的独角兽公司,专门为住房和医疗行业提供全自动化的 AI 对话平台。
比如,它把「租房客服」这件事彻底 AI 化了,让租客从咨询到看房、到最终签约,全程都能由 AI 无缝接管。
EliseAI 的主打产品叫「LeasingAI」。这是一个 24 小时不休息、覆盖语音、短信、邮件、网页聊天等全渠道的 AI Agent。
它的目标非常直接:把「线索到租赁」这一链路的转化率整体提升 30% 以上。
它的客户体量非常夸张:全美前五十的多户型公寓运营商中,有七成都在用它,包括 AvalonBay、Equity Residential 这种超级巨头。
截至目前,EliseAI 宣称已经处理了超过三千万次真实客户对话,这种行业深度和数据规模,是后来者短期完全追不上的。
2023 年,他们把已经成熟的对话技术扩展到医疗保健行业,进一步拓宽了业务边界。
虽然官方对两人的履历介绍不算铺天盖地,但从公司过去八年的执行来看,他们的风格就是非常强的「深行业、重落地」。
他们不炒概念,靠把行业里难啃的问题一点点啃下来,比如与房产管理系统的深度集成、对话数据的逐年沉淀等。
EliseAI 目前的总融资超过 3.6 亿美元。2025 年他们获得了 a16z 领投的 2.5 亿美元 E 轮,使公司估值来到 22 亿美元。
资本的逻辑很清晰:EliseAI 是极少数在「AI 大爆发之前」就已经在行业里长期深耕的公司。它提前积累了系统集成能力、专有数据、行业理解和沟通场景,这些都是后来的 AI 公司一时半会儿补不上的。
当 AI 大模型时代来临,它只需要把底层模型换成更强的,就立刻能在同一套业务上发挥更大的效果。
这种「踩在正确的大行业,又提前数年布局」的公司,是投资人最愿意重仓的类型。
Listen Labs 是一家由红杉资本重点押注的 AI 调研平台,它的核心能力就是让「深度访谈」这件传统上极其费时费力的事情,直接进入 AI 并行化时代。
用一句话总结就是:它能同时做上千次由 AI 主持的视频访谈,把过去需要几个月的研究项目压缩到几小时完成。
Listen Labs 提供的是一个完整的、从头到尾都自动化的调研平台。它可以自己生成访谈大纲、自己招募调研对象(覆盖全球两百多个国家的海量用户),然后开启成百上千个视频或音频访谈间。
更关键的是,它的 AI 主持人不是机械提问,而是能根据受访者的表情、语气、犹豫、情绪继续追问,这种「情感理解能力」让访谈内容的提升很明显。
完成访谈后,系统能在几个小时内输出接近咨询公司水平的洞察报告和汇报材料,对企业来说,这实质上把「定性研究」的门槛和成本全部重做了一遍。
尽管公司还很年轻,却踩在了一个巨大的行业需求点上:品牌、产品经理、咨询公司、投研机构都迫切希望在「短时间内了解真实用户」。
过去这件事要花几周甚至几个月,而 Listen Labs 把周期缩短到几小时,这种效率差是天然的增长引擎。
两名创始人的风格是非常典型的「问题导向型创业者」,他们不是为了做 AI 而做 AI,而是先遇到一个真实难题,再反向打造了一个能解决问题的产品。
Listen Labs 在 2025 年 4 月获得红杉资本的投资(2700 万美元),而且红杉非常罕见地连续领投了种子轮和 A 轮,显示出很高的信任度和押注力度。
原因其实和创始人自己的故事强相关:他们之前做了一个爆火的 AI 头像应用「BeFake」,DAU 很快冲到两万,但他们完全不知道这些用户是谁、为什么来、会不会留下。
Listen Labs 就是从这个真实痛点中长出来的,而这样的产品往往能精准打到行业真正的需求点。红杉看中的就是这种「产品源自自身痛点」的逻辑,也因此愿意在早期大力下注。
Ethos 是一家由前 DeepMind 科学家和前麦肯锡高管共同创立的 AI 专家网络公司。
它的定位和传统专家网络完全不同:是让 AI 主动去「发现真正懂行的人」。它瞄准的是私募股权、对冲基金、咨询机构这些最重视「信息质量」的客户群。
传统专家网络更多依赖人力从领英上挖人,看头衔、看履历,再人工筛选。但 Ethos 的核心技术路线完全相反:它不看头衔,而是让 AI 去阅读海量公开数据,包括论文、GitHub 仓库、博客、播客等,然后构建一个庞大的知识图谱,分析每个专家真实的贡献和专业水平。
当客户需要调研某个赛道、某项技术、某个细分领域时,Ethos 的平台能直接找到最有价值的「隐藏能人」,然后给他们安排付费语音通话,并自动转录、总结通话内容。
这个行业的特点是:一旦某家公司证明了自己能提供更高质量的专家匹配,客户往往会非常依赖它。对 Ethos 来说,这意味着它正在进入一个价值数十亿美元的传统行业,且替代空间极大。
CEO James Lo 则来自麦肯锡和软银愿景基金,对专家网络的需求端非常熟悉。
两个人一个懂 AI,一个懂行业运作,是典型的「技术供给方 + 业务需求方」组合,让产品从 Day 1 就对准了正确的方向。
投资人的判断很直接:传统专家网络行业几十年来变化不大,效率也不高,而 AI 完全可以重构这套系统。
Ethos 的价值就在于,它能在几秒钟内评估数百万个数据点,找到那些真正有贡献的人。例如某个 GitHub 仓库的关键开发者,而不是只看头衔亮眼的人。
相比传统依赖人工筛选的模式,这是一次明显的降维打击,也是资本愿意早早下注的原因。
HappyRobot 是一家专注于物流供应链自动化的 AI 公司,它做的事情听起来不起眼,但价值巨大:把物流行业里那些重复、琐碎、每天几百万次发生的电话和沟通任务,交给「AI 劳动力」来处理。
它已经拿下 DHL 这样的行业巨头,是典型的「实体经济里真正能落地的 AI」。
这些 AI Agent 能自动完成物流行业最麻烦的高频沟通任务,比如追踪货物的状态、协调仓库进出港预约、和承运商谈价格、收集交付凭证等等。
这些流程原本必须靠人力一通通打电话、发邮件地处理,而 AI Agent 的价值就在于:它们不会累、不会忘、不会卡点,一天能跑成百上千个工作流,让原本复杂的供应链沟通变得自动化、结构化、可监控。
HappyRobot 成立于 2022 年美国旧金山,但它的发展速度完全不像一家初创。它出生没多久就被 DHL 和 RyderVentures 采用并投资。
这说明 HappyRobot 打中的是真需求:物流业是一个价值数万亿美元的巨大市场,内部沟通却依然靠大量手工、重复、效率极低的操作。
HappyRobot 的三位创始人,是一个典型的「技术+工程+行业」互补组合。
CEO Pablo Palafox 出身慕尼黑工业大学,做过计算机视觉研究,也在 Meta Reality Labs 待过。他最先看到物流行业里大量依赖电话、邮件、表格沟通的低效现状,于是提出用「会说话、会协作的 AI 工作者」来替代重复性沟通,这成为 HappyRobot 的起点。
CTO Luis Paarup 是 Pablo 的大学同学,工程背景强,擅长把技术原型变成能稳定跑在企业环境中的系统。他主导了 HappyRobot 的 AI Worker 架构,让这些 Agent 不仅能打电话、写邮件,还能对接企业系统、处理复杂任务。
他在物流分销公司做过 CFO,知道行业痛点,帮助公司从一开始就聚焦在货运经纪、调度、仓储沟通等最刚需的场景,让产品快速落地到真实业务。
三人的组合让 HappyRobot 能在短时间内切中物流行业的核心问题,并拿下 DHL 等大型企业的应用场景。
HappyRobot 在十个月内连续完成 A 轮(1560 万)和 B 轮融资(4400 万),总金额达到约 6000 万美元,目前估值在 5 亿美元区间。
a16z 领投 A 轮,Base10 领投 B 轮,从投资速度和押注力度就能看出市场对它的认可。
HappyRobot 的 AI 模型针对物流行业的专用术语和场景做了深度微调,几乎可以立刻替代大量人工沟通,验证速度极快。
当一个行业巨头像 DHL 都愿意大规模试用,这在 VC 眼里基本就是 PMF 的证明,所以资本才会在短时间内快速加码,推动它进入「闪电式扩张」。
Infer AI 是一家来自 YC 的 Voice Agent 公司,它专门做保险行业里最琐碎、最重复、但又最关键的那一环:销售线索资格认证。
简单讲,就是把保险行业里那堆繁重的「第一轮电话沟通」全交给 AI 来做,让人工团队只需要接手真正有价值的线索。
它能全天候自动接电话,并处理保险行业里非常典型的业务环节,比如获取报价信息、做保单背书、处理首次损失通知、协助续保等等。
这些流程过去都要靠客服、坐席、代理人反复打电话、问问题、记记录,而 Infer AI 的价值就是把这些重复又高频的沟通变得自动化、可追踪、无遗漏。
虽然它没有高调的营销或巨额融资,但它的切入点非常精准:保险业是一个传统且流程极度复杂的行业,而其中的大量沟通任务都非常标准化,也非常适合 AI 介入。
三人都不是「讲故事型」的创始人,而是典型的「找准一个硬核行业痛点,然后从小切口扎进去」的 YC 风格团队。
团队背景虽然不是最耀眼的那种,但对保险流程的理解非常深,这是推动产品落地的关键。
这个团队组合很典型:一个深挖技术、一个把技术做成产品、一个懂行业怎么落地。
Suneel 来自 IIT Madras,有扎实的深度学习和语音模型背景,是 Infer 的技术核心;Vaibhav 原本做建筑工程,后来转向产品和机器学习,擅长把复杂技术变成「用得开心」的产品;Urvin 则更贴近业务端,熟悉保险、贷款这类需要大量电话沟通的行业场景,把产品真正推到业务线上。
三个人把「技术+产品+业务」串在一起,让 Infer 能在高频语音触达场景里跑得很快,也更容易找准市场方向。
保险行业内一直有一个共识,70% 以上的销售线索往往会因为没有做资格认证、没及时跟进而直接流失。
Infer AI 用 AI 来做第一轮筛选和信息收集,不仅能节省人力成本,更因为它能即时响应,让线索转化率明显提升。
对于保险行业来说,这就是「小切口、大价值」的生意,也是为什么 YC 早早就支持它的原因。
Replicant 是一家估值大约 5.5 亿美元的「自主联络中心」提供商。
它做的事情很直接:用 AI 去替代餐饮、电商等行业里最密集的客服电话,把那些每天重复几千遍的查询订单、改预约、问退款这种高频需求全部自动化。
对于被客服成本和人力短缺长期困扰的行业来说,它就是一套能立刻减压的 AI 系统。
它的特别之处不在于有没有大模型,而是它的训练方式完全不同:不靠预设脚本,让 AI 去学习企业里最优秀客服的真实通话。
这样训练出来的语音代理,不「照本宣科」,能像公司里的老员工那样解决问题。
它支持语音和聊天两种渠道,能够自动处理订单跟踪、预约修改、退款申请等一线团队最常见的工作内容。
它最被反复提及的一个亮点是:它的 AI Agent 在客户满意度和净推荐值上都做到接近 90 分,这在客服行业是非常罕见的高分。
他是呼叫中心行业的「老兵」了,曾担任价值三十亿美元的 Talkdesk 的首任 COO,也亲手管理过一线呼叫中心团队。
他非常清楚现实的痛点:疫情时的坐席短缺、呼叫量暴涨、脚本的低效率、无法大规模复制好客服的处理经验。
CTO Benjamin Gleitzman 则负责技术方向,两人的组合,让产品既有行业深度,也有工程落地的能力。
投资人的判断很清晰:呼叫中心的核心价值并不是「谁会聊天」,而是「谁能解决问题」。
而Replicant 通过学习最佳客服的方式,让 AI 的价值直接落在效率和解决率上,从而避免表层的对话体验。
这一点对所有做客服自动化的公司来说几乎都是降维打击,也是 Replicant 能在激烈竞争中脱颖而出的原因。
Salient 是一家专注汽车金融服务的 AI 平台,由 a16z 在 A 轮大额投资。
它想解决的是汽车贷款服务里最费人工、最重复、也最没科技感的那部分工作:催收、客户沟通、合规提醒。
这家公司基本就是在把一整条老旧的贷款服务链条,慢慢换成更自动化、更聪明的方式。
AI 会接听电话、发消息,帮忙催款、协商还款日期、处理延期请求、更新账户资料……这些事情原来都得靠一大堆坐席反复处理,而且一忙就容易漏、容易乱。
AI 上线后,响应变得更快、态度更稳定,不会因为高峰期就崩掉,也不会因为深夜没人值班而断线。
而且,Salient 提供的是一整套多通道沟通能力,语音、短信、邮件、网页聊天都能用,同一套 Agent 可以在不同渠道之间自由切换。
因为金融领域对合规要求很高,Salient 在设计上就把监管作为基本前提,Agent 上线前已经按 CFPB、FCRA、TILA、UDAP 等规则做过完整训练,确保通话内容稳妥不越界。
在落地上,它能直接接入各种贷款管理系统(比如 OFSLL、Shaw Systems),以及支付和呼叫中心相关工具,把 AI Agent 融进企业原有的工作流。
Salient 成立于 2023 年,总部在旧金山,两年时间跑出了非常扎实的业务数据:根据官方披露的数据,系统已经处理了 3900 多万次互动,触达 300 万以上的借款人,累计交易规模超过 30 亿美元,说明它在贷后服务这个场景里已经跑出明显的规模效应。
CEO Ari Malik 曾在特斯拉做过,他在那里看到一个特别明显的矛盾:特斯拉把造车、定价、销售做到了极致的数字化,但到了贷款服务这里,流程却又回到十几年前,很多事情都靠人打电话、发邮件撑着。
CTO Mukund Tibrewala 则来自 Airtable 和 Dropbox,对复杂业务流的设计和大规模软件架构很熟,这让团队从一开始就能把产品做得稳、扩得开。
Salient 在 2025 年 7 月拿到了 6000 万美元的 A 轮融资,由 a16z 领投,这个金额在 A 轮里属于非常罕见的「大手笔」。
投资人的逻辑很简单:汽车金融太大了,流程太老了,人工沟通太贵了。只要能让 AI 把其中一部分跑顺,价值就不是一点点。
Salient 现在做的,就是把一条过去完全靠人工堆出来的产业链,用 AI 重新按「自动化优先」的方式再做一遍。
Decagon 是一家估值约 15 亿美元的独角兽公司,总融资已经达到 2.3 亿美元。
它最初凭借文本客服起家,但发展速度非常快,现在已经成长为一个能在聊天、邮件、电话三端都能独立运行的「全渠道 AI 客服平台」。
Decagon 一开始从聊天和邮件场景切入,靠稳定、低出错的文本客服打出名气。
随着客户需求不断升级,他们推出了「Decagon Voice」,让企业可以在统一的系统里同时跑语音、聊天和邮件。Decagon 宣称其能够处理入站电话,完成账户访问、退货、争议处理等任务。
对企业来说,这点太关键了:他们不想维护三个独立的 AI 系统,更不想让用户在聊天、邮件和电话里体验到三种不一致的服务逻辑。
Decagon 成立后增长很快,尤其是过去两年,正好踩到「客服自动化需求爆发」的窗口。客户普遍反馈的一点是:电话仍然是主渠道。
即使在 2025 年,大量用户还是习惯直接打电话,尤其在金融、生活服务、票务、订阅等场景中更是如此。
这让 Decagon 在从文本跨向语音时拥有天然需求优势。随着 Voice 发布,他们已经从一个「文本 AI 厂商」成长为「真正意义上的全渠道 AI 客服提供商」。
2024 年 10 月,它刚完成约6500 万美元的 B 轮融资,当时累计融资差不多来到1 亿美元。不到一年时间,2025 年 6 月,它又拿下1.31 亿美元的 C 轮,公司估值被推到15 亿美元左右。
近期还有媒体报道,Decagon 正在筹备下一轮融资,目标估值区间已经被抬到40—50 亿美元,说明资本市场对「多通道 AI Agent + 语音能力」这个方向的热度还在继续升温。
Jesse 本科在哈佛学计算机,之前做过 Lowkey 视频创作工具,后来被 Niantic 收购,他也在 Google 和 Citadel 待过,对产品、增长和企业级客户的需求都非常熟。
Ashwin 则来自斯坦福,曾创办过 Helia,并被 Scale 收购,技术背景扎实,又擅长把底层技术打磨成稳定可扩展的产品。
两个人的组合很典型,一个偏产品与商业落地,一个偏技术与架构,使得 Decagon 在「AI Agent + 客户服务」这个方向上能快速打磨产品、拿下大客户,也更容易在多通道(语音、聊天、邮件)场景里形成完整的解决方案。
Decagon 的团队基因偏工程和产品,他们能把复杂流程抽象成更结构化的模块,而不是堆砌功能。最能体现团队风格的,就是他们打造的「AOPs」的系统。
Decagon 的真正差异化来自「AOPs」(Agent Operating Procedures)。它的出现解决了一个困扰企业多年的难题:如何把 AI 的灵活性和企业需要的可控性放在一起。
企业担心的事情很多朋友都很熟悉,AI 会想太多、会自由发挥、会给出不合规的回答,但企业又希望 AI 能够理解复杂问题,而不是死板执行脚本。
AOPs 恰好卡在这两个需求的交叉点上:它让 CX 团队(客户服务、客户体验)像写 SOP 一样,用自然语言告诉 AI 应该怎么处理某个场景,而这些描述会被系统转成高度精确的执行流程。
这套机制非常打动大型企业,特别是金融和订阅类公司。也因此,Chime、Bilt、ClassPass 等客户愿意大规模采用它。
它的定位很清晰:帮企业把「用户调研」这件一直以来又贵、又慢、又难扩展的事情,真正推进到 AI 时代。
这个主持人以实时互动为特点,不是简单地抛出固定问题,而是会根据用户的操作不断调整提问方式。参与者在分享屏幕、测试网站原型或完成任务时,AI 会观察他们的行为节奏,适时抛出更相关、更深入的追问。
提示方式可以是语音,也可以是文本,整个体验更像一个专业研究员在旁边引导,只是速度更快、反应更稳定,同时能保持一致的质量。
传统用户研究的问题非常突出:流程慢、样本小、成本高,很难在短时间内收集大量高质量反馈。
一旦开始调研,平台可以在几小时内同时跑数百场深度访谈,结束后自动生成转录、整理关键发现、梳理行为模式。
Michael Hess 则是典型的工程师转创业者,长期专注把技术做成能规模化的产品。
两个人一个懂产品,一个擅长工程,把 Outset AI 的「AI 调研访谈员」这种新形态产品从概念拉到了能在企业里跑通的程度。
Outset 团队对用户研究的方法论理解很深,他们把人工访谈中的关键体验抽象成一套可以自动化的流程。你
能从产品细节中明显感受到这一点:每个功能都围绕「更快、更深、更真实」而设计,而不是简单地把访谈搬到线上。
许多用户在面对真人研究员时,会出现一种「被评判」的心理负担,担心表达太直接、太负面,或者显得自己「不懂」。这种心理会影响他们的真实反馈。
AI 主持人让这种压力明显降低。参与者更愿意直接说出困惑、批评设计、指出问题,因为不会担心冒犯谁,也不会担心显得「不专业」。
Glassdoor 的案例就说明了这一点:面对 AI 时,人们通常更坦诚。
对企业来说,这意味着 Outset 不仅能让调研更快、更大规模,也有机会让结果更真实、更直击用户真实想法。
它的定位非常明确:让「AI 员工」成为经销商每天的第一线接触点,把店里大量依赖电话的流程全部自动化,并努力把 AI 打造成经销商真正的「收入来源」。
它承担的职责从进线接待开始,逐步贯穿到销售和售后服务的多个环节,我们做了整理:
【2】在销售环节,它可以独立完成试驾预约,这意味着销售团队不需要再花时间处理大量基础沟通;
【3】在服务端,它会帮助客户创建维护预约、整理零件查询、记录车辆信息,并在需要的时候直接推动后续步骤。
当客户来电时,AI 会自动查询该车辆是否存在尚未处理的召回项目,有的话会马上提醒客户并尝试安排服务。
汽车经销商的日常运作高度依赖电话,而电话恰恰是最易堵塞、最容易漏接的部分。
根据团队的数据,AI 每个月能额外创造一百多个预约,同时每周能节省三四十个小时的员工工作量。对本来就人手紧张、又高度依赖服务收入的经销商来说,这种价值非常容易量化,也能快速体现。
据报道,Toma 已经服务于 100 多家经销商,在 90 天内某经销商通过 Toma 记录9000+个预约、为经销商新增约200 万美元收入。
Monik 是工程师出身,从 13 岁开始编程,曾在 Uber、Lyft、Amazon 等科技公司参与 AI 产品建设,他亲自深入美国各地汽车经销商现场,理解「经销商电话量大但流程老旧」的痛点。
Anthony 同样拥有扎实的技术背景,专注语音 AI 与系统集成,负责将团队在语音交互和业务逻辑上的探索转化为可规模部署的产品。
两人的组合将产品思维与工程能力融合,在「汽车经销商这一传统行业」中打造出专门处理电话、预约、零件订购、服务提醒等任务的 AI Voice Agent,从而让 Toma 能快速获得客户信任并取得初期市场突破。
虽然公开信息对创始团队的履历介绍不算多,但从产品理念可以看出,他们对经销商的工作节奏和流程理解得很深。
a16z 在汽车垂直领域一直非常积极,而 Toma 的方向跟他们的长期布局完美贴合。
经销商本身是一个体量巨大、流程复杂、沟通密集的行业,电话量高、人工成本高、服务收入占比高,是非常适合用 AI 做大规模自动化的场景。
Toma 能持续接线、持续创造预约、持续提高转化,让经销商把 AI 当成一个能带来收入的角色,而不是一个削弱成本的工具。
在这样的定位下,Toma 的价值上限就被大幅抬高,也自然成为 a16z 布局汽车服务链条时的关键一环。
Giga 是一家总部在旧金山的 AI 初创公司,主攻方向非常明确:为企业提供语音和对话 AI Agent,让客服和支持部门能够用 AI 扛住大规模的用户沟通需求。
公司大约在 2023 到 2024 年间成立,两位创始人都来自印度的 IIT Kharagpur,是典型的「强技术背景 + 高速执行力」的创业组合。
公司后来进入了 Y Combinator,也因此在硅谷引起了一波早期关注。
它的 AI 能听得懂情绪,多语言切换也很自然,语音和文本都能处理,响应速度快,交互体验接近真人客服。
企业可以在它的平台里上传知识库、定义流程逻辑、设置合规规则、定制品牌风格,再通过可视化界面快速上线一个功能完整的 AI Agent。
官网承诺「最快两周部署」,并公开展示了像 DoorDash 这样的客户案例。
简单讲,Giga 的产品能让企业在客服、运营支持、订单处理等场景中,用 AI 去承担大量沟通任务,让整体成本和响应速度得到明显提升。
Giga 刚成立时算是一个「企业内部 AI 基础设施」方向的项目,后来根据市场反馈调整方向,将重点放到语音与对话 Agent 上,这反而让它走上更大的赛道。
媒体报道指出,这套系统每天已经能处理数十万次对话,覆盖的行业包括电商、医疗、金融、运营支持和电信等等。从产品形态到客户规模,这家公司走得非常快。
Redpoint 甚至在公开声明中说过,这是他们「迄今为止最大的一笔早期投资之一」,理由是团队执行速度极快、落地能力强。
【1】语音 Agent、多语言支持、情绪理解这些能力的市场需求快速上升,尤其在客服、支持、运营环节,人工成本高且招人难,AI 的价值非常明确。
品牌可以在平台上直接定义 AI 的风格、脚本、规则、响应方式,部署周期短、适配度高。
最后,2025 年整条「Agentic AI」赛道都在变热,大家都在关注「能真正做事的 AI」。Giga 站在这个趋势的正中央,并且已经有真实的客户规模,这降低了风险,也提升了想象空间。
Cactus 总部在旧金山,是一家专门做家居服务行业(home service)的 AI 公司。
它把自己定位成「24 小时 AI 呼叫中心」或「AI 操作系统」,服务对象是维修、暖通空调(HVAC)、电工、装修承包商这一类高度依赖电话、流程又特别碎片化的传统服务公司。
对于这些行业来说,电话就是命脉,而 Cactus 想做的,就是让所有电话都有回应、没有漏单、预约都能顺利推进。
它能够接听电话、识别客户需求、判断线索质量、安排服务预约,并继续通过短信或邮件跟进。对于习惯靠电话吃饭的服务商来说,这就是一个永远在线的前台与助理组合。
家居服务行业特别典型:很多预约是临时性的,客户一旦得不到回应就会马上换别人。Cactus 的 AI 能在深夜、假日都持续接单,让小公司也能拥有类似大企业的接线能力。
系统会自动提醒预约、回访、推动维护和续约,帮助服务公司建立更稳定的重复业务。这对 HVAC (暖气 + 通风 + 空调)和维修类业务特别重要,因为大部分收入来自回头客和年度维护计划。
整体来说,Cactus 做的是一套让传统服务业能够 24 小时正常运转的沟通与预约系统,把「电话接不接得住」这件老大难问题彻底托管给 AI。
家居服务行业在美国是一个超过 6500 亿美元的大市场,但电话系统普遍老旧,呼叫中心成本高,人工排班难,漏单又常见。
从官网和媒体报道来看,他们的产品路径很清晰:先从家居服务切入,用 AI 接住所有电话,再把预约、维护、跟进做成自动化,从而让服务商能专注在真正的现场工作,而不是花大量时间处理前台沟通。
Ajith 是两次 YC 创业者,具备强烈的产品导向和快速执行能力;Avinash 擅长系统设计和工程实现。两位创始人非常强调「产品优先、稳扎稳打、保持友善」的文化氛围,从官网介绍中也能看得出来。
他们的组合同样符合一个规律:懂技术 + 理解服务行业的真实节奏,这对垂直行业 AI 落地来说是非常加分的。
家居服务行业大、电话量大,但技术化率极低,是一个极容易被重新改造的大赛道。
漏接电话、夜间无人响应、预约跟不上,这是行业的一致痛点,Cactus 的产品刚好把这些关键环节接住了。
早期反馈也相当亮眼,有客户使用后预约率明显提升,整体服务体验更稳定,这给投资机构提供了「能落地」的信心。
再加上团队本身具备 YC 背书和执行力,赛道又处于 AI Voice Agent 和服务自动化的热门周期里,Cactus 自然成为资本愿意提前加注的选择。
The Mobile-First Company 最早从法国起步,现在把美国总部放在迈阿密,定位非常清晰:为中小企业打造一套「手机优先」的 AI 工具。
The Mobile-First Company 看到的机会就是,让 SMB (中小型企业)能用手机就把工作完成,把 AI 融进他们每天都会打开的核心工具里。
能自动接听电话、记录通话内容、同步到 CRM、安排预约,还能做跟进提醒。Allo 已经被 5000 多家企业采用,是公司目前的核心增长来源。
来电进入系统后,AI 会自动接听、判断客户想干什么,并根据意图做预约、转人工或继续追问,这套流程在官网里叫 「AI Answering Service」和 「Smart routing」。
通话结束后,Allo 会自动生成记录和摘要,把重点提炼出来,方便团队成员随时查看、同步信息。
它还能和 HubSpot、Salesforce 之类的 CRM,或短信、邮件、Webhook、Zapier 等工具配合使用,让「接完电话→更新资料→建任务→发跟进消息」完全自动化。
虽然它叫 mobile-first,但实际上手机和桌面两个版本都有,上手非常快,适合那些没有时间折腾系统的小团队。
从用户反馈来看,Allo 的定价也很友好,基础方案大概每月几十美元,非常贴合现代创业者和中小企业的预算。
【2】Due(在推出中),面向发票与账单管理。用户可以直接在手机上开票、发送并自动对账,把原本繁琐的流程变得更轻量。
【3】Claim(在推出中),用于费用报销管理,能自动识别收据、分类,并生成报表。
公司的产品思路很一致:让手机成为团队的「主力工作台」,让 AI 帮 SMB 把电话、发票、报销这些每天都会反复做的流程自动化,提高速度,也减少手动操作。
核心产品 Allo 的增长表现很亮眼。有媒体报道指出,它在 2025 年初进入美国市场后,使用量与收入几乎以每月 50% 的速度增长。
整体来看,这家公司靠一个切中痛点的「手机优先工具」切入市场,用 Allo 验证需求,再用新产品逐步扩展,方向清晰、节奏明确。
公司的 CEO 是 Jérémy Goillot,他此前是 Spendesk 的全球增长负责人,也是早期员工之一,对 SMB 软件的增长路径非常熟悉。
CTO Franco Pinto 负责技术和产品实现,他的优势在于把复杂逻辑抽象成能在手机端流畅运行的体验。
再加上 Base10 和 Lightspeed 的支持,整个团队结构很标准:懂增长、懂 SMB、懂产品落地,再配一个强工程负责人,正好对齐「手机 + SMB + AI」的组合。
【1】SMB 市场巨大但经常被忽视。大部分软件都为大型企业设计,小团队反而很难找到真正适合自己的工具。
Allo 拿下五千多家企业的使用,对一个早期产品来说非常强,而且增长速度快到足以说明问题。
AI 长期集中在大企业,而 SMB 的「移动端业务操作」还有很多空间。把 AI 放到发票、费用、电话这些每天必用的工具里,能够立刻提升效率。
从电话系统扩展到发票,再到费用管理,整个节奏是稳步构建一个「工具套件」,最终形成一个面向 SMB 的 AI 原生操作系统。
AI 正在从「被动响应」转向「主动推理和规划」 ,AI Agent 将「增强」人类员工,而不是简单「替代」。
最终,AI Voice Agent 不仅仅是一个「更好的 IVR」,它更可能是「自主 AI Agent」的「第一个」大规模商业化形态。
我们今天看到的这些公司,不仅仅是在「自动化客服电话」,它们正在构建的,是下一个「操作系统」 ,一个以「对话」为核心的全新人机交互范式。
之后,「十字路口」团队也将继续盘点这类能够在垂直场景,实现商业化落地的 AI Agent 初创企业为大家带来第一手的分析与洞察。