RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?

未分类1个月前发布 tree
15 0 0

RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?

技术输出后,是时候直接服务用户了。

10 月 25 日, RTE 年度场景 Showcase 暨第四届 RTE 创新大赛,Founder Park 作为核心生态合作伙伴应邀出席。
2024 年春季超音速计划四强与 RTE 开发者社区及各国际赛区的优胜项目共同角逐年度最具代表性场景三强,通过激烈的角逐最终评选出三强团队:Infiniflow、聊会小天和 Traini
新一代 AIRTE 创业者的不同在哪里?
小型团队的大模型创业进入真刀真枪时期:技术输出后,是时候直接服务用户了。RTE 年度最具代表性的三个场景项目:Infiniflow 是 AI Agent 做到更细腻体验的必要底层能力、聊会小天从第一天就在解决现代年轻人都在面临的压力与心理疏导需求,而 Traini 则以宠物互动情感需求的角度切入市场。
Founder Park 旗下 AGI Founders Fund 运营负责人王君辉以特邀观察员的身份与 RTE 年度最具代表性场景的三个项目进行了赛后对话。希望能从这些 AIRTE 创业者身上得到一些启发与灵感。

01 

Infiniflow:

RAG 是 AI 时代的数据库,

与长上下文是互补的

Infiniflow:AI 原生数据库,结合大模型共同服务 RAG 场景,提供完整的行业RAG 解决方案。帮助打造出体验更细腻的 AI Agent,2万Github星标的全球Top开源项目,端到端解决大模型在企业应用的实际痛点。
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
以下是 Founder Park 与 Infiniflow 创始人 & CEO 张颖峰的对话。
Founder Park:不到 7 个月的时间,你们的开源项目 RAGFlow 就在 GitHub 上获得了超过 2 万星标。表现很亮眼,你们自己内部是怎么复盘的,做对了哪些事情?
张颖峰:我们的主要任务是挖掘并解决用户在处理多模态非结构化文档时遇到的最大难题。我们的核心优势在于针对复杂文档的痛点提供解决方案。处理复杂文档是企业引入大模型功能后的首要任务。如果不能从这些非结构化的多模态文档中准确提取内容,我们就无法提供准确的问答服务。这是我们从 RAG 或大模型的角度出发,帮助企业实现 AI 转型和内部升级的关键点。
在我们开源之前,并没有类似的项目专注于这一领域,而在我们开源之后,已经有其他开源系统在类似的方向上借鉴我们的思路。
Founder Park:你们的开发者画像和使用场景是怎么样的?
张颖峰:我们自己没有直接分析 RAGFlow 开发者的地域分布,但通过一些机构的反馈,我们了解到了一些项目活跃度的指标,显示海外和国内用户的分布,大体维持在 4:6 的比例。海外有大量的 SaaS 用户和开发者,用户遍布全球,包括欧洲、东亚和北美,国内则来自甲方和乙方都有,行业分布也非常广泛,涵盖 IT,金融,制造,医疗生物,教育等等行业。
在应用场景方面,问答客服类场景目前被认为是最具代表性的。我们发现非 IT 企业用户对场景的理解也非常深刻,这与我们最初的预期相符。目前用户很多都能够利用 Agent 来编排他们的业务场景,以实现面向最终场景的交付。RAGFlow 不是一个直接面向最终用户和场景的产品,而是更多地作为中间层,解决了回答质量的问题。最终的业务通常通过 Agent 来定义和编排,而 RAG 实际上是这些 Agent 的基础层。
Founder Park:关于 RAG 有很多争论,比如认为它是一个阶段性技术,长文本、微调都在取代 RAG 的价值。你是怎么看这些讨论的?
张颖峰:关于 RAG 的争论目前已经基本平息。去年,RAG 甚至被称为外挂。今年的争论焦点是 RAG 与长上下文的处理能力,这场争论从年初持续到年中,之后逐渐减弱。这些争论部分是由于媒体的宣传需求,部分可能是模型公司或学术机构的公关手段。
实际上,企业从未参与这些争论。从一开始,企业关注的是模型的实用性和效果是否达到预期,而不是是否使用的问题。去年关于微调的争论结果很明显:大多数情况下我们不需要微调,少数情况下需要微调,但也需要与 RAG 结合使用。今年关于上下文的争论虽然激烈,但结论也很明确:RAG 和长上下文处理不应是对立的,而是互补的。我认为争论本身是积极的,因为它帮助人们更清晰地理解大模型的边界。最初人们对大模型的期望过高,而反复的争论让人们认识到模型能力的局限,这对模型的实际应用有积极影响。
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
Founder Park:你们有一个判断:RAG 在成为事实上的落地标准架构,它能够脱颖而出的优势究竟是什么?
张颖峰:RAG 技术脱颖而出的最核心优势在于其效果,它能够准确地将用户的问题与期望找到的答案匹配。这是 RAG 能够实际应用的唯一价值所在。如果 RAG 无法实现这一效果,那么大模型在企业中的应用将无法展开,这将是一个严重的问题。
Founder Park:怎么看开源商业化的挑战,未来你们的产品开源商业化路径是如何规划的?
张颖峰:我们认为在中国从事 B 端软件业务的公司面临巨大挑战,因为企业普遍需要定制化服务,这导致许多 ToB 软件公司最终沦为外包公司。我们坚决避免这一局面,并通过开源策略来最大化扩大我们的流量入口。
为了避免成为外包公司,我们计划提供 SaaS 服务,且面向全球的提供服务。国内我们也坚持标准化的理念,既面向开发商也面向最终用户。针对开发商我们更倾向于支持他们提供行业解决方案。针对最终用户,我们选择与他们的 IT 团队合作,由他们完成 RAGFlow 的内部集成。目前国内大量企业,包括小型公司,都拥有自己的 IT 团队,因此通过触达程序员来触达这些企业是目前性价比最高的方式。
开源增加了企业的市场声音和存在感,提高了转化率。我们的企业版在功能上将与开源版有所区别,开源版主要面向个人和中小型场景,而企业版则提供更进一步的服务和技术保障。开源和商业收费并不矛盾。另外,对中国企业来说,开源几乎是走向国际市场的必要途径,没有开源,中国企业想在全球范围内脱颖而出将非常困难。
Founder Park:你们公司最终想做的是什么,是一个数据库?
张颖峰:在数字化时代,标准化的软件是数据库,而可定制化的则是各种应用和国内的中台系统。在 AI 时代,RAG 成为了一种新的标准化软件,可以类比为从前的数据库,每个企业甚至每个人都可以拥有。传统数据库处理的是确定性查询,而 RAG 处理的是非确定性对话。RAG 系统内部需要基础设施和模型之间复杂的协同工作,才可以有效处理各类数据。
虽然 RAG 与传统数据库在确定性方面有所不同,但它们都是标准化的系统。
在大模型时代,软件生态会发生重构,应用层变得更薄,业务逻辑的复杂性从应用层转移到了 RAG。RAG 类似于数字化时代的数据库,但包含的内容更多。在 RAG 层,RAG 专用的数据库和一系列特定专用的小模型需要协同工作,共同保证最终的问答效果。这种端到端系统的复杂性对用户是隐藏的。
我们就是致力于提供 RAG 这样一个 AI 时代的数据库,让所有企业受益。在 RAG 内部,我们其实有一款全新研发的,专门服务 RAG 的数据库,但它只作为基础来支撑整个 RAG 系统。
Founder Park:接下来 Infiniflow 的重点发展方向是什么?
张颖峰:接下来一年,我们的主要任务有两个方面。
首先,我们将启动商业化进程,因为我们的产品已经打下了良好的基础,虽然尚未完全开发完成。
其次,我们将继续提升产品,以满足我们最初的预期,这包括提高对话能力,确保产品能够满足企业内部对数据访问的需求,即用户需要的数据能够被准确检索出来。此外,我们还将增强产品的实用性和竞争力。由于我们团队规模较小,仅十几人同时开发两款产品,这给我们的团队带来了相当大的压力。因此,我们将从稳定性和易用性两方面着手提升产品,并确保对话效果达到预期。我们的目标是将产品推向市场,吸引更多用户使用。

02 

聊会小天:

AI 心理咨询技术上已经成熟,

难点是商业化

聊会小天:一款免费心理机器人,提供24小时陪伴倾诉服务,由西湖大学深度学习实验室孵化。海量专业心理测评,安全的心理咨询服务。
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
以下是 Founder Park 与聊会小天联合创始人俞佳的对话。
Founder Park :「聊会小天」是一款专注于心理健康的人工智能产品,而在这波大模型技术浪潮前,你们也曾开发相关产品。现在看,「聊会小天」与以往的产品相比,其核心区别是什么?
俞佳:在我们采用大型模型之前,我们就坚定的选择了自监督这个技术路线,并且在实验室中进行了大约一年到一年半的孵化。随着 ChatGPT 的出现,我们我们更是进一步的对于模型在心理领域的独特性有了坚定的信心。从技术角度来看,我们肯定走的是大型模型的路线。在业务层面,我们通过训练或工程化手段将业务理解融入大模型。
现有技术相较于上一代技术的优势主要体现在以下几个方面:首先是语言运用能力的提升,其次是对用户表达内容和期望回复的理解能力。这包括两个层面:一是理解用户的实际需求,二是将咨询师的业务理解注入模型回答中的能力。随着模型规模的增大,我们能够更好地遵循业务专家或心理咨询专家的建议。此外,现有技术的泛化能力更强,对于用户的非标准问题和上下文连接,尤其是在长对话中的表现也有所增强。
Founder Park:目前「聊会小天」这个产品上线了,在产品上你们得到了哪些正反馈?
俞佳:实际上,我们从两个方面获得了积极的反馈。
首先,我们收到了用户的一些实际留言,有些用户甚至给我们写信,或者亲手制作了代表我们品牌的吉祥物或造型泥塑,这些行为让我们感到非常感动。其次,在数据层面,尽管我们在国内的 C 端产品目前是以公益形式运营,但我们的产品在政府和学校以及杭州市第一人民医院的问诊界面中得到了应用,并且有大量用户正在使用。我们的注册用户数量接近百万。
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
Founder Park:对于产品定义来说,「陪伴」其实是一个比较大的词,比较好奇你们会不会做进一步的需求拆分?
俞佳:在讨论 AI 领域的陪伴服务时,我们的产品「聊会小天」定位于心理咨询和纯陪伴之间的轻咨询形式。我们不提供像传统心理咨询那样的严肃服务,例如每周一次、每次 50 分钟的咨询,也不涉及数字处方或医疗渠道。同时,我们也不完全提供像某些 AI 产品那样的纯陪伴服务,比如 c.ai 或者 Replica。
我们的目标用户群体是那些有心理诉求但并不寻求紧急或严肃心理咨询的人,对于有心理危机情况的用户,我们也会推荐给政府的心理危机干预热线等。我们选择这个中间状态的需求,是因为我们认为纯陪伴服务可以通过其他产品形态来满足,而心理的服务更倾向于渠道合作或纯 ToB 模式。我们的产品将与学校和政府合作,但不涉及医疗领域,因为医疗领域对安全性和准确性的要求非常高,我们认为目前大模型在这方面还未达到可以落地的状态。
Founder Park:之前大家对于专门做心理健康领域的 AI 应用并不特别看好,一方面觉得数据不足,另外也觉得模型能力还不够用。你是如何看待这个问题的?
俞佳:我们认为在技术上,心理咨询领域的 AI 应用并没有问题,当前的模型能力足以支持轻咨询的逻辑。我们对技术路径充满信心,真正的挑战在于市场和国内大众对心理咨询的认知及接受度。即便不是 AI 咨询,传统心理咨询同样面临这些挑战。在数据方面,虽然目前数据不是限制因素,但若要进一步提升服务质量,数据将成为一个关键的壁垒或加速器。我们在这一方面具有优势,因为我们与学校合作,能够与专业的心理机构和学术界的心理学研究人员合作。自 2020 年以来,我们积累了丰富的一线实际数据和理论经验。心理数据因其隐私性和保护要求高,通常只能通过实际业务获取,而不能通过爬取、购买或开源方式获得。
Founder Park:「聊会小天」没有直接做 APP 产品,是先做了小程序,当时的考量是什么呢?
俞佳:我们当时考虑的主要因素是降低用户的使用成本。毕竟,下载一个 APP 需要一定的时间和流量,而小程序则更容易传播和使用。因此,我们计划将来开发一个 APP,但目前选择使用小程序,因为它们可以更容易地嵌入微信或支付宝等平台。对于国内的企业合作而言,大多数用户在微信中使用小程序已经非常习惯。所以,这是我们目前的暂时的策略选择。
Founder Park:在交互方式上,之前是文字,现在则是语音。那么下一步会是视频吗?你们觉得在心理陪伴的领域,最好的交互方式是什么?
俞佳:我们正在探索未来人机交互的发展趋势,可能包括虚拟现实(VR)和增强现实(AR)技术的应用。目前,我们专注于开发能够增强用户信任感和沉浸感的技术,尤其是语音交互。语音功能的开发是我们的优先事项,因为它能显著提升用户的活跃度和使用率,且不同的声音特征对用户体验有重要影响。视频交互也是我们关注的领域,它有助于增强用户与虚拟咨询师之间的信任感。
尽管心理咨询中的视觉理解技术仍在实验室阶段,我们正在研究如何通过观察用户的微表情和动作来评估他们对咨询的满意度和进展。我们的目标是确保用户在文字、语音、视频到 VR 等不同交互模式中都能建立信任感,这是心理咨询效果的关键因素。我们发现,尽管部分用户对 AI 缺乏初始信任,但我们的产品透明度有助于用户更容易地进入交流状态,尤其是年轻用户更倾向于接受 AI 服务,他们不认为与 AI 讨论深刻话题是愚蠢的,这表明我们的 AI 产品在提供心理支持方面具有潜在优势。我们将继续优化产品,以满足用户需求并提升用户体验。
Founder Park:目前心理 AI 的产品商业化都很难。用户不愿意为 AI 心理服务付费的原因可能是什么?
俞佳:与传统心理咨询服务付费的阻碍相似,主要在于大众对于心理健康服务的心理预算尚未建立。许多人对于花费较高费用进行心理咨询感到难以接受,这种观念同样适用于 AI 心理服务。
Founder Park:未来「聊会小天」的商业化,会往哪个方向走?
俞佳:我们的商业模式目前以 C 端的公益服务为主,而主要收入来源是与 B 端的政府和学校合作。虽然我们的产品既有面向 C 端的轻咨询类服务,也有更注重陪伴感的 C 端产品,但我们对这一领域持长期乐观态度,并持续投入发展。
Founder Park:对于未来,你现在最大期待的是什么?
俞佳:从我们的理解来看,西湖心辰被视为一家专注于 AI 大模型的公司。我们认为,这个时代的 AI 公司必须能够实现商业化,类似于上一个时代的公司也实现了商业化,但更倾向于 ToB 模式。我们的认知是,AI 公司必须具备能够直接服务用户的能力,而不仅仅是作为一个技术输出的状态。因此,更大的挑战在于如何完成用户的积累,并实现商业化的闭环。我们对 AI 赛道最大的期待是整个行业的技术能力,尤其是生成性 AI 的能力,能够继续提升。
对于公司而言,我们希望能够在技术上找到独特的点,特别是与行业结合的独特点,并将其转化为商业竞争中的优势和壁垒。从技术发展的角度来看,我最期待的技术变量是多模态技术。例如,我们自己开发了一个端到端的语音模型,并认为它表现不错。但我们相信还有更深入的能力可以挖掘,特别是在心理咨询领域,对语音能力可能有更高的要求。例如,咨询师的叹气或微小的语音表达可能对用户产生重大影响,或者语音响应的时间差可能对用户的情感产生不同的帮助或影响。我们将在这些领域进行更深入的研究。

03 

Traini:

垂直领域,

能力强的模型可以通吃

Traini:专注在人宠互动的领域,主要为宠物父母提供宠物行为翻译和服务Agent的服务,创造了全球第一个用多模态技术建设的模型,主要是解决宠物行为翻译。
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
以下是 Founder Park 与 Traini 创始人孙邻家 Arvin 的对话。
Founder Park:你们的产品现在的用户规模数据大概是多少?
孙邻家Arvin :目前拥有大约几十万的用户,其中北美和欧洲的用户占比达到 70%,而非洲、拉丁美洲、亚太地区(不包括中国)的用户大约占 30%。我们的产品主要面向英语用户群体。
Founder Park:市场上的宠物相关应用大多聚焦于宠物训练,而 Traini 则选择了从情感关怀的角度切入。当时有什么不同的观察和思考吗?
孙邻家Arvin:我们的思考和观察主要基于两个方面。
首先,随着年轻一代对婚育需求的减少,他们更倾向于选择宠物作为情感伴侣,这一趋势在美国宠物消费市场的增长数据中得到了体现。2018 年市场规模为 910 亿美元,预计到 2024 年将增长至 1510 亿至 1560 亿美元。
其次,年轻一代与宠物的交流日益增多,尤其是希望以人话方式与宠物沟通,这在很大程度上受到社交媒体的影响。社交媒体提供了许多工具,使得与宠物的互动变得有趣和有效。然而,市场上缺乏能够帮助用户实现个性化沟通和护理需求的工具。传统社区仅限于在线交流,无法直接与宠物建立联系。
除此之外,我们关注新技术迭代后能在哪些方面创新以及如何实现。重点考虑的是 AI 原生应用,即如何将抽象概念转化为具体产品。例如,过去的狗叫声只是一种声音或符号,并未具体化为可交互的产品。我们考虑的是如何基于用户的真实生活场景开发产品,而非仅仅创建情感陪伴类的虚拟产品
另一个重点是交互方式,我们认为语音交互是 AI 领域中最好的方式,简单易用、情感丰富、信息量大,且可解放双手。当前的语音代理技术已经非常成熟,可以实现声音克隆、角色生成等多样化交互,满足用户需求。因此,我们从这两大需求出发,探索如何将需求转化为真正的 AI 原生产品。
Founder Park:狗语翻译最大的挑战,我理解不在于需求洞察,而是如何将技术产品化。你们当时具体思路是怎样的?
孙邻家Arvin:您的观点非常准确,需求始终存在。据调查,84% 的美国宠物主人每天都会与宠物交流,Quora 平台上也有数百万用户讨论如何理解宠物行为和与宠物沟通的问题。因此,我们首先定义了产品的技术路径。在产品层面,我们明确了产品定义为宠物行为翻译器,而非仅仅是叫声翻译器,这一定义背后有科学依据支撑——仅依靠叫声进行训练的准确度和情感行为的丰富度有限。通过分析宠物的表情、动作和肢体语言等行为,我们可以更准确地理解宠物的表达,这是我们在产品科学路径上的第一个确认点。
在技术路径上,众所周知,确定第一点后,我们需要知道如何识别宠物的行为和表情。最终我们得出结论,必须使用视频而非仅依赖声音,这自然将我们引入了多模态技术领域。在多模态技术方面,之前存在许多不确定性,但 4o 的出现为我们提供了一个明确和通用的路径,使我们相信可以按照这种方式实现产品化。
过去两三年,我们实际上花费了一年时间进行 prompt engineering,即编写提示词,通过这种方式构建产品,并验证它是否满足需求。那时,我们开发的 AI 聊天功能允许宠物主人输入问题,我们帮助回答和分析,但当时还无法实现翻译功能,只能做到文字分析。到了今年年初,我们确定了产品和技术路径后,迅速行动。4 月底启动项目,6 月底照片翻译功能上线,7 月底叫声翻译功能上线,8 月底视频翻译功能上线。虽然翻译的种类和准确度仍有提升空间,但已经可以供用户使用,开发速度显著加快。这就是我们的思考路径。
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
Founder Park:对于狗语翻译是如何定位的,是作为一个严肃的产品开发,还是一个趣味引流的功能?
孙邻家Arvin:毫无疑问,我们对开发这个产品的态度是非常严肃认真的。我们参考了硅谷一家公司的做法,他们通过分析人的声音来进行情感和精神健康相关的分析,并且发表了众多论文,有着扎实的科学依据。在开发过程中,我本人也进行了广泛的市场调研和科学研究,包括 MIT 和密歇根大学等机构在这一领域的科研成果。这些研究不仅涉及家养宠物,还包括对野生动物如蓝鲸、海豚和大象的研究,当然,关于狗狗的研究是最丰富的。因此,我们的产品在科学性上是有保证的,我们希望它在交互过程中能够充满情感、富有趣味,易于引起共鸣,但在准确度和行为翻译的真实表达上,我们希望它是严肃的、有科学依据的。
Founder Park:目前从你们实际的产品数据来看,狗语翻译功能是用户尝鲜需求,还是已经成为用户的常用功能?
孙邻家Arvin:根据目前的产品数据,狗语翻译功能显示出一定的持久性,但我们还没有完全实现预期的效果。主要原因有两个:
首先,我们的产品目前不支持实时拍摄功能,作为一个 APP,我们无法判断用户是否会持续使用拍摄功能。
其次,我们发现 APP 可能不是我们产品的最终形态,它存在一些限制。例如,当用户发现宠物有行为问题时,可能无法及时捕捉到这些瞬间。因此,我们考虑通过硬件结合来解决这个问题,比如为宠物配备智能穿戴设备,以便实时捕捉宠物的行为。
此外,随着我们在 APP 中收集到越来越多的宠物个性化数据,我们可以提供更丰富的机器人交互体验,例如以宠物的口吻与用户进行虚拟陪伴式的交流,这将增加产品的可持续性。总的来说,我们在这些方向上还有很大的提升空间,目前只是开始阶段。
Founder Park:未来产品发展方向是怎么规划的?做更有趣的功能,还是更有用的服务?
孙邻家Arvin:我们的产品形态未来有很大的发展空间,目前我们专注于开发狗语翻译这一趣味性功能。我们发现 C 端用户并不追求 100% 的准确率,可能 80% 到 90% 的准确率就足够满足他们的需求。但我们发现宠物医生对准确度有较高的需求,因此我们计划在提高准确度后,将产品应用于辅助宠物医疗诊断。这将是我们后续工作的重点,包括提高翻译的准确度、种类和情感识别的准确性。
我们从一开始就考虑了严肃场景的应用,而非仅仅作为一个玩具。美国在宠物健康行为分析和宠物文化方面非常发达,但在其他国家,如中国,许多宠物医生需要更先进的理念和工具来提高诊断能力。因此,我们认为这个方向有很大的发展空间。目标是通过多模态技术全面分析宠物行为,提供专业服务,并在 APP 上添加有趣的社区分享功能,这两者并不矛盾。在 C 端,我们可以尝试许多有趣的功能;而在 B 端,如医疗领域,我们的模型能力是关键。
我们不局限于 ToC 或 ToB 的公司定义,而是考虑垂直模型作为 Agent。在垂直领域,数据量的要求不会像大模型那样高,但对数据质量的要求非常高。如果数据量和质量不能保证,我们需要建立数据飞轮,让用户不断贡献数据,从而提升模型效果。一旦模型效果提升,无论是 ToC 还是 ToB 的应用都是可行的。因此,我们认为在垂直领域内,如果做好模型,就可以实现通吃。
Founder Park:有些人认为 ToC 和 ToB 需要不同的公司基因,而你们同时做 ToB 和 ToC,背后是怎么思考的?
孙邻家Arvin:确实,这种观点基于对传统互联网的理解。在经典互联网时代,公司往往只能专注于一件事,因为操作系统不是由它们控制的。以安卓系统为例,它既服务于 B 端也服务于 C 端,最终可能通过与设备厂商的合作获得收益。如果没有 C 端用户,安卓系统本身并无价值。在当前的垂直模型领域,我们可以看到许多类似安卓的系统,它们既有 ToB 的能力,也有 ToC 的潜力,使得这两者之间的界限越来越模糊。
在客户维护方面,如果您通过 API 方式提供服务,对于技术公司而言,并没有想象中那么高的成本。这主要取决于产品形态,如果需要为客户定制,那么 ToB 和 ToC 之间的区别可能很大。但如果采用产品驱动的方式,以 API 形式提供服务,那么与用户下载 APP 的情况相似,API 可以直接调用,提供丰富的功能。最终,都是基于模型的能力,模型能达到的水平决定了能为客户提供的服务。因此,在客户维护上,与传统方式相比,成本并没有那么高,这也是一个优势。
Founder Park:你有很深的做移动互联网产品的经验,怎么看它和做大模型应用产品的区别?
孙邻家Arvin:我认为开发大型模型产品与移动互联网产品最根本的区别在于需要深入理解技术,特别是阅读相关论文。在当前 AI 领域,真正懂产品的人并不多,他们不仅需要理解技术架构,还要把握用户需求和模型细节,这些要求的综合难度提高了很多。可以说,这增加了创业的难度,使其比移动互联网时代更高。移动互联网时代的技术是通用的,我们只需要在交互设计上有所区别。不同场景如电商、游戏或娱乐,虽然交互方式和内容提供不同,但底层技术架构相同。
但现在,仅仅套用大模型外壳是不够的,它无法支撑整个商业模式。在垂直领域,我们还需要自行开发模型,这使得我们走上了与大模型相似的技术路线,只是规模和专注点有所不同。但背后对技术的理解要求提高了,对人才的要求也提高了。与移动互联网时代相比,现在不是简单地增加人手就能解决问题,而是需要增加科学家的数量,因为只有他们可能解决大多数问题,而不是普通工程师。
Founder Park:当前,构建一个优秀的创业团队,似乎已经不再适合一开始就组建一个庞大的团队,小而精似乎是更佳选择。在大模型时代创业,一个好的团队该如何构建?
孙邻家Arvin:我同意当前确实不需要特别庞大的团队。由于团队成员的质量已经非常高,他们的投入产出比可以达到很高的性价比。同时,有许多工具可以辅助工作,比如编程时的 Copilot 等,这些工具可以提供帮助。更重要的是在智慧层面,如何找到产品市场契合点(PMF)。至于后续的规模化等问题,并不需要像移动互联网时代那样需要大量的人员。
其次,疫情导致的分布式办公提供了一个机会,可以使用全球人才,不必将所有人才集中在硅谷,可以在整个美国、欧洲甚至中国寻找合适的人才。这样,虽然对人才的要求提高了,但由于分布式办公,可以降低人才成本。即使在硅谷找不到合适的人才,也许在欧洲或中国可以找到,同时还可以降低成本。当然,这在一定程度上提高了管理成本,但由于团队规模小,管理成本的增加并不是那么大。综合考虑后,我认为一个 20 人的团队设定并实现 1 亿美元的 ARR 是完全可能的。
Founder Park:接下来一年,你们公司的发展聚焦在哪几个方向?
孙邻家Arvin:我们将重点聚焦在两个方向:
首先是产品方面,主要是提升情绪翻译的种类和准确度;其次是用户增长,这仍是我们的核心关注点。
至于商业化,我们可能会在明年的下半年开始尝试,但这不是我们最高的优先级。变现途径有很多,包括工具订阅、交易、广告等,关键在于选择变现效率最高的方式。这取决于用户画像和场景的结合。对于我们来说,向医疗领域或硬件方向发展将是非常直接和明确的选择。
*头图来源:RTE年度场景Showcase暨第四届RTE创新大赛

极客一问
你认为大模型商业化有哪些方向
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
 RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?

热点视频

Oracle CEO 拉里·埃里森:我从没见过乔布斯这样的人,他逼我看了 73 遍玩具总动员。

点赞关注极客公园视频号
观看更多精彩视频

 RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?

更多阅读

RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?
RTE年度场景三强专访:实时语音、多模态Agent,创业机会在哪里?

© 版权声明

相关文章

暂无评论

暂无评论...