‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

模型层、中间层、应用层的创业者都在思考什么?

来源|Founder Park

出品 | 科创最前线

验证 GenAI 的商业价值，成为新老 Players 的共同课题。不断变化的市场中，价值从什么区间显现，又如何能被自己捕获，每人依不同的策略而行动。我们交流了多位在去年拿到融资的创业者，请他们分享了在动态的市场中，如何调整、或坚持自己的判断，怎样定义自己的关键问题，又打算如何继续行动。地图未呈，风向在变。Players需要敏锐捕捉、灵敏行动，一边想象完整的地图，一边思考自己是谁。1、有使用依赖性、且有付费习惯的用户才会成为 C 端产品的真正资产。在后互联网时代，受限于大模型的推理成本，在 C 端场景下，获客、用户运维成本大大高于以前。对创业公司而言，在早期一味追求高流量对后期探索商业模式帮助不大，甚至可能因成本负担而影响后续发展。因此在与用户交互早期，让用户认可所提供的服务/内容价值，并建立付费心智变得尤为关键。如我们之前总结，AI-Native 应用的核心在于智能化、个性化的用户体验。提供高质量的体验，并让用户认可其付费价值，将是大模型时代的核心产品力。个性化用户体验的建立，往往需要高质量的互动数据驱动。因此，自带用户与数据的互联网时代小应用，有潜力在 GenAI 时代被激活新价值。2、降低推理成本的需求将更凸显，端侧推理或将带来交互新场景。由于底层模型寻求更上层的生态位，并逐渐完善应用层工具链，在国内整个生态位中，不直接服务用户、服务应用的中间层，价值空间并不稳定。不过随着对模型能力调用的更加频繁，不同场景的需求趋于多元化，中间层价值会在需求不断多元化的过程里得以彰显。随着模型调用的频繁，推理量增加，降低推理成本的需求会更加显著。值得一提的是，多模态模型在同等参数规模下，对算力的需求比 LLM 更大，这一领域发展，也将带动对算力层 Infra 的更大需求。从场景上而言，GenAI 带来了新的交互可能，但没有诞生新的交互空间，很大程度上限制了价值创造的天花板。业内普遍期待新场景带来更大的市场，端侧推理被寄予希望。大模型进入端侧之后，用户能够直接与设备交互，从而带来更多应用可能性。在访谈中，应用侧认为或可「提高 Agent 的可用性和便利性」，模型侧认为「用更小的参数提供更好的模型」或许是差异化竞争的着力点，对 Infra 层而言意味着新的推理优化市场。3、在企业场景，客户开始追求大模型落地性价比，选择更灵活的方案。开源模型应用于生产场景的初步探索，让企业市场从狂热变为务实。具体表现为：企业从渴望拥有大模型，到思考拥有大模型带来的投入产出比。B 端应用主要在已有场景上，利用模型搭建新功能，从而带来增量价值。对于这部分价值空间，不同生态位的企业都在尝试渗透。模型方努力以更低的成本提供更高的智能，Infra 试图降低本地部署、训练、推理的成本，应用公司试图构建更价值增量更大的应用。但是由于缺乏增量场景，用户、产品维度所带来的价值依托于旧场景。因此，模型方和场景方之间的市场空间大小、以及能被谁捕捉，均存在不确定性。创业者依旧需要根据市场变化及时调整策略。4. Agent 功能的有效实现，是应用做深的下一步。无论是与真实环境互动并获取反馈，还是与行业 Knowhow 深度绑定、或在工作流中承担更高价值环节，都需要依托于 Agent 的功能实现。Agent 来源于技术概念，在应用语境下可以理解为，自主进行逻辑判断并完成相关执行闭环的一套技术组件集合。目前，单个 Agent 实现更复杂的功能需要提升准确率，并同时降低成本。由于单个 Agent 准确度不高，多个 Agent 搭配完成任务，准确率相乘后会进一步降低，这成为目前的落地瓶颈。因此单个 Agent 落地依旧是是短期内目标。从应用角度而言，用「可节省相关场景下专家的工作时长」来衡量 Agent 的功能价值，是一种思路。例如，基础的 Agent 可以节省十分钟，更复杂的 Agent 能够节省三十分钟甚至更长。在实际落地中，专家往往不愿意被替代，因此寻找切入的功能点很重要，从需要专家知识、但是人类专家并不愿意做的环节入手，或是一种思路。5、对于应用创业者，贴近真实场景、创造基于功能的数据循环，是获得生态位的立足点。模型层提升通用能力的同时，也在寻求更向上的应用层生态位；而上一代互联网玩家拥有原生场景优势，一旦入场，也会对创业公司带来影响。不过在场景上搭建深度应用，并非朝夕之功。应用创业公司，通过建立数据回路、深度打磨功能、不断优化，能够赢得先发优势；至于如何扩大优势，并形成商业壁垒则需要持续探索。我们交流了以下创业公司，可以结合要点进行针对性阅读。01、生数科技联合创始人 &CEO 唐家渝02、Morph AI 创始人 &CEO 徐怀哲03、Zilliz 合伙人兼产品负责人郭人通04、小冰公司 CEO 李笛05、澜码科技创始人 &CEO 周健06、面壁智能 CTO 曾国洋07、无问芯穹联合创始人 & CEO 夏立雪08、潞晨科技创始人尤洋09、必优科技 CEO 周泽安10、深势科技 CTO 胡成文以下，Enjoy~

01

核心观点

Sora 证实了 Diffusion Transformer 在多模态生成上的潜力。

实现突破需要算力资源和资本加持。

在常规性设计岗位上，AI 应用尚未带来颠覆。

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

唐家渝：首先多模态的重要性被证实了。我们团队一直坚定多模态方向，早在去年就推出了覆盖图像、3D 模型、视频等多模态生成的基础大模型。我们从成立之初就意识到单语言模型具有局限性，多模态能丰富信息类型，抬高模型能力的上限，也更符合人类体验世界的方式。其次在技术路线方面。我们从第一天起就选择了跟 Sora 一样的扩散+Transformer 的融合架构，坚持「原生」多模态路线。当然，现在业界对多模态的技术探索还没停止，不同的路线仍有大量的研究在进行中，但 Sora 的发布让业界真正看到了 Diffusion Transformer 路线在多模态生成方面的巨大潜力。当然还有些发展是不及预期的。比如去年业内很多声音，认为 AI 对游戏、设计等领域的工作模式会带来颠覆。的确过去一年我们有看到不少广告公司的设计团队、游戏公司的美术原画团队出现了裁员，很多常规性质的设计岗位被 AI 替换，但我们预期中应用层的颠覆并没有出现。

问：2023 年，你对 AI 思考最多的几个问题是什么？2024 年的思考重心是否有变化？有什么新思考？

唐家渝：我思考最多的是，如何在激烈的市场变化中找到确定的方向，以及在具体的执行上如何及时调整策略，保持住领先性。2024 年 Sora 的出现对我还是有很大启发的。Sora 的成功背后核心的一项工作是 DiT 架构。其实我们团队早在 2022 年 9 月份的时候就提出了一项基于 Transformer 的网络架构的 U-ViT，跟 Sora 一样均是采用了将 Transformer 和扩散模型融合的思路，并且当时我们应用在图文任务中取得了很不错的效果。但后面基于资源和技术成熟度的考虑，我们并没有很快将这个架构应用于视频生成任务。当然这里面有资源不足的问题，但对我很大的启发是，在我们明确看到某个方向有足够大的潜力、能够带来足够大回报的时候，应该要更有技术上的自信，敢于有大的、更加坚定的投入。算力资源和资本加持很重要。国内不缺乏优势的技术和有技术前瞻的团队，如果能有更多的资源集中到这个领域，相信国内也能够取得更加显著的成就。

问：2024 年最期待什么类型的 AI 产品？

唐家渝：期待 2024 年能有更多真正走进广泛的、非专业属性用户的产品出现。

问：在文生图、3D、视频的产品和商业化上，生数科技在做哪些探索？在产品和商业策略的差异化上，会怎样进一步推进？

唐家渝：我们目前在 MaaS 和应用方面都有商业化布局。通过构建覆盖文本、图像、视频、3D 模型等多模态能力的基础大模型：一方面可面向 B 端机构以 API 的形式直接提供模型的生成能力；另一方面我们也推出了垂类应用产品，按照订阅等形式收费。目前已上线了两款产品：视觉创意设计平台 PixWeaver、3D 资产构建工具 VoxCraft。后续一方面在模型层面会继续优化，提升语义理解、可控性、美观度方面的模型生成效果，使其不断满足用户需求；另一方面我们也在积极探索工具以外的产品形态，目前已有产品在研发过程中。今年我们在 3D 工具升级、长视频生成、C 端全新产品等方面都会有重要的阶段性成果发布。

02

核心观点

Foundation Model 和应用之间的 Gap，是创业公司的机会。

AI 视频具备高娱乐消费属性，存在应用层机会。

新的多模态技术，或将推动新的视频工作流出现。

问：2024 年，你对 AI 思考最多的几个问题是什么？

徐怀哲：当下，Morph 最多的思考还是如何让大家把技术用起来。Foundation model 和能用起来的产品之间始终存在天然的 gap，这个 gap 就是应用层的机会。AI 视频作为娱乐消费属性更高的模态，大家对应用层的关注存在滞后性，所以我认为应用层有巨大的机会。Morph 的产品将全力填补技术与应用之间的沟壑，去颠覆传统的视频制作模式，Morph 要做第一个 AI-Native 的视频生产工作流。

问：多模态模型与应用之间存在怎样的 Gap？

徐怀哲：我们认为多模态模型的作用和优势并没有被最大发挥，这其中的原因可能有很多。首先，多模态模型现在的交互方式有待提升，文字并不是视频生成的最佳方式。因为创作者在输入描述性文字时会带有个人特色，文字的描述更为抽象化。第二点，视频的可控性有待加强，比如分辨率、准确性、连贯性等等。第三点，对外公开的 Sora Demo 画风较为单一，对于特定风格的画风支持不足，这也是之后有待行业发掘的方向。

问：AI-Native 的视频工作流，和目前已经存在的视频工作流相比，最大的不同是什么？

徐怀哲：传统剪辑软件的产品设计逻辑是把拍摄、剪辑和后期三个大部分分开来做，或者说有一定的秩序性，先做什么，再做什么。如今，对于有限素材剪辑的工作流产品而言，AI 视频剪辑工具将会更加凸显其劣势。随着 AI 技术的发展，首先在 AI 视频中，拍摄这个步骤被 AI 取代了，创作者无需再花费大量的成本收集素材，以及需要修改时，不会再苦恼面临巨大的工程量。那么，像 Morph Studio 这种允许创作者边剪辑变生成素材、具备较强交互性，打破传统视频制作流程的 AI 视频工具更具备市场机会。我们的 All-in-One 产品 Morph Studio 也已经在内测中，该工具将颠覆传统视频制作流程，具备了让创作者能够在一个界面中完成生成、剪辑和后期等便捷功能，支持创作者调用 AI 模型选择每一个镜头并达到最佳效果。该工具能够极大帮助创作者缩短创作时间，降低创作成本。与此同时，在双方的创作者社区中，每一个创作者都能够制作专属的视频模版，其他创作者不仅可以观看创意作品，也可以在其模版的基础上复制和编辑新的视频。

问：AI 视频会以怎样的方式带来影响？

徐怀哲：我们始终相信在技术的催化下，将会出现一种新的视频模态。比如，Morph 倾注的可互动视频，即视频完成后不再是单一的作品，更像是一个个模版，其他创作者可以在原创作者的授权下学习到完整的工作流，并在此基础上进行二创。这样一来，极大降低了创作者的创作成本，让视频艺术更具个性化的同时，也兼具了普惠性。

03

核心观点

大模型没有带来增量场景，而是在传统场景上带来价值增量。

在大模型厂商和业务方中间的生存地带会越来越窄。

向量数据库和 LLM 共同实现知识增强，未来会出现一些紧耦合形式。

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

郭人通：被证实的主要是「向量数据库与大模型以 RAG 方式的结合」。Zilliz 早在 GPT-4 发布前半年就探索了这个方向，我们在 GPT-4 发布之初就开始和社区用户分享并推广 RAG。现在来看，RAG 已经成为构建大模型应用的主流技术方案。被证伪的主要是「AI 应用的增量场景价值」。现在回头看，增量场景没有预期那么乐观，传统场景的 AI 赋能仍然是支撑 AI 价值落地的主线。

问：目前，你认为自己所在的赛道的快速发展，还需要聚集那些要素？

郭人通：向量数据库这个赛道虽然比较新，但和其他品类的基础软件赛道有很多相似之处。目前最需要聚集的要素是国内市场的成熟度，以及对标准化产品的接受程度。这些方面中美市场还是有比较大的差距，当然我们在国内也看到了很多的积极变化。

问：2024 年，你觉得自己的领域，最可能实现的几个重大技术突破可能是什么？

郭人通：向量数据库和大模型的交叉地带主要是知识增强，近一年的主流方案都还是松耦合的形式，即知识库召回的结果填入 prompt 做模型输入的增强。未来会出现一些紧耦合的形式。一个是大模型会深度参与知识的选择，特别是在 long context 大模型成本持续下降后，背景知识的输入可以大幅增宽，并通过大模型在深度语义层面对知识进行选用。技术角度看，这个知识选取过程有两层：底层由传统索引支撑、上层由 Attention 支撑。新的技术会使得 Attention 所覆盖的面积下移，也意味着效果的提升。另一个方向是 embedding model 与 LLM 的语义空间融合。这个方向现在看还不那么明朗，但有挺大的想象空间。这两个语义空间融合后，向量数据库内的知识片段表示可以直接参与 Attention 过程。这是一个形态更加自然的「大模型记忆体」，可以支撑动态的知识选择。例如，以模型内部的数据表示作为记忆体的输入，在记忆体中进行扩展的 Attention 动作，召回与当前上下文强相关的内容。当然，这个方向在模型结构和成本上都还有很大的挑战。

问：2024 年，你自己在焦虑什么？

郭人通：当然，这些技术突破同时也是焦虑的核心来源，它们时常会推翻你已有的，推着你去赌好下一场。

问：什么 AI 产品在 2024 年可能会失去价值？

郭人通：大模型应用整体都会面临一个去泡沫的过程。有实在业务场景的 AI 产品才是好产品，而且多数是已有业务的升级，这里大家关注的是 AI 带来的附加值以及成本优势。在我们接触的产品中，像企业服务类就很典型。例如 CRM、工单系统、文档检索，虽然是传统业务，但用户愿意为这些 AI 增强的实用能力买单。另一方面，大模型厂商开始从内卷转向外卷，大家普遍会跟随 OpenAI 的路子，把自己的生态位往上提。在大模型厂商和业务方中间的生存地带会越来越窄，在这个条带内尝试创造需求的项目都很难有大的想象空间。

问：2024 年最期待什么类型的 AI 产品？

郭人通：个人在 2024 年最期待两类 AI 产品：一个是机器人的能力跨越落地线（类比 GPT-4），另一个是代码生成技术提升至软件工程这个层面，不再仅停留在 code generation & fully rewrite 模式，而是提供系统性的、可维护的软件工程能力。

04

核心观点

带来新能力之余，大模型提高了算力成本，但可控性的问题没解决。

大模型产品要跳出以成本思维导向的定价模式。

「AI 复活亲人」这件事不应该有商业模式。

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？现在有一些什么样的新的思考？

李笛：技术的变革只是开始，如果要产生深远的变革，必须把技术、产品、商业模式结合起来，只有商业模式发生变革的时候，才算走通。技术真正进入应用端的时候，需要合理考虑模型的参数规模、甚至是模型和模型之间的串联，从而形成整体的方案。在 ToC 和 ToB 产品的形成过程中，应该在不同的地方恰当地使用不同规模的模型，甚至不使用大模型。去年我们也看到，大模型在一些地方解决了以前的问题，也有一些地方没有解决以前的问题，还有一些地方恶化了问题。已经解决的是推理、生成的问题，跟创造力有关的效率极大地提高了；可控性没有太大变化；算力成本是大模型新增加的劣势。使用大模型技术的公司，一旦进入到深水区会发现一个比较明显的特点，错误率虽然是已经不断被降低，但只要这个错误率在百分之几的范围内存在，那么它就仍然是不可控的。可控性的问题就会带来一些非常低级的错误，也会惊讶到我们。它不是按照我们的思维模式进行的，所以会出现任何一个人都不可能会出现的错误。一方面你有时候你觉得 TA 好聪明，总结得非常深刻；另外一方面，你会觉得 TA 在某些时候怎么就像个白痴。问：2023 年，你自己对 AI 思考最多的几个问题是什么？李笛：第一，每当有一个用户从我们这里调用获得一个东西时，从商业模式角度，我们的定价是不是能够跟原先人做这件事情的价格相锚定？比如两个人写了两篇稿，一篇稿值 100 块钱，另外一篇稿值 10 块钱，就分别产生了 100 块和 10 块钱的经济价值。今天用 AI 来写，假设收入定价都是原来人类的 1%，那能不能从第一篇稿子里面收 1 块钱，从第二篇稿子里面收 1 毛钱？现在的商业模式定价完全不是这样，它很便宜，不锚定在终端价值上，终端产出物价值和终端价值之间没有任何挂钩。API 调用这种商业模式，它背后的本质原因是一种成本导向的思维，价格锚定着成本来，所以当算力成本下降的时候，价格会随之下降。第二，我们跟 Google 有点像，有一个旧时代的庞大机器在运转，这个机器上面跑着商业模式、用户、流量，我们如何一步一步比较稳定地把它迭代到合理的、新的混合模型的架构上？这个迭代现在已经全部做完了。

问：2024 年你在为什么焦虑？

李笛：我焦虑的是，搞技术的人操商业模式的心，搞商业模式的人天天为技术鼓掌。我焦虑这个市场会变得更加混乱。比如 ToB 的市场，很多企业就持币待购了，没有很迅速部署大模型，进入了相对比较漫长的招投标、观望阶段。因为风口太火了，企业毫无疑问会（觉得）越早做决策，可能做的决策越不对，反而影响了 AI 公司 ToB 的商业开拓。

问：什么 AI 产品在 2024 年可能会失去价值，失去价值的原因可能是哪些？

李笛：第一类，所谓的大 DAU/MAU 思维的产品。相信只要有一个足够高的流量，就自然有办法对流量变现。这个想法在人工智能大模型时代不是自然而然的正确结论。如果这个产品不是大厂做的，而是创业公司做的，大概率会出问题。第二类，如果付费模式上，以成本作为定价依据的产品，就会有问题。

问：AI 复活亲人的需求一直存在，良性的商业模式可能会是怎样的？

李笛：首先它不应该有一个良性的商业模式，更多是所谓的社会责任。我们在 2017 年的时候就申请了这个专利，2021 年专利已经批准了。2019 年的时候，我们在日本已经在做类似的项目，当时最担心的事情现在看起来还是发生了。很多人认为它是一个可以挣到快钱的形式。这件事情不能以商业价值作为考核方向，因为没有那么大的商业价值。一旦进入商业价值，定义了一个 KPI，就会开始走偏了，会变成一种贩卖焦虑。首先，最好是由本人授权来获得。比如我马上要离开人间了，那么当我想要去做这件事情的时候，最大的价值是能够安慰我，使我很安静地想象身后的世界，是某种形式上的临终关怀。如果这个人已经不在了，我们有一个比较明确的要求，必须得是亲属与继承法中的本人近亲属来发起，而绝不是由近亲属同意。包容（包小柏女儿）的这个例子，她的亲属就是父母。父母必须协成一致，如果协商不一致，其中一个人可能会感到遗憾，但是这也好过做出来以后，近亲属很痛苦。

05

核心观点

场景走通后，再进行针对性微调。

B 端应用需要思考如何将专家知识更好地数字化。

一些企服软件提供的价值依然成立，但是会变便宜。

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

周健：被证实的思考包括：一些是行业相对共性的思考，如模型的成本会进一步降低，人机协作的界面正在发生变化。从 OpenAI 的定价看，去年一年，像 GPT-3.5、GPT-4 这样的大模型使用成本已经降低到 1/10。人机协作的界面从最初的命令行界面，到后来的图形用户界面，现在可能又会回归到所谓的语言用户界面（LUI）或命令用户界面（CUI）。去年我们的一些独特业务判断也被证实。去年我们判断，不应该碰预训练微调。我们判断很多软件公司并没有能力将大模型或智能 AI 整合进来。因此，我们决定自己去做这样的应用。只有当场景走通后，了解现有的模型有什么差距，可以针对性的准备数据集来进行微调，否则投资回报率会非常低。当时我观察到一些 AI 1.0 的公司，他们在投资比例上犯了错误。他们认为模型预训练是重要的，于是希望一开始就做微调，给企业做垂直行业或场景的大模型来赚钱。现阶段，这些公司的这个想法已经被证伪了。未被证实的观点包括：首先，LLM 产生价值的演进速度比我原来预想的要慢很多，数据飞轮的形成比想象中的慢。在 ToB 的逻辑中，今天要落地有三个步骤：一是专家知识的数字化；二是柔性的对话式 UI 让机器能够适应人；三是领域知识的融入和反复迭代。由于大模型的应用和缺陷，以及人才的缺失，使得解决这些问题的速度比我们想象的要慢。因此，我们被迫向上走，去做大模型的应用，以体现我们中间层的价值。其次，效率场景可能并不是一个好的切入点。专家可能不愿意将他们的知识数字化，因为这可能代表他们会失去饭碗。此外，他们可能也很难总结出自己的知识，数字化技能也不见得是他们擅长的。因此，对于效率场景来说，如何冷启动、如何让专家愿意将他们的分身复刻出来，是一个极大的难点。现在，我们看到其他一些类似过去 RPA 做的事情，比如做连接性的工作，可能更有前景。在企业内部，我们可以做业财一体化，将采购系统和财务系统的数据打通，这样可以大大提升效率。过去由于数据权限的问题，能够同时看到两个系统的人本身职位较高或工资较高，导致 ROI 不够。但是今天通过 AI 进程能够理解这些数据的话，就可以给管理者提供一个助手的价值。这看起来是一个相对简单的信息流通问题，并没有太多的知识流通。过去由于信息数据的流通有权限问题所以做不到，但是今天可以通过这种方式来解决。

问：你认为自己所在的赛道的快速发展，还需要聚集那些要素？

周健：当前，大模型技术在 ToB 领域的应用最缺的是专家知识。真正既懂业务、又懂技术、还懂 AI 的复合型人才还远远不足。我们需要建立一种机制，使得专家愿意将其知识共享出来，并能从中获得合理的回报。我们期待在设备端实现 Agent 的运行和操作。这将极大地提高 Agent 的可用性和便利性，使得人们可以在任何时间、任何地点使用 Agent 来完成各种任务。

问：2024 年，你自己对 AI 思考最多的几个问题是什么？

周健：人机协同的问题需要得到解决。新型的交互方式，极有可能是以自然语言为核心，辅以丰富的多媒体手段，如声音、手势、眼神等，从而让人与机器的沟通变得更加直观、高效。我们需要设计出更好的人机协同界面和交互方式，以实现更顺畅、更高效的人机协作。随着 Agent 普及，如何协调这些智能体之间的交互，使它们能够高效、有序地协同工作，也成了一个亟待解决的问题。这需要我们设计出一套完善的通信协议和协调机制，以确保各个 Agent 能够准确理解彼此的意图和行动，从而共同完成任务。从企业的角度来看，Agent 或数字员工的引入也带来了一系列的问题。例如，如何确定 Agent 的权责，如何评估和提升 Agent 的价值，如何组成和管理 Agent 的团队等。这些问题可能比单纯的技术问题更难解决，因为它们涉及到组织、管理和激励等方面的复杂因素。

问：可能会发生在 2024 年的机会有哪些？

周健：去年，我们看到了在知识问答和智能客服方面的进步；今年，新的方向可能包括：自助数据分析、代码辅助、文生图等在营销领域的应用。以自助数据分析为例，过去，数据分析往往需要专业的技能和复杂的工具，但现在，通过自然语言处理技术的进步，用户可以通过简单的对话式界面来获取数据分析结果。这种对话式的 BI（商业智能）工具预计将变得越来越普遍，使用户能够更方便地获取和理解数据。

问：什么 AI 产品在 2024 年可能会失去价值？

周健：其实，不见得是 AI 产品会失去价值，因为现有的 AI 很多时候即使只是一个套壳，背后也依赖于 AI 大模型。从更大的视角来看，大家一直认为 AI 是一次生产力的革命，它实际解决的是信息流通的问题，即信息消费者和信息生产者之间不再需要像产品经理、程序员、描画师或 3D 建模师这样的中介。从企业服务软件的角度来看，所谓的低代码、BI、RPA、iPaaS 等，其实都面临着类似的挑战和机遇。在国内已经能看到一些萎缩的迹象。以 BI 为例，虽然 BI 不会完全被替代，但它作为一门生意，尤其是依赖于报表的部分，可能会受到大语言模型的冲击。例如，某券商使用软件来做报表，每年花费约 1000 万，这相当于雇佣了一批人来做报表。但在大语言模型出现后，这些服务可能会变得非常便宜。

06

核心观点

今年国内模型能力会追平 GPT-4，看速度快与慢。

接下来会推进模型对于 Agent 的支持、以及用有限参数量实现更好的小模型。

Agent 的落地瓶颈在效果和成本之间的差值。

问：2023 年，有哪些关于 AI 的技术判断被证实了？未来还有什么关键判断？

曾国洋：在 2023 年，大家在技术上的预判主要集中在国内何时达到 GPT-3.5，普遍认为是年底前，目前基本被验证了。未来，大家对于达到 GPT-4 的水平认为是在今年内，乐观点会认为来得比较早。从目前的感受而言，GPT-4 和 GPT-3.5 之间的距离还是挺大的。虽然在评测指标上看着没有那么大，但我们在实际操作中发现，还是有很大的提升空间。模型训练也不是单纯靠堆人、或者堆数据能解决，里面有非常多的巧劲，才能实现四两拨千金的效果。这是我们作为一个大模型创业者应该去做的事情。

问：你们今年会重点关注什么技术突破？

曾国洋：在模型上我们一直在追求效率。最初做了很多基础设施相关的效率工作，后来做了和模型推理相关的效率工作，现在做了很多和模型训练本身相关的。在模型上我们一直在追求效率。今年早些时候，我们也发布了面壁 MiniCPM 这样的模型，它是一个验证大模型技术极限的模型，今年还是会重点在提升大模型效率上，如何用有限的参数训练出更好的模型，打造优质的 Scaling Law 曲线，带来更大的价值。第二方面，是在模型的一些功能特性上，多模态、Function calling 等，我们会思考哪些能力能够比较好地支撑我们在 Agent 方向上的目标。去年有一些工作让我觉得挺有意思的，比如 OpenAI 推出的 code Interpreter。虽然这个功能现在看起来比较简单，写出代码，然后看代码的运行结果。这是一种非常雏形的 Agent 形态，通过 AI 写代码的方式和外界做交互，再根据反馈的结果做进一步的思考、调整。在 Agent 方向有一些突破，是我们在努力的方向。之前积累的多模态、工具使用、Function calling 等能力还是单点，希望能够将它们联动起来，去和世界交互。

问：去年市场经历了怎样的变化？这会怎样影响到你们的策略？

曾国洋：市场经历了从狂热到务实的变化。最初（客户）没有想好大模型要做什么，就特别想要一个，也愿意投入更多钱。后来客户开始思考，大模型能够做什么赋能、达到什么样的效果，基于这个判断思考需要投入多少钱。从目前 Agent 落地的情况上来看，还是卡在了效果和成本的关系上。最简单的计算方法就是用模型产生的商业价值减去模型的成本。在一些有更高价值的任务上，Agent 还不能以大家能够接受的正确率去完成工作。如果使用更大的模型，短期内成本也会快速提升。这也是我们需要花时间去解决的。对我们而言，就是需要追求高效大模型，（就是）用更高效的训练，更低的成本，达到理想的效果。

07

核心观点

推理场景优化的市场更大，与训练场景相比或是数量级差异。

激发 AI 原生应用的潜力，前提是降低启动成本。

AI 将成为端上场景的重要界面。

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

夏立雪：去年的预判基本都得到了验证。一是我们判断这一轮大模型爆发后，底层基础设施的需求量会先起来。无问芯穹创业就是想做多种异构算力上的联合优化。一年过去，我们发现 LLM 底层新基建的投入比我们原本预期的更大，另外整个行业对算力加速的需求量也非常高。二是我们预测，推理场景深度优化比训练场景深度优化的市场更大，可能会达到数量级别的差异。但当时大家都还在炼模型，很多人和我们持有不同的观点。现在来看英伟达最新发布的财报，推理环节算力需求更大的预测得到了证实。我们的判断逻辑是，推理场景的每一次任务，都是解决真需求，是替代部分人工的生产力，那一定要去计算它的成本收益。未来的客户，一定是在一个可以接受的投产比区间内来接受大模型服务。

问：2024 年，你对 AI 思考最多的几个问题是什么？

夏立雪：2024 年，AI 在许多场景已经有了改造性的落地。尽管在某些系统中已经集成了 AI 大模型的能力，但它在整个软件栈中的占比可能仍然不到 10%。因此，我们期待有更多的大模型或 AI 原生的解决方案能够出现，以更好地激发 AI 在应用场景中的潜力。通过大模型，我们可以使用自然语言与设备进行交流，完成各种操作。因此，我们认为 AI 将会成为端上场景的重要界面，包括手机、PC、汽车以及机器人等方向。期待 AI 在端上的爆发能够在最近一两年内取得突破性的进展。以上这些都需要好的产品经理，能够将大模型在应用场景中落地，并设计出一个好的产品，让用户能够大规模使用。好的产品来源于在各个领域有积累的专家，他们能够结合 AI 和领域知识，设计出创新的 AI 产品。为了让这些专家更好地完成工作，我们需要降低 AI 创新项目的启动成本。从成本的角度来看，有两个维度需要考虑：一是实际推理成本，即每秒钟支持多少业务量；二是项目启动成本，包括人员、团队和经验等方面。当前存在一个问题是，很多事情的启动成本太高，导致只有大公司才能放手转型。尽管大公司不能一次性抛弃原有的工具，只能一点点地引入 AI，但这个占比一定会逐渐增加，未来会有很大的、颠覆性的想象空间。我们的目标是让 AI 的易用性和性价比达到一个新的阶段。现在我们的优化能力可以实现数量级级别的成本节省。我们正在打造一个平台型产品，面向想要快速使用 AI 的应用开发者和模型使用者，提供易用化的处理和面向场景的解决方案，以降低他们的成本并提高效率。

问：2024 年，你觉得自己的领域，可能会有哪些新的机会？

夏立雪：应用层会爆发。从我们自己的合作伙伴数据、英伟达的推理场景用量、众多企业在推理卡的储备量来看，推理场景的应用正在不断增多，这背后是众多应用的逐渐崛起。多模态的应用落地。考虑到目前某些多模态模型在计算量上，比同等水平的 GPT 模型要大两到三个数量级，这意味着它们在处理复杂任务和提供丰富体验方面具有更大潜力。随着技术的不断进步和应用场景的不断拓展，我们期待看到更多创新的多模态应用在实际业务中发挥重要作用。在应用层面，我们特别关注那些接近于种子用户的小型企业，例如设计师或小型工作室。随着技术的突破和成本的降低，这些中小型企业的创造力和规模壁垒将被打破，预计在文化产业等领域将会有非常大的爆发空间。

问：什么 AI 产品会在 2024 年可能会失去价值？

夏立雪：随着大模型在产业中的影响力和落地方面的确定性逐渐被认可，一些更传统的基础设施和相关的平台技术可能会逐渐被时代所遗忘。通用模型统一了模型结构，对于那些基于模型结构复杂多样性的假设所衍生的产品会遭受较大的冲击。此外，大模型的单任务计算量很大，对于假设每个任务很小的技术也会产生很大的冲击。因此我们可以看到一些厂商正在做相关的一些升级。

08

核心观点

视频模型的发展会带来计算需求的增长。

MoE 模型的必要性尚未真正证实。

构建算力集群的能力上，国内差距在一年以上。

问：回顾去年，您认为哪些技术思考被验证了？哪些可能还没有？

尤洋：首先被验证的是，千卡以上的训练对于基座大模型是非常必要的。极致的并行计算、内存优化和最小化数据移动（或者最小化通信）在大模型训练中已经得到了共识。还没有被验证的是混合专家系统 MoE。据说 GPT-4 用了混合专家系统 MoE，有很多大模型公司或者团队也想用 MoE 做出一个比较好的大模型。但是除了 OpenAI 之外，其他人还都没有特别成功。OpenAI 这个确实也没有什么技术细节。未来我们到底需不需要 MoE 类这样的大模型，可能还有待验证。MoE 模型本质上是对计算成本的一种优化。如果发现 MoE 模型对性能有实质性的损害，人们可能会放弃使用它，因为模型的智能程度是最重要的。本来 GPT-3 没有用 MoE 模型，这个分支能不能走向光明的未来，我们其实是不知道的。有可能进入这个分支后又回到原来的非 MoE。Llama 2 肯定不是，就看 Llama 3 是不是了。去年 2023 年下半年之后，很人在提多模态模型。多种模态信息无缝融合到一个模型，我觉得这件事也没有被真正完全验证的。

问：从公司的业务来看去年的市场发生了哪些变化？

尤洋：去年 2 月到 7 月的非理性阶段已经过去了。市场更加理性了，大家对大模型的理解更深入了。比如去年 2 月份的时候，一个没有 ChatGPT 那么好但是能达到 80% 水平的大模型，能够卖几百到 1000 万，但是今年这个时候，一个比 ChatGPT 弱一些，但是不能证明比免费 Llama 好的模型，可能几万都卖不了。开源大模型会鞭策市场，让提供有价值产品的团队水平更高，让使用高水平大模型的成本降低。需要证明大模型对产业价值，才会反向影响到上游的一体机出货。考虑到视频模型的发展，现在买训推一体机也是一个比较好的选择，如果模型变大，计算量指数级上升，只有在高端的训练芯片上才能跑起来。所以现在很多人买训推一体机也是考虑到了这一点。如果计算量增加，需要跑更大的模型，直接增加机器的台数，第一台机器也不会被浪费。问：去年有哪些技术对行业进展特别重要？接下来哪些技术进展值得关注？尤洋：2023 年基本上每隔一段时间就有 AI 方面的大新闻，别人问英伟达的 CEO 黄仁勋，什么是最有影响力的事件，黄总说的是 Llama 2 的发布。我也比较赞同黄总，通过 GPT 这类大模型，让我们看到了 AI 的智能程度以及未来 AGI 的可能。大模型如果只是控制在 OpenAI、 Google 等几家公司手里，那其实很多行业没有把大模型的能力完全发挥出更大的价值，我觉得是一种遗憾。Llama 2 把大模型在各行各业落地的门槛降低了很多，今年会发布 Llama 3，我觉得开源大模型的普及可能是对整个 AI 行业比较重要的一点。接下来值得关注的是视频大模型，视频大模型现在还非常小，就是 300 亿参数。它的计算量、包括未来生成更大视频的信息量，都是大于文本的。有点相当于只是发展到了 GPT-2 的时刻，视频大模型还是有很大的发展空间。

问：除了训推一体机，公司从基础设施角度还会提供哪些服务？

尤洋：做 AI 基础设施，我们的工具旨在让开发人员和传统行业能够轻松使用 AI，就像制作 PPT 一样简单。其实我觉得它就像一个工具，模型结构就像 PPT 模板，PPT 内容就是数据，能够被应用方控制。通过我们的一体机和 Paas 云平台，能帮助用户的训练速度提升 10 倍，原来的机器资源只能训一个 10 亿参数的模型，在我们平台能训练 100 亿参数的模型。对数据隐私要求高的中小型客户，对一体机很感兴趣。对于中大型客户，我觉得云平台是一个很好的选择，我们也有很多智算中心的客户，把 Paas 平台装上去，通过更好的优化后，能够卖出的算力资源变多了，我们提供了一个很好增效的方案。

问：从算力集群构建的能力上而言，您觉得国内和 OpenAI 之间存在多大的差距？

尤洋：估计有 18 个月的差别。因为我们对这个方向之前不是那么重视。在 AI 大模型起来之前，在美国也有很多人嘲笑 OpenAI。不过在 OpenAI 爆发之前，TOP 500 supercomputer 中已经有很多 GPU 为主的 AI 集群了。现在有些人持怀疑态度，国内到底有没有稳定能运算的万卡集群？用万卡集群跑 10 分钟测一下速度，和跑上两周稳定不断，是两回事。

09

核心观点

直接触达场景的应用层，价值大于中间层。

位于模型能力外延上的应用，逐步会失去价值。

生产环节的真实数据，对于应用越来越重要。

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？现在有一些什么样的新的思考？

周泽安：我们经历了许多思考和探索，一些已经得到证实的点主要包括：1、坚决做应用。2、虽然去年市场有争议，模型可能杀死应用层公司，但我们认为，对创业公司来说做应用本身的价值要远大于做中间层。应用层直接触达用户或真实的使用场景，应用场景的落地则能够更直接地体现其价值。3、放弃了我们自研的平台——韦尼克智能写作引擎平台，这个是中间层服务，用于帮助企业训练垂类小模型。中间层服务的价值在某些情况下可能仍然存在一些模糊地带，其真正的价值和应用场景还需要进一步的探索和验证。与此同时，大模型厂商和应用方都在积极布局这一领域，使得中间层服务的竞争变得更加激烈。如果我们当初没有做出这个决策，现在可能会面临更严重的问题。4、产品生产环节的高质量数据在未来 AI 应用中的重要性将越来越凸显，可以用来优化和提升我们的模型性能、产品性能。当前，市面上还没有那么多纯 AI 生成的内容素材，更早拿到这些没有被「污染」的数据源价值很大。中间我们也有一些思考被证伪，但都快速进行了调整，才能走到今天。比如，必优曾尝试过一些通用性较强、覆盖行业领域较广的应用方向，比如用大模型写营销文案的场景。然而，这些尝试并没有取得我们预期的效果。一是这类应用的通用性使得其难以在特定领域形成足够的竞争优势；二是，随着大模型的升级和进步，这类应用的价值难以得到充分体现。因此，在投入产出比不成正比的情况下，我们最终选择了放弃这一方向。

问：2024 年，你自己对 AI 思考最多的几个问题是什么？

周泽安：1、在当前的国内流量格局下，如何做业务策略、增长及应对可能的竞争。现有的产品和应用都建立在上一代移动互联网的存量基础上，这限制了新的用户维度或应用本身的价值导向。没有了基础流量，增长的成本就会提升；当一些大玩家入局做同类产品时，一定会挤压初创型公司的市场空间；当一些玩家以收割市场的心态入场，通过购买流量恶意竞争时，也会进一步挤压真正想做好产品公司的生存空间。针对这一问题，除了需要借助 AI 去探索新流量，更加需要进一步利用提升产品力，去放大 AI 属性价值，从而可以回到我们最擅长的价值服务上。同时，建立强大的品牌影响力，吸引更多的流量，获得用户的信任。2、国内和国外的 AI 应用发展环境也存在差异，国内大模型的应用使用率并不高。这引发了我们对大模型本身发展问题的思考。经过一年的沉淀，国内大模型似乎并没有得到预期的广泛应用。甚至大模型也出现了一些摇摆思考，大模型本身是应该更专注于底层技术的发展，还是也应该积极参与生态的建设和插件应用的开发？他们的选择直接影响创业公司未来的发展。对于 AI 应用来说，底层的模型是支撑产品功能的核心。目前除了研发和人力成本，模型的成本占比也很高。因此，我们需要投入资源去研发和优化模型。特定行业数据的积累也能够帮助我们脱颖而出。比如我们之前人工生成了 17 万对数据用于训练，都不理想，但用户真实的数据，对于模型的优化就非常明显。

问：什么 AI 产品在 2024 年可能会失去价值？什么样的产品价值可能会增加？

周泽安：产品服务属于大模型能力外延上的应用一定会逐步会失去价值。大模型基础通用能力就包括了文本生成、文生图、文生视频。如果产品只是粗暴包装或者简单提供了这样的用户服务，很可能就会被覆盖掉。相反，如果借助大模型本身底层通用能力的升级迭代，结合在特定领域、场景上的服务深挖和具象化，打造出直接帮助用户实实在在解决问题的细分产品，其产品价值一定会逐步增加和被认可。

问：2024 年，你觉得自己的领域，可能有什么样的机会？

周泽安：在文档处理领域，如何将底层通用大模型与特定行业，如文档行业真正联动起来，是一个重要的挑战。过去一些竞品公司可能只是粗暴地结合了大模型的输出内容能力和文档套用，就没有真正解决用户的痛点。拿市面上比较火的 AI 生成演示 PPT 的场景来说，如果只是纯粹利用大模型去生成内容和套用模板，其用户价值就很少了。因为在实际工作中中，很少有用户会直接文字生成 PPT，反而是会在有一定思路后进行生成、创作编辑，更多是长尾的 AI 创作诉求。总结来看，单纯就文档创作而言，一个好的 AI 文档产品一定需要基于本身行业上 know-how 去重构或者定义全新的文档全流程，去真正的走进日常办公环节。针对这个思路，我们正在构建行业内第一个文档 Agent，因为 Agent 的出现，有可能帮助实现文档自动化、文档智能化。比如，可以借助 Agent，拆解能力得到提升，更好地处理文档任务，包括生成内容、组织框架、排版设计等，这将带来整个一次新的行业发展机会。

10

核心观点

LLM 应用靠「猎奇+流量放大」不能带来商业模式，市场需要好产品。

科学领域的数据稀缺，使用好有限数据，追求科学大模型的 Scaling Law。

科学大模型能够促进下游电池材料、创新药等领域的发展。

问：2023 年，有哪些关于 AI 业务策略的思考被证实了，哪些被证伪了？现在有一些什么样的新的思考？

胡成文：「给 OpenAI API 套壳」这件事基本上已经没得玩了，但是「开发一个好产品」这个母命题本身依然存在。否则 Notion，Canva 之类的公司也不会发展这么好。最终还是要回归商业本质，从用户出发开发产品，而不是从技术出发拿着锤子找钉子。基于大模型的简单套壳不是一个产生价值的事情。最终还是要回到商业本质。不提供价值，仅靠猎奇+流量放大并不能形成一个可持续的商业。

问：你认为这波大模型的技术诞生至今，行业影响最大的三/几件事是什么？为什么这个事情对行业很重要？

胡成文：第一个是 ChatGPT，再往前是 2017 年的 Transformer，再之前是 2012 年的 AlexNet。这三件事分别验证了现代AI的场景、架构以及资源。当前的 AI 发展，其实也是在三个方面做文章。具体到 AI for Science 领域，根据《科学智能全球观察与展望 (2023)》，三个典型成果为 AlphaFold2，DeePMD 和 PINN，分别在蛋白结构预测、分子模拟和偏微分方程求解问题上利用 AI 实现了突破性进展。

问：目前，你认为自己所在的赛道的快速发展，还需要聚集那些要素？你最希望自己所在的赛道在哪些地方能有一些突破？

胡成文：和语言、图像等领域不同，科学领域是「数据稀缺」的，实验观测数据非常昂贵，很多场景中，模型所能学习的标记数据只有几百条（相比之下语言图像数据都是以十亿计）。如何能更高效的使用预训练方法将未标记数据利用起来，以及如何将已知的物理化学限制融入模型训练、推理的过程，从而获得更好的模型输出，这是 AI for Science 领域持续突破的方向。

问：2024 年，你觉得自己的领域，最可能实现的重大技术突破可能是什么？为什么这个突破很重要？

胡成文：2024 年，我们预计行业中会出现一系列优秀的科学大模型，在不同场景达到传统第一性仿真精度级别，同时推理速度提高万倍以上。比如，深势科技 2022 年发布初代 Uni-Mol 分子大模型，对分子的化学空间进行预训练。2024 年将发布 Uni-Mol 大版本更新，训练集和参数量均有数量级提升，实践科学大模型的 Scaling Law，驱动下游的性质预测、分子设计、结构表征等一系列典型应用，为下一代电池材料、创新药等国家重点关注领域带来新质生产力。

关注「科创最前线」公众号后台回复“报告”获取《硬科技报告合集》

科创最前线是一家专注报道科技推动产业创新的新媒体，致力于成为中国科创浪潮中的发现者、陪伴者、推动者。

我们聚焦中国科技创新产业发展，挖掘科创企业明日之星，深度跟踪头部科技企业动态及科技产业资本布局，推动科技在消费、出行、教育、文娱、房产、医疗等民生领域的落地。

本文固定链接: http://www.x86android.com/articles/7405.html
转载请注明: zhiyongz 2024年04月01日于安卓X86中文站发表

作者：zhiyongz

安卓X86中文站站点 QQ交谈

01

核心观点

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

问：2023 年，你对 AI 思考最多的几个问题是什么？2024 年的思考重心是否有变化？有什么新思考？

问：2024 年最期待什么类型的 AI 产品？

问：在文生图、3D、视频的产品和商业化上，生数科技在做哪些探索？在产品和商业策略的差异化上，会怎样进一步推进？

02

问：2024 年，你对 AI 思考最多的几个问题是什么？

问：多模态模型与应用之间存在怎样的 Gap？

问：AI-Native 的视频工作流，和目前已经存在的视频工作流相比，最大的不同是什么？

问：AI 视频会以怎样的方式带来影响？

03

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

问：目前，你认为自己所在的赛道的快速发展，还需要聚集那些要素？

问：2024 年，你觉得自己的领域，最可能实现的几个重大技术突破可能是什么？

问：2024 年，你自己在焦虑什么？

问：什么 AI 产品在 2024 年可能会失去价值？

问：2024 年最期待什么类型的 AI 产品？

04

核心观点

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？现在有一些什么样的新的思考？

问：2024 年你在为什么焦虑？

问：什么 AI 产品在 2024 年可能会失去价值，失去价值的原因可能是哪些？

问：AI 复活亲人的需求一直存在，良性的商业模式可能会是怎样的？

05

核心观点

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

问：你认为自己所在的赛道的快速发展，还需要聚集那些要素？

问：2024 年，你自己对 AI 思考最多的几个问题是什么？

问：可能会发生在 2024 年的机会有哪些？

问：什么 AI 产品在 2024 年可能会失去价值？

06

核心观点

问：2023 年，有哪些关于 AI 的技术判断被证实了？未来还有什么关键判断？

问：你们今年会重点关注什么技术突破？

问：去年市场经历了怎样的变化？这会怎样影响到你们的策略？

07

核心观点

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？

问：2024 年，你对 AI 思考最多的几个问题是什么？

问：2024 年，你觉得自己的领域，可能会有哪些新的机会？

问：什么 AI 产品会在 2024 年可能会失去价值？

08

核心观点

问：回顾去年，您认为哪些技术思考被验证了？哪些可能还没有？

问：从公司的业务来看去年的市场发生了哪些变化？

问：除了训推一体机，公司从基础设施角度还会提供哪些服务？

问：从算力集群构建的能力上而言，您觉得国内和 OpenAI 之间存在多大的差距？

09

核心观点

问：2023 年，有哪些关于 AI 的业务策略或者业务的思考被证实了，哪些被证伪了？现在有一些什么样的新的思考？

问：2024 年，你自己对 AI 思考最多的几个问题是什么？

问：什么 AI 产品在 2024 年可能会失去价值？什么样的产品价值可能会增加？

问：2024 年，你觉得自己的领域，可能有什么样的机会？

10

核心观点

问：2023 年，有哪些关于 AI 业务策略的思考被证实了，哪些被证伪了？现在有一些什么样的新的思考？

问：你认为这波大模型的技术诞生至今，行业影响最大的三/几件事是什么？为什么这个事情对行业很重要？

问：目前，你认为自己所在的赛道的快速发展，还需要聚集那些要素？你最希望自己所在的赛道在哪些地方能有一些突破？

问：2024 年，你觉得自己的领域，最可能实现的重大技术突破可能是什么？为什么这个突破很重要？

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复 取消回复

留下一个回复取消回复