对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

硬件就绪，软件待填

80年前，美国科学家Vannevar Bush在其具有里程碑意义的著作《As We May Think》中，提出了一个名为Memex（记忆延伸）的概念。

他设想，每个人都将拥有一台设备，能够存储个人的阅读内容、照片、笔记和知识，并如同人类记忆般，辅助用户随时进行信息的回忆、关联和检索。这一构想被认为是个人电脑、超文本乃至互联网的早期思想萌芽。

Vannevar Bush Memex

在过去的八十年间，计算机、互联网和智能手机相继问世，存储容量呈指数级增长，人类积累的信息量也以前所未有的速度激增。然而，Bush所描绘的愿景仍未完全实现。

原因显而易见：机器在信息存储方面表现出色，却始终无法形成记忆；它们能保存用户一生中的海量数据，却无法在用户需要时，精准找回某一特定时刻的信息。

近期，这一局面开始出现转机。

在过去一年里，人工智能行业经历了一次全面的基础设施升级。

端侧算力已不再是停留在概念阶段，而是逐渐成为消费电子产品的标配。例如，英伟达推出了RTX Spark，将AI算力直接集成到PC中；英特尔的Lunar Lake和高通的Snapdragon X Elite，分别将笔记本电脑的NPU算力提升至60 TOPS和45 TOPS；苹果也持续将AI能力融入其M系列芯片。

模型方面也达到了新的突破点。Llama 3、千问、Gemma、Phi等开源模型在保持体积优势的同时，能力持续增强；llama.cpp、MLX等推理框架的成熟，使得大型模型首次能够在普通个人设备上稳定运行。与此同时，Apple Intelligence、Copilot+ PC以及英伟达围绕端侧AI构建的开发工具链，进一步将模型嵌入操作系统。

芯片、模型、系统，以及市场教育带来的用户信任，“端侧AI”已逐渐获得认可。可以说，每一层基础设施都已准备就绪。

然而，即便将这些要素整合，要打造出一款能让普通用户日常使用的AI产品依然困难重重。其症结并非在于单一技术，而是缺乏一个能够将模型、硬件、系统以及个人数据有效整合的产品。

曾经备受瞩目的“消费级端侧设备”Rabbit R1和Humane AI Pin，因产品定义上的失误，迅速淹没在技术浪潮中。Rabbit R1试图成为一个新的跨平台交互入口，但未能解答“为何要在手机之外再购买一台设备”的疑问；Humane AI Pin则野心勃勃地想替代手机，但炫酷的硬件未能创造实际需求，反而增加了用户体验的复杂性。

更关键的是，这些新兴的端侧设备未能解决一个核心痛点：即使它们离用户的个人数据库最近，AI大脑却常常陷入“失忆”的困境。

行业亟需一个能够整合模型、端侧能力与记忆系统的参与者。

当大家都在热议Agent时，一个更根本的问题浮现出来：Agent的长期存在依赖于什么？

早在两年前，当整个行业还在沉浸于“云端更大模型”的趋势时，Clipto.AI创始人康洪文就提出了一个与主流观点相悖的判断：

真正的机遇将诞生于端侧算力与大模型能力结合所催生的新一层基础设施。

他认为，只有当端侧算力与大模型能力两条技术曲线同时达到临界点，AI才有望真正成为每个人设备中的“第二大脑”，而不仅仅是一个聊天机器人。

而真正的机会，不仅在于模型本身，也属于构建在其上的“Memory Layer（记忆层）”。

康洪文及其团队研发的产品Clipto，正是基于这一设想的实践平台。

用户只需用自然语言描述所需内容，Clipto便能在数TB的本地视频、音频、图片和文档中，迅速定位到相关片段和信息。

但这仅仅是Clipto对外展示的首个功能。

Clipto的背后，是由十余个自主研发的端侧大模型、推理架构、算力调度系统以及数据组织能力构成的Memory Layer——它使得原本分散的海量数据得以持续沉淀，转化为AI可调用的个人记忆，并能在毫秒内从海量信息中找回用户早已遗忘的内容。

2026年5月，Clipto发布新版Mac端App后，荣登Product Hunt日榜第一，端侧与记忆构建所带来的想象空间正逐步落地。

Product Hunt榜首截图

“聪慧之人若无记忆，亦不过是失忆者”

在过去的一年里，“Agent”成为了AI行业最热门的词汇。

几乎所有大型模型公司都在谈论Agent，创业公司纷纷投身Agent开发，资本也竞相追逐。从编程、办公到购物、客服，越来越多的人相信Agent将继ChatGPT之后，引领AI的下一次产品革命。

Gartner在2026年4月的报告中，将业界对Agentic AI的态度描述为已达到“期望膨胀顶峰（the Peak of Inflated Expectations）”。报告显示，超过六成的企业计划在未来两年内部署AI Agent，尽管目前只有17%的企业已完成部署。

然而，在这股几乎毫无异议的追捧浪潮中，Clipto创始人康洪文却持续提出一个看似简单却鲜有人回答的问题：一个缺乏记忆的Agent，真的能够理解用户吗？

在他看来，当前大多数Agent建立在一个不牢靠的假设之上：只要模型足够聪明，就能成为用户的得力助手。

但现实恰恰相反。每次启动Agent，它都像是第一次与你相遇；它不知道你昨天参加了什么会议，也不知道你的照片存储在哪里，更不了解你过去一年积累了哪些文档。它能够进行推理，却缺乏经历；能够提供答案，却无法实现延续。

“一个聪明的人，如果没有记忆，也只是一个失忆的人。”康洪文如是说。

这正是他过去二十多年来一直致力于研究的课题。

最初的十年，康洪文的研究聚焦于机器如何理解世界。2004年，他在微软亚洲研究院实习期间，致力于让Xbox能够自动分析用户拍摄的大量家庭照片和视频，并从数小时的素材中提取关键片段，自动生成一段家庭短片。

随后，他前往卡内基梅隆大学机器人研究所攻读博士学位，师从计算机视觉领域专家Takeo Kanade，继续深耕图像与视频理解的研究。他认为，理解视频的本质在于理解现实世界。

近十年来，康洪文的重心转向研究机器如何生成内容。2017年，他创立了AIGC公司“慧川智能”，其旗下的创作平台“智影”于2020年底被腾讯收购。加入腾讯后，康洪文继续负责文生图、文生视频及数字人等全栈AIGC产品的研发。

如今，在Clipto，康洪文将研究焦点重新拉回到“理解”上，因为他认为生成技术已不再是AI面临的最大瓶颈，“真正缺失的是记忆”。

端侧大模型的出现，使得这条技术路径首次迎来了成熟的时机。

康洪文向36氪表示，云端模型更像是“全球大脑”，负责学习通用知识、理解整个世界；而端侧AI则应充当“个人记忆”，专注于理解每个具体的人。

在他看来，未来的AI架构并非云端AI与边缘AI的简单对抗。真正的演进方向是“Cloud Intelligence + Edge Memory”——云端负责世界知识，端侧负责个人记忆，Agent仅作为连接两者的交互层。

“Agent仅仅是最上层的交互界面，真正决定其智能程度的，并非模型本身，而是其底层是否拥有一套持续进化的Memory Layer（记忆层）。”他指出，这正是行业长期忽视的一个架构问题。

Living Memory Graph

模型会迭代更新，Agent会经历重构，但用户长期积累的记忆将难以轻易迁移。他补充道。

围绕“记忆层”，Clipto从底层重构了一整套端侧AI技术体系。

在康洪文看来，许多人对“Memory”的理解仅限于模型拥有更长的上下文窗口，或接入向量数据库。然而，真正的记忆层远不止于此。

"Memory并非单一模型，而是一个完整的系统。"他在采访中强调。

第一层是模型。

多模态数据天然具有高度异构性。视频、音频、图片、文档，每一种数据都需要独特的理解方式。针对人物识别、语音理解、OCR、场景分析、事件理解等能力，Clipto自主研发了十余个端侧AI模型。其中部分模型基于开源基础模型进行了针对性后训练，部分则为完全自主研发。每一个模型都经过重新设计，以适应端侧算力，而非直接照搬云端模型。

第二层是端侧算力架构。

与云端近乎无限的算力不同，端侧设备受到CPU、GPU、NPU、内存、存储带宽以及系统资源的共同制约。为确保多个模型能够长期协同工作，Clipto从零构建了端侧推理框架和算力调度系统，能够根据设备资源动态调度不同模型，避免它们争抢计算资源。

康洪文介绍，Clipto的架构能够自动兼容各种配置的设备，甚至包括仅配备8GB内存的M1 MacBook。在最新的M5 MacBook Pro上，Clipto可在约24小时内完成2TB本地视频的离线分析，而若完全依赖云端，同等处理成本约需400美元。

用户使用Clipto制作视频电脑桌面截屏

第三层，也是最关键的一层，是构建记忆本身。

模型能够理解内容，但不会自然形成记忆。系统还需要持续地将分散的多模态信息组织成时间、地点、人物、事件等结构化关系，并不断建立跨文件、跨时间、跨来源的联系，最终形成一个能够持续增长的个人记忆网络。

Agent调用的，将不再是某个单一模型，而是这套不断积累、持续演化的记忆层。

康洪文认为，这正是记忆层最困难之处。

它横跨模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱以及检索系统等多个技术层面。任何一个模块都无法独立构成真正的Memory。只有将这些能力整合成一套长期运行、持续生长的系统，AI才算真正拥有了“记忆”。

"模型会不断升级，Agent也会不断演进，但用户长期积累的记忆不会轻易迁移。真正的护城河，是围绕Memory建立起来的整套技术体系。"他对36氪总结道。

如果说当下的AI大模型解决了“AI如何理解世界”的问题，那么Clipto正在解决“AI如何长期记住一个人”的问题。

Clipto：非创作工具，而是记忆基础设施

Clipto登上Product Hunt日榜榜首后，真正让康洪文感到惊喜的并非成绩本身，而是评论区用户的反馈。

按照惯例，用户通常会讨论产品的易用性或功能的丰富程度。然而，Clipto上线后，评论区出现了另一种声音：

许多开发者开始询问API是否开放，能否将Clipto作为Agent的长期记忆后端，甚至讨论如何将Clipto集成到自己的产品中——而此时，Clipto甚至尚未发布SDK。

这释放出一个信号：用户已不再仅仅将其视为一个搜索工具，而是开始将其视为一层基础设施。

这种转变也超出了Clipto团队最初的预期。

起初，康洪文以为最先接受Clipto的会是视频创作者、摄影师等内容生产者。但随着用户增长，团队发现，快速增长的不仅是创作者群体，还包括金融分析师、律师、医生、咨询顾问等知识工作者。

根据官方数据，目前Clipto的用户中，约有1/3是创作者，其余2/3则来自金融、法律、医疗等行业的专业人士。

这意味着，记忆管理的需求，比内容创作空间更为广阔且刚性。

过去，人们普遍认为多模态数据管理仅是视频编辑、影视制作等专业场景下的需求。事实上，每一位知识工作者都在持续产生音频、图片、会议记录和文档。会议录音、培训视频、手机截图、播客收藏、PDF文件……这些信息每天都在增长，却很少能被有效再次利用。

当AI能够真正理解这些数据后，“记忆管理”便不再局限于创作者，而是成为所有人的刚需。

商业数据进一步印证了这一判断。Clipto上线三个月后即实现盈亏平衡。2025年，公司ARR（年度经常性收入）达到了1500万美元。

对于一家仍处于产品早期、且坚持端侧部署路线的AI公司而言，这样的商业化速度本身就是一个强烈的信号：市场愿意付费的，并非一次性的AI能力，而是长期积累的个人记忆。Memory并非一个遥远的未来市场，而是一个已被验证的现实需求。

更重要的是，这也证明了Clipto团队的能力。当许多AI创业公司仍停留在模型能力验证或Demo阶段时，Clipto已率先完成了从底层模型、端侧基础设施、产品体验到商业化的完整闭环。这种跨越底层研发、产品设计和全球商业化的全面执行能力，本身就是团队最重要的竞争壁垒。

互联网的发展史，本质上是一部基础设施不断演进的历史。

在PC互联网时代，Google构建了信息检索的基础设施，它建立了人类的公共记忆（Collective Memory），让人们能够“找到世界上的信息”；在移动互联网时代，Meta和微信构建了社交关系的基础设施，让人们能够“连接世界上的人”；在AI时代，OpenAI解决了“如何推理”的问题，而接下来将面临的，不再是“世界知道什么”，而是“我自己经历了什么”，

硬件就绪，软件待填

“聪慧之人若无记忆，亦不过是失忆者”

Clipto：非创作工具，而是记忆基础设施

玩家评论

发表您的看法

最新动态

对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

硬件就绪，软件待填

“聪慧之人若无记忆，亦不过是失忆者”

Clipto：非创作工具，而是记忆基础设施

玩家评论

发表您的看法