Back to Insights人工智能与机器学习

AI记忆的未来:DeepSeek对长上下文和全球创新差距的愿景

Mercury Technology Solutions2025年10月21日8 min read

简而言之:AI的规模法则正面临递减收益,开启了一个时代,在这个时代中,架构创新而不仅仅是蛮力计算将定义进步。DeepSeek最近推出的DeepSeek-OCR,其上下文的“视觉压缩”代表了一次突破性的转变。通过将长文本对话转化为“摄影”记忆片段,DeepSeek正在解决AI的关键长上下文问题,使理论上无限的对话成为可能,同时优化计算。这一创新突显了全球AI战略的根本分歧:西方科技往往“堆叠资源”,而中国公司则在“工程优化”方面表现出色——这种差异可能重塑竞争格局,并使先进的AI能力民主化。

我是James,水星科技解决方案的首席执行官。

AI发展的轨迹,尤其是东西方之间,继续揭示出两种根本不同的技术进步方法。尽管最近的讨论主要围绕AI规模法则的停滞——尤其是在GPT-5未能实现与前任相同的“魔法飞跃”之后——真正的突破现在正发生在优化的复杂舞蹈中。

昨天,DeepSeek推出了DeepSeek-OCR,我相信这一创新为AI优化开辟了一个重要的新前沿。这证明了对AI记忆本质的不同思考。

房间里的大象:AI的上下文遗忘

任何与大型语言模型(LLM)进行过长时间对话的人都经历过这一点:对话越长,AI就变得越“愚蠢”。回答偏离,连贯性减弱,最终,AI完全忘记了早期的细节。我们本能的反应往往是简单地重新开始一段新对话,这让我们松了一口气,立即恢复了AI的“新鲜感”和质量。

这不是一个错误;这是一个根本性的挑战:AI在处理过长的上下文时面临困难。想象一下,试图仔细记住一本书的每一个字,同时处理新信息。你的大脑会迅速“崩溃”。LLM在处理长上下文窗口时面临类似的计算雪崩;所需的计算量呈指数增长,导致内存过载和不可接受的响应时间。虽然理论上是可能的,但实际上,延迟使得这样的系统无法使用。

然而,DeepSeek的团队提出了一个激进的解决方案:“拍摄”旧对话。

视觉压缩:一种类人方式的AI记忆

最初,这个想法听起来是反直觉的。将文本转换为图像,然后要求AI“阅读”这些图像以重建对话?这不会导致大量信息丢失和增加存储需求吗?

DeepSeek的结果,坦率地说,令人震惊。他们发现,1000字的一页可以用大约100个“视觉令牌”以超过97%的准确率重建。这就像将10万字的对话压缩成1万“照片片段”,让AI通过查看这些片段回忆起你讨论的要点。即使将压缩比推高到20倍(1000字需要50个视觉令牌),仍然保持了大约60%的准确率。想想从一个月前的对话中回忆细节——60%的保留率对于人类来说是令人印象深刻的,更不用说AI了。

(一个重要的警告:这些测试主要是在OCR场景中进行的——从图像中重建文本。在复杂的多轮对话、代码讨论或复杂推理中的有效性仍需全面验证,因为论文本身承认这些是初步结果。)

然而,从工程的角度来看,性能是显著的。单个A100 GPU每天可以处理20万页,使用20个节点可扩展到3300万页。对于涉及大量文档处理的用例,例如准备大型模型进行训练或构建企业知识库,这种效率提升是变革性的。

DeepSeek甚至开源了代码和模型权重,降低了进入门槛。虽然该模型并未针对对话使用进行微调,并且需要特定的提示格式,但其基础优化是不可否认的。

智能架构:自适应压缩与“人类遗忘”假说

DeepSeek-OCR并不是一个僵化的、适合所有人的解决方案。它的架构是灵活的,提供多种模式,就像相机的各种拍摄设置一样。一个简单的幻灯片可能只需要64个视觉令牌,分辨率为512x512(微型模式),而复杂的报纸布局可以使用大约800个令牌通过多视图“高达”模式处理。

这种灵活性是关键。这就像人类处理信息的方式——简单的笔记与复杂的学术论文存储方式不同。DeepSeek-OCR根据内容复杂性智能地调整压缩,尽可能节省资源,并在需要时应用更多的计算能力。其基本原则是深刻的:压缩的极限取决于复杂性,反映了人类记忆的运作方式。

这引出了论文中最有洞察力的概念:“让AI像人类一样遗忘。”

考虑一下你自己的记忆。你可以逐字重复最近的一句话。一个小时前对话的要点是清晰的。昨天的事件是关键片段。上周的讨论模糊不清。上个月的几乎被遗忘。

DeepSeek为AI提出了类似的机制:最近的互动作为原始文本保存。一个小时前的内容变成高分辨率的“照片”(800个令牌)。今天早上的对话降级为标准清晰度(256个令牌)。昨天的变成低分辨率(100个令牌),而更早的记忆则要么被严重压缩,要么被丢弃。

这种设计类似于人类记忆的衰退特性,并为AI处理“理论上无限的对话”打开了可能性,因为旧的记忆会自动“消退”,以腾出空间给新的记忆。当然,挑战依然存在。我们如何确定哪些信息是“重要的”,值得高分辨率保留?如果用户在对话进行到第50轮时,突然提到第5轮的细节,而该细节已经被严重压缩,会发生什么?这可能需要“记忆重要性评分”或用户分配的重要性标签。全球AI差距:工程优化与资源堆叠

这项研究生动地展示了中国AI公司的一个定义特征:极度关注

成本优化和工程效率。

DeepSeek之前的V3模型以极少的计算(278.8万H800 GPU小时,估计训练成本为557万美元)达到了GPT-4级别的性能,令业界震惊。这个OCR模型延续了这一趋势,不断寻求以最少的令牌实现最佳结果。与一些西方AI开发中常见的“堆叠资源直到有效”的方法相比,中国团队在资源限制下的深度优化表现出色。这可能是GPU出口限制的直接结果,促使强制创新,加上强大的工程效率文化。虽然OpenAI可以花费巨额资金训练更大的模型,但DeepSeek

必须

找到以更少的资源实现可比结果的方法。这种分歧正在积极重塑全球AI竞争格局。虽然一些西方公司仍在竞争谁拥有最大的模型或最高的训练成本,但中国公司正在探索如何以10%的成本实现90%的效果。从长远来看,这种工程优化能力可能证明比单纯的资源投入更具竞争优势,尤其是在成本控制至关重要的大规模商业应用中。展望未来:R2及其后

如果DeepSeek将这些创新技术整合到其下一代推理模型R2中,可能会导致重大变化。R1已经展示了中国团队在推理方面接近西方水平的能力,但其长上下文处理仍受到传统架构的限制。如果R2整合视觉压缩、MoE优化和其他尚未公布的技术,它可能会显著降低长上下文的计算成本,同时保持强大的推理能力。

这不仅仅是性能提升;这是用例的扩展。想象一下,一个AI能够记住数十轮对话,处理极长的文档,并保持可接受的推理成本。这将对需要延长互动的应用程序,如教育、医疗咨询或法律分析,产生变革性的影响。如果成本足够低,这些能力可能会从“仅限于大型企业”转变为“可供中小开发者使用”。

DeepSeek的技术路线图始终指向“更高效、更实用”的解决方案,而不仅仅是追逐基准数字。V3、OCR,以及可能的R2,都遵循这一路径。虽然这些基于当前信息和推测,但方向是明确的,并得到了技术支持。

人类记忆并不像传统计算机那样运作,记录每一个细节。我们记住的是印象、关键信息和情感联系,而不是逐字的记录。我们忘记细节,但保留重要的。我们重新编码记忆,以更高效的方式存储它们。DeepSeek-OCR提供了一条可行的路径,让AI模仿这一点:在处理长上下文时,视觉表示可能比纯文本更高效。

这一想法在更广泛的背景下是否成立还有待观察。但它无可否认地证明了一件事:在资源限制下,通过深入思考问题的本质,巧妙设计架构,并精心优化每个组件,仍然可以构建出高度竞争的系统。这或许是中国AI发展的一个缩影——不是资源堆叠的胜利,而是工程优化的胜利。

下次你发现你的AI“忘记”了你之前的对话时,也许未来的AI会回应:“我没有忘记;我只是拍摄了我们的对话并将其深藏在我的记忆中。如果你需要,我可以随时为你检索。”

在那一刻,AI与人类之间的对话可能会变得更加自然和持久。

The next time you find your AI "forgetting" your previous conversation, perhaps a future AI will respond: "I haven't forgotten; I've simply photographed our conversation and stored it deep within my memory. If you need it, I can always retrieve it for you."

At that moment, the dialogue between AI and humanity might become far more natural, and enduring.

水星科技解决方案。加速数字化。

Originally published on MTS Blog & Research