DeepSeek的愿景AI记忆：应对上下文遗忘

简而言之：AI的规模法则正面临递减收益，开启了一个时代，在这个时代中，架构创新而不仅仅是蛮力计算将定义进步。DeepSeek最近推出的DeepSeek-OCR，其上下文的“视觉压缩”代表了一次突破性的转变。通过将长文本对话转化为“摄影”记忆片段，DeepSeek正在解决AI的关键长上下文问题，使理论上无限的对话成为可能，同时优化计算。这一创新突显了全球AI战略的根本分歧：西方科技往往“堆叠资源”，而中国公司则在“工程优化”方面表现出色——这种差异可能重塑竞争格局，并使先进的AI能力民主化。

我是James，水星科技解决方案的首席执行官。

AI发展的轨迹，尤其是东西方之间，继续揭示出两种根本不同的技术进步方法。尽管最近的讨论主要围绕AI规模法则的停滞——尤其是在GPT-5未能实现与前任相同的“魔法飞跃”之后——真正的突破现在正发生在优化的复杂舞蹈中。

昨天，DeepSeek推出了DeepSeek-OCR，我相信这一创新为AI优化开辟了一个重要的新前沿。这证明了对AI记忆本质的不同思考。

房间里的大象：AI的上下文遗忘

任何与大型语言模型（LLM）进行过长时间对话的人都经历过这一点：对话越长，AI就变得越“愚蠢”。回答偏离，连贯性减弱，最终，AI完全忘记了早期的细节。我们本能的反应往往是简单地重新开始一段新对话，这让我们松了一口气，立即恢复了AI的“新鲜感”和质量。

这不是一个错误；这是一个根本性的挑战：AI在处理过长的上下文时面临困难。想象一下，试图仔细记住一本书的每一个字，同时处理新信息。你的大脑会迅速“崩溃”。LLM在处理长上下文窗口时面临类似的计算雪崩；所需的计算量呈指数增长，导致内存过载和不可接受的响应时间。虽然理论上是可能的，但实际上，延迟使得这样的系统无法使用。

然而，DeepSeek的团队提出了一个激进的解决方案：“拍摄”旧对话。

视觉压缩：一种类人方式的AI记忆

最初，这个想法听起来是反直觉的。将文本转换为图像，然后要求AI“阅读”这些图像以重建对话？这不会导致大量信息丢失和增加存储需求吗？

DeepSeek的结果，坦率地说，令人震惊。他们发现，1000字的一页可以用大约100个“视觉令牌”以超过97%的准确率重建。这就像将10万字的对话压缩成1万“照片片段”，让AI通过查看这些片段回忆起你讨论的要点。即使将压缩比推高到20倍（1000字需要50个视觉令牌），仍然保持了大约60%的准确率。想想从一个月前的对话中回忆细节——60%的保留率对于人类来说是令人印象深刻的，更不用说AI了。

（一个重要的警告：这些测试主要是在OCR场景中进行的——从图像中重建文本。在复杂的多轮对话、代码讨论或复杂推理中的有效性仍需全面验证，因为论文本身承认这些是初步结果。）

然而，从工程的角度来看，性能是显著的。单个A100 GPU每天可以处理20万页，使用20个节点可扩展到3300万页。对于涉及大量文档处理的用例，例如准备大型模型进行训练或构建企业知识库，这种效率提升是变革性的。

DeepSeek甚至开源了代码和模型权重，降低了进入门槛。虽然该模型并未针对对话使用进行微调，并且需要特定的提示格式，但其基础优化是不可否认的。

智能架构：自适应压缩与“人类遗忘”假说

DeepSeek-OCR并不是一个僵化的、适合所有人的解决方案。它的架构是灵活的，提供多种模式，就像相机的各种拍摄设置一样。一个简单的幻灯片可能只需要64个视觉令牌，分辨率为512x512（微型模式），而复杂的报纸布局可以使用大约800个令牌通过多视图“高达”模式处理。

这种灵活性是关键。这就像人类处理信息的方式——简单的笔记与复杂的学术论文存储方式不同。DeepSeek-OCR根据内容复杂性智能地调整压缩，尽可能节省资源，并在需要时应用更多的计算能力。其基本原则是深刻的：压缩的极限取决于复杂性，反映了人类记忆的运作方式。

这引出了论文中最有洞察力的概念：“让AI像人类一样遗忘。”

考虑一下你自己的记忆。你可以逐字重复最近的一句话。一个小时前对话的要点是清晰的。昨天的事件是关键片段。上周的讨论模糊不清。上个月的几乎被遗忘。

DeepSeek为AI提出了类似的机制：最近的互动作为原始文本保存。一个小时前的内容变成高分辨率的“照片”（800个令牌）。今天早上的对话降级为标准清晰度（256个令牌）。昨天的变成低分辨率（100个令牌），而更早的记忆则要么被严重压缩，要么被丢弃。

这种设计类似于人类记忆的衰退特性，并为AI处理“理论上无限的对话”打开了可能性，因为旧的记忆会自动“消退”，以腾出空间给新的记忆。当然，挑战依然存在。我们如何确定哪些信息是“重要的”，值得高分辨率保留？如果用户在对话进行到第50轮时，突然提到第5轮的细节，而该细节已经被严重压缩，会发生什么？这可能需要“记忆重要性评分”或用户分配的重要性标签。全球AI差距：工程优化与资源堆叠

这项研究生动地展示了中国AI公司的一个定义特征：极度关注

成本优化和工程效率。

DeepSeek之前的V3模型以极少的计算（278.8万H800 GPU小时，估计训练成本为557万美元）达到了GPT-4级别的性能，令业界震惊。这个OCR模型延续了这一趋势，不断寻求以最少的令牌实现最佳结果。与一些西方AI开发中常见的“堆叠资源直到有效”的方法相比，中国团队在资源限制下的深度优化表现出色。这可能是GPU出口限制的直接结果，促使强制创新，加上强大的工程效率文化。虽然OpenAI可以花费巨额资金训练更大的模型，但DeepSeek

必须

找到以更少的资源实现可比结果的方法。这种分歧正在积极重塑全球AI竞争格局。虽然一些西方公司仍在竞争谁拥有最大的模型或最高的训练成本，但中国公司正在探索如何以10%的成本实现90%的效果。从长远来看，这种工程优化能力可能证明比单纯的资源投入更具竞争优势，尤其是在成本控制至关重要的大规模商业应用中。展望未来：R2及其后

如果DeepSeek将这些创新技术整合到其下一代推理模型R2中，可能会导致重大变化。R1已经展示了中国团队在推理方面接近西方水平的能力，但其长上下文处理仍受到传统架构的限制。如果R2整合视觉压缩、MoE优化和其他尚未公布的技术，它可能会显著降低长上下文的计算成本，同时保持强大的推理能力。

这不仅仅是性能提升；这是用例的扩展。想象一下，一个AI能够记住数十轮对话，处理极长的文档，并保持可接受的推理成本。这将对需要延长互动的应用程序，如教育、医疗咨询或法律分析，产生变革性的影响。如果成本足够低，这些能力可能会从“仅限于大型企业”转变为“可供中小开发者使用”。

DeepSeek的技术路线图始终指向“更高效、更实用”的解决方案，而不仅仅是追逐基准数字。V3、OCR，以及可能的R2，都遵循这一路径。虽然这些基于当前信息和推测，但方向是明确的，并得到了技术支持。

人类记忆并不像传统计算机那样运作，记录每一个细节。我们记住的是印象、关键信息和情感联系，而不是逐字的记录。我们忘记细节，但保留重要的。我们重新编码记忆，以更高效的方式存储它们。DeepSeek-OCR提供了一条可行的路径，让AI模仿这一点：在处理长上下文时，视觉表示可能比纯文本更高效。

这一想法在更广泛的背景下是否成立还有待观察。但它无可否认地证明了一件事：在资源限制下，通过深入思考问题的本质，巧妙设计架构，并精心优化每个组件，仍然可以构建出高度竞争的系统。这或许是中国AI发展的一个缩影——不是资源堆叠的胜利，而是工程优化的胜利。

下次你发现你的AI“忘记”了你之前的对话时，也许未来的AI会回应：“我没有忘记；我只是拍摄了我们的对话并将其深藏在我的记忆中。如果你需要，我可以随时为你检索。”

在那一刻，AI与人类之间的对话可能会变得更加自然和持久。

The next time you find your AI "forgetting" your previous conversation, perhaps a future AI will respond: "I haven't forgotten; I've simply photographed our conversation and stored it deep within my memory. If you need it, I can always retrieve it for you."

At that moment, the dialogue between AI and humanity might become far more natural, and enduring.

水星科技解决方案。加速数字化。

AI记忆的未来：DeepSeek对长上下文和全球创新差距的愿景

房间里的大象：AI的上下文遗忘

视觉压缩：一种类人方式的AI记忆

智能架构：自适应压缩与“人类遗忘”假说

成本优化和工程效率。