Back to Insights人工智能应用

对DeepSeek的思考

Mercury Technology Solutions2025年2月4日4 min read

简而言之:DeepSeek,一个开源AI模型,对科技巨头构成的威胁微乎其微,但对个人和知识工作者造成了显著的干扰。它展示了民主化技术创新的力量,挑战现有的AI商业模式,加速向更小的领域特定AI应用的转变。然而,这种民主化也带来了失业和潜在滥用等风险。

引言

在不断发展的人工智能领域,DeepSeek作为一个显著的参与者出现,不是通过威胁大型科技公司,而是通过重塑个人和知识工作者的技术环境。根据Meta首席AI科学家Yann LeCun的说法,DeepSeek是“开源社区的胜利”。这一发展突显了开源AI模型在当今世界所呈现的独特能力和挑战。

DeepSeek出现的必然性

为什么要关注Yann LeCun的声明?它强调了Meta开源方法中蕴含的战略远见。LLaMA,一个基础模型,为DeepSeek铺平了道路,并激励了其他专门模型,如阿里云的Qwen和联发科技的Breeze。Meta的战略利用全球创新,通过社区反馈来完善和增强他们的AI模型。

对Meta来说,像DeepSeek这样的技术突破是可以预见的;不确定性在于哪个团队会首先实现它们。今天是DeepSeek;明天,可能会有其他实体领先。

DeepSeek成功的偶然性

值得注意的是,DeepSeek最初针对的是加密货币挖矿和量化交易。他们的V3模型据说最初是一个副项目——这一说法虽然受到一些质疑,但我对此深有共鸣。微调LLaMA模型的公司通常会将AI视为一个新前沿,在这个开源框架内进行方法实验。

早期的挖矿团队积累了丰富的优化GPU集群计算的技术专长。报告显示,他们甚至使用了比CUDA更细粒度的语言PTX,以最大化性能。难怪他们的成就令人印象深刻。

但为什么一家量化交易公司会涉足AI建模?动机可能在于AI分析全球市场并识别有利机会的潜力——这是对资源丰富的组织具有吸引力的前景。

DeepSeek的影响

DeepSeek显著扰乱了定价结构,挑战依赖大型模型API获取收入的AI公司。如果有效,这种方法将使大型参与者能够开发更小的、专门的模型,用于客户服务、法律咨询或医疗咨询等领域——在不依赖庞大的通用模型的情况下降低API成本。

不久前,OpenAI在他们的“圣诞节12天”活动中引入了强化微调,允许用户用最少的示例微调模型。我预计2025年将是成本效益高的领域特定微调之年。然而,DeepSeek加速了这一轨迹,降低了模型训练的门槛。

这引出了一个重要问题:从头训练一个模型更好,还是微调现有模型更好?

好消息到此为止;坏消息来了……

DeepSeek的实验揭示了许多方法来提升模型性能并降低训练成本,超越传统的缩放法则。虽然一些人担心这可能削弱大型AI公司的优势,但我认为这是有益的。拥有大量计算资源的公司可以在几天内复制DeepSeek的模型,使小团队能够进入新领域。即使是中型公司也可以利用或租用创建先进AI模型所需的计算能力,正如一些学生团队已经证明的那样。

这为什么是坏消息?

随着训练和部署门槛的降低,更多实体将开发小众模型,可能会用AI“破解”专业知识。企业将感受到更大的压力,必须在内部采用AI——这是所有企业的必要升级。早期采用者将获得竞争优势。

简而言之,AI将开始取代某些工作。

除了工作置换,还有一个更黑暗的方面:DeepSeek R1的对齐能力较弱。凭借一些知识,绕过其限制相对容易,使其成为潜在恶意使用的工具,例如复杂的欺诈或有害内容生成。DeepSeek就像一场无法控制的野火:它具有创新的潜力,但也可能造成广泛的伤害。

结论

尽管面临挑战,DeepSeek将人类推向AGI(通用人工智能)更近一步。如果AGI是不可避免的,我们必须尽早面对其挑战。虽然民主化技术促进了创新,但也可能加深社会分裂。随着我们向AGI迈进,减轻AI的不利影响将从学术上的谨慎转变为共同的责任。

我们生活在一个发现和创造的黄金时代。作为见证者和参与者,我期待更多的突破性进展,并希望我们能够明智地驾驭这条变革之路。

最后,我相信Nvidia的Project Digits,考虑到我们的讨论,将成为各公司之间的标准——一个多功能的工具,用于各种任务。

Originally published on MTS Blog & Research