對於 DeepSeek 的看法
簡而言之:DeepSeek,一個開源的人工智慧模型,對科技巨頭構成的威脅微乎其微,但對個人和知識工作者卻造成了重大衝擊。它展現了民主化科技創新的力量,挑戰現有的人工智慧商業模式,加速向較小的特定領域人工智慧應用的轉變。然而,這種民主化也帶來了如工作流失和潛在濫用等風險。
引言
在不斷演變的人工智慧領域,DeepSeek 作為一個顯著的參與者出現,並不是通過威脅大型科技公司,而是重塑了個人和知識工作者的技術格局。根據 Meta 的首席人工智慧科學家 Yann LeCun 的說法,DeepSeek 是「開源社群的一次勝利。」這一發展突顯了當今世界開源人工智慧模型所帶來的獨特能力和挑戰。
DeepSeek 出現的必然性
為什麼要關注 Yann LeCun 的聲明?這強調了 Meta 開源方法中所嵌入的戰略遠見。LLaMA,一個基礎模型,為 DeepSeek 鋪平了道路,並啟發了其他專門模型,如阿里雲的 Qwen 和 聯發科技的 Breeze。Meta 的策略利用全球創新來通過社群反饋來完善和增強他們的人工智慧模型。
對於 Meta 來說,像 DeepSeek 這樣的技術突破是可以預見的;不確定性在於哪個團隊會首先實現它們。今天,是 DeepSeek;明天,可能會有其他實體領先。
DeepSeek 成功的偶然性
值得注意的是,DeepSeek 最初針對的是加密貨幣挖礦和量化交易。他們的 V3 模型據報導最初是一個副項目——這一說法雖然受到一些質疑,但我認為這是可信的。調整 LLaMA 模型的公司經常將人工智慧視為一個新前沿,在這個開源框架內進行方法實驗。
早期的挖礦團隊積累了大量優化 GPU 集群計算的技術專長。報導指出,他們甚至使用 PTX,一種比 CUDA 更細緻的語言,以最大化性能。難怪他們的成就令人印象深刻。
但為什麼一家量化交易公司會涉足人工智慧建模?動機可能在於人工智慧能夠分析全球市場並識別有利可圖的機會——這對於資源豐富的組織來說是一個吸引人的前景。
DeepSeek 的影響
DeepSeek 顯著顛覆了定價結構,挑戰依賴大型模型 API 獲利的人工智慧公司。如果有效,這種方法將使主要參與者能夠開發較小的專門模型,用於客戶服務、法律建議或醫療諮詢等領域——在不依賴龐大、通用模型的情況下降低 API 成本。
不久前,OpenAI 在他們的「聖誕節的 12 天」活動中引入了強化微調,允許用戶以最少的範例來微調模型。我預測 2025 年將是成本效益高的特定領域微調的年份。然而,DeepSeek 加速了這一軌跡,降低了模型訓練的門檻。
這引發了一個重要問題:從頭訓練一個模型還是微調現有模型更好?
好消息到此為止;壞消息是……
DeepSeek 的實驗揭示了許多方法來提升模型性能並降低訓練成本,超越傳統的擴展法則。雖然一些人擔心這可能會削弱大型人工智慧公司的優勢,但我認為這是有益的。擁有大量計算資源的公司可以在幾天內複製 DeepSeek 的模型,使小團隊能夠進入新領域。即使是中型公司也可以利用或租用創建先進人工智慧模型所需的計算能力,正如一些學生團隊已經展示的那樣。
這為什麼是壞消息?
隨著訓練和部署的門檻降低,越來越多的實體將開發利基模型,可能會用人工智慧「破解」專業知識。企業將感受到內部採用人工智慧的壓力——這對所有企業來說都是必要的升級。早期採用者將獲得競爭優勢。
簡而言之,人工智慧將開始取代某些工作。
除了工作流失,還有一個更黑暗的方面:DeepSeek R1 的對齊能力較弱。擁有一些知識後,繞過其限制相當容易,使其成為潛在惡意使用的工具,例如複雜的詐騙或有害內容生成。DeepSeek 就像一場失控的野火:它擁有創新的潛力,但也可能造成廣泛的傷害。
結論
儘管面臨挑戰,DeepSeek 使人類更接近 AGI(通用人工智慧)。如果 AGI 是不可避免的,我們必須儘早面對其挑戰。雖然民主化技術促進創新,但它也可能加深社會分裂。隨著我們向 AGI 的邁進,減輕人工智慧的負面影響將從學術上的謹慎轉變為共同的責任。
我們正生活在一個發現和創造的黃金時代。作為見證者和參與者,我期待更多突破性的進展,並希望我們能夠明智地駕馭這條變革之路。
最後,我相信 Nvidia 的 Project Digits,鑑於我們的討論,將成為各公司之間的標準——一個多功能的工具,用於各種任務。
Originally published on MTS Blog & Research