中國人工智能(AI)實驗室DeepSeek同名的大語言模型(LLM)通過成為美國OpenAi Chatgpt的最大競爭對手之一,震驚了矽谷。
最新DeepSeek據說本月發布的模型既快速又低成本。
DeepSeek-R1是籌碼較少的最後一個模型,已經在挑戰OpenAI,Google和Meta等巨型球員的統治地位,並於週一派遣了芯片製造商Nvidia的股票。
這是我們對中國行業破壞者的了解。
總部位於中國的杭州公司由Zhejiang University的信息和電子工程師兼畢業生Liang Wenfeng於2023年7月成立。
它是高空孵化計劃的一部分,該計劃是一家成立於2015年的基金。梁像行業中的其他主要名稱一樣,旨在達到“人工通用情報”的水平,可以在各種任務中追趕或超越人類。
DeepSeek的融資模式獨立運營,它使其可以在不受外部投資者的壓力並優先考慮長期研發的情況下從事雄心勃勃的AI項目。
DeepSeek的團隊由中國頂級大學的年輕畢業生組成,其公司招聘過程將技術技能優先於工作經驗。
簡而言之,在開發人工智能模型的過程中,它被認為具有新的觀點。
DeepSeek的旅程始於2023年11月,DeepSeek Coder的推出,DeepSeek Coder是一種旨在編碼任務的開源模型。
其次是DeepSeek LLM,旨在與其他主要語言模型競爭。 DeepSeek-V2於2024年5月發布,由於其出色的性能和低成本而獲得了吸引力。
它還迫使其他主要的中國科技巨頭,例如野獸,騰訊,百度和阿里巴巴降低了其AI模型的價格。
DeepSeek模型的能力是什麼?
DeepSeek-V2後來被DeepSeek-Coder-V2取代,這是一個更高級的型號,具有2360億個參數。
該模型專為複雜的編碼提示而設計,具有高達128,000個令牌的高上下文窗口。
令牌是文本中的單元。這個單元通常可以是一個單詞,一個粒子(例如“人造”和“智力”),甚至是角色。例如:“人工智能很棒!”可能由四個令牌組成:“人造”,“智能”,“偉大”,“!”。
上下文窗口為128,000個令牌是該模型可以同時處理的輸入文本的最大長度。
更大的上下文窗口允許模型理解,總結或分析更長的文本。例如,在進行長文檔,書籍或複雜對話時,這是一個很大的優勢。
該公司的最新車型DeepSeek-V3和DeepSeek-R1進一步鞏固了其位置。
DeepSeek-V3是671,000個參數模型所需的資源明顯少於同行,同時在與其他品牌的各種基準測試中表現出色。
本月推出的DeepSeek-R1專注於推理,編碼和數學等複雜的任務。憑藉其在該領域的功能,它挑戰了Chatgpt的最新車型之一O1。
據《福布斯》報導,儘管DeepSeek在短時間內取得了重大成功,但該公司主要專注於研究,並且在不久的將來沒有詳細的商業化計劃。
最終用戶免費嗎?
DeepSeek設法引起關注的主要原因之一是最終用戶是免費的。
這是第一個免費提供給用戶的高級AI系統。其他強大的系統(例如OpenAI O1和Claude Sonnet)需要付費訂閱。即使某些訂閱也會對用戶強加配額。
Google Gemini也可以免費使用,但免費版本僅限於較舊的型號。 DeepSeek目前沒有限制。
如何使用它?
用戶可以通過“ Chat.Deepseek”訪問為最終用戶開發的DeepSeek聊天界面。在聊天屏幕上輸入命令並按“搜索”按鈕搜索Internet是足夠的。
有一個“深思熟慮”選項可以獲取有關任何主題的更多詳細信息。儘管此選項為用戶的請求提供了更詳細的答案,但它還可以在搜索引擎中搜索更多網站。但是,與Chatgpt不同,ChatGpt僅通過依靠某些來源來搜索,此功能還可能在某些小網站上揭示虛假信息。因此,用戶需要確認他們在此聊天機器人中獲得的信息。
安全嗎?
使用DeepSeek的另一個重要問題是它是否安全。與其他服務一樣,DeepSeek需要用戶數據,該數據可能存儲在中國的服務器上。
與任何LLM一樣,重要的是用戶不要向聊天機器人提供敏感數據。
由於DeepSeek也是開源的,因此獨立的研究人員可以查看模型的代碼,並嘗試確定其是否安全。預計將在未來幾天發布有關安全問題的更詳細信息。
開源是什麼意思?
包括DeepSeek-R1在內的模型已被以很大的開源發布。這意味著任何人都可以訪問工具的代碼並使用它來自定義LLM。培訓數據是專有的。
另一方面,OpenAI已發布O1型號,並且已經將其出售給用戶,甚至向用戶出售給用戶,包裹為20美元(€19)至200美元至200美元(192歐元)。
儘管美國限制了,它還是如何產生這樣的模型?
該公司還建立了戰略合作夥伴關係,以增強其技術能力和市場影響力。
著名的合作之一是與美國籌碼公司AMD。根據福布斯的說法,DeepSeek在模型開發的關鍵階段使用了AMD Instinct GPU(圖形處理單元)和ROCM軟件,尤其是對於DeepSeek-V3。
MIT Technology Review報導說,Liang購買了大量的NVIDIA A100芯片,這是目前禁止出口到中國的類型,早在美國對中國的籌碼製裁之前。
中國媒體36KR估計該公司擁有10,000多個庫存。有人說這個數字是50,000。
意識到該股票對AI培訓的重要性,Liang創立了DeepSeek,並開始與低功率芯片一起使用它們來改善他的模型。
但是這裡的重要一點是,梁找到了一種使用很少資源的合格模型的方法。
美國芯片出口限制迫使DeepSeek開發人員創建更智能,更節能的算法,以彌補其缺乏計算能力。
人們認為Chatgpt需要10,000個NVIDIA GPU來處理培訓數據。 DeepSeek工程師說,他們只有2,000 GPU取得了類似的結果。
對DeepSeek的反應是什麼?
Scaleai首席執行官Alexandr Wang在上週在達沃斯舉行的世界經濟論壇(WEF)的演講中,為OpenAI和Google等主要參與者的AI模型提供了培訓數據。
儘管DeepSeek震驚了美國的競爭對手,但分析師已經警告了其釋放在西方的含義。
“我們應該感到震驚。中國人工智能技術進一步融入了英國和西方社會,不僅是一個壞主意,而且是一個魯ck的主意,”信息彈性中心的聯合創始人羅斯·伯利(Ross Burley)說。
“我們一次又一次地看到了北京武器如何在國內外進行監視,控制和脅迫的技術主導地位。無論是通過帶有間諜軟件的設備,由國家贊助的網絡運動還是濫用AI來抑制異議,中國的往績表明,其技術是其地緣政策的擴展。”他補充說。
“這似乎是一種良性的大語言模型,但是我們已經看到AI抑制了對中國政府的批評的信息”。
其他人則同意,發布其最新法學學士的舉動是一種政治舉動,這可能會激發已經激烈的中美洲關係。
“技術創新是真實的,但發行的時機本質上是政治性的,”戰略與國際研究中心Wadhwani AI中心主任Gregory Allen告訴美聯社。
艾倫(Allen)上週將DeepSeek的宣布與美國批准的中國公司華為在2023年有關Biden Administration出口控制措施的外交討論中發布了新電話。
艾倫說:“試圖證明出口控制是徒勞的或適得其反,這是中國外交政策的真正重要目標。”