早在今年初,中國的 AI Startup DeepSeek 就突然闖入了人工智慧的舞台,它推出了超級省錢的 R1 V3 動力驅動的 AI 模型。這使得投資者們開始擔心起來,更何況DeepSeek 的該模型在各種基準中都遠超過了 OpenAI 的 o1 理性的模型,包括數學、科學和編程等領域,而且是以極低的成本實現的。
而 DeepSeek 的研究人員聲稱,公司花費大約 6 億美金來訓練該省錢模型,但多個報導表明,DeepSeek 創造性地利用了 Microsoft 和 OpenAI 的版權內容來訓練它的模型。更令人懷疑的是,有一份報告指出,DeepSeek 花費逾 1.6 萬億元於硬體購置,包括 50,000 台 NVIDIA Hopper GPU。
這使得 OpenAI 將 DeepSeek 遭受控告,他們聲稱 DeepSeek 使用了「蒸餾」來訓練它的 R1 模型。對於有關背景知識,蒸餾是指一間公司(例如在本例中為DeepSeek)利用已有的模型輸出(OpenAI)來訓練新的模型。這樣做可以大幅減少開發和訓練人工智慧模型所需的龐大資金。
而現在似乎,OpenAI 的控訴似乎有理有據。而一個由 Copyleaks 進行的新研究發現,DeepSeek 的 AI 生成內容與 OpenAI 的 ChatGPT 兩者相似度高達 74.2%(根據 Forbes 報導)。更令人擔心的是,這一研究結果表明 DeepSeek 的創新的方法可能不是那麼純粹。是否可以說,DeepSeek 的成功背後隱藏著不少的隱情?在接下來的章節中,我們將深入探討這個議題,並揭露更多關於人工智慧開發商的真相。
本系列文章將聚焦於 DeepSeek 的背後故事,包括它的訓練方法、技術內幕,以及它與 OpenAI 之間的爭端。同時,我們也會介紹相關的研究結果和分析,以幫助您更好地理解人工智慧發展的現狀,並了解未來可能出現的風險和機遇。在接下來的章節中,我們將探討 DeepSeek 的創新方法背後的真相,以及它是否真的能夠成為人工智慧領域的真正領先者。
深度追蹤的 AI 模型是否使用 OpenAI 的版權內容訓練?
你有沒有發現什麼異常?深度追蹤到底是如何運作的呢?研究指出,Copyleaks 這間公司使用了高科技來分辨 AI 生成的文本。這間公司對 DeepSeek 的輸出進行分析後,發現它們與 OpenAI 的模型非常相似。
Copyleaks 這間公司還曾經用這種方法識別過由 AI 模型產生的文本,包括 OpenAI、Claude、Gemini 和 Llama 等,這些模型都有其獨特的風格。Copyleaks 的研究人員 Shai Nisan 表示,這種統一投票的做法是為了降低錯誤率。
在這個案例中,Copyleaks 的研究人員發現,DeepSeek 的輸出與 OpenAI 的模型非常相似,而這種相似性並不見於其他檢查過的模型。Shai Nisan 表示,這種相似性雖然不能證明 DeepSeek 是 OpenAI 的複製品,但卻讓人對它們的發展方法產生疑問。
這也引發了一個重要問題:投資者為什麼要花大把的錢去訓練和發展 AI 模型?Copyleaks 的研究人員認為,這種相似性與 OpenAI 的領導地位有關。因此,對於 DeepSeek 的架構、訓練數據和開發過程進行進一步調查是非常必要的。
Nissan 表示:《「我們的研究採用了一種‘一致同意’的方法,並且發現深度追蹤與 OpenAI 模型之間有著強烈的風格相似性,這種相似性並不見於其他檢查過的模型。」》
這也讓人不得不想起一個問題:DeepSeek 的發展方法是否真的有效呢?Nissan 表示:《「雖然我們的研究結果不能證明深度追蹤是 OpenAI 的複製品,但卻使得它們的開發過程產生了疑問。在風格方面,與 OpenAI 模型相比,它們的相似性非常顯著。考慮到 OpenAI 在市場上的領導地位,我們的研究結果表明,更進一步調查深度追蹤的架構、訓練數據和開發過程是必要的。」》
如果DeepSeek被判侵犯著作權,下一步該怎麼辦?
如果DeepSeek確實是盜用了別人的東西,這將會是一個什麼樣的結果呢? (圖片來源:Getty Images | Anadolu)
研究發現DeepSeek的AI生成文本與OpenAI的ChatGPT相似度達74.2%,雖然這並不一定能證明它是直接複製,但這將會對該公司造成更多麻煩,引起版權侵犯和知識產權問題。
而DeepSeek沒有明確表示自己使用了OpenAI的模型進行訓練,這使得整個局面更加糟糕,可能會導致嚴重的法律和財務後果。根據Copyleaks的數據科學家發言: “這項研究強烈地表明,在未來的人工智能發展和監管中,透明度和強大的知識產權保護至關重要。 監管機構很可能會要求公司公開詳細資訊,說明他們訓練模型時使用的資料集和模型輸出。”
以下是相關的指南:
- 重新訓練你的AI模型。
- 仔細檢查你所使用的資料集,以免引起版權問題。
- 在未來的人工智能發展中保持透明度,公開你的知識產權信息。
OpenAI 有許多侵犯著作權的陰影
你可能知道,OpenAI 和微軟在努力開發人工智慧技術時,屢次走向法律法庭。今年五月,八家新聞出版機構對微軟和OpenAI提出侵犯著作權訴訟。這一切都與他們試圖利用人工智慧來模擬已經存在的知識而引發的爭議有關。
當被問及為什麼會這樣時,OpenAI CEO 萊恩·波特(Ryan Bort)解釋說:「這是一個困難的問題。目前,我們認為任何想要開發類似ChatGPT工具的人,都需要使用一些已經存在的知識和資料。」
然而,這種觀點引發了許多爭議。在某些人看來,OpenAI 正在利用他人的作品,而不願意支付相應的權利金。這種行為可能會對創作者造成嚴重損害。
事實上,就在去年,OpenAI 的另一款工具ChatGPT引起了轟動,這款工具可以通過與人聊天來回答問題。但是,有些人認為,ChatGPT 使用的內容中有大量侵犯著作權的資料。這使得許多人開始質疑 OpenAI 是否真的在做足夠努力來避免侵犯他人的權利。
因此,OpenAI 的行為引發了對於人工智慧開發中的著作權問題的關注。是否有更好的方法可以讓人工智慧工具與原創內容共存?這仍然是一個未解的謎題,而我們需要繼續探索答案。