簡介:“我們沒有護城河,OpenAI 也沒有?!痹谧罱孤兜囊环菸募?,一位谷歌內部的研究人員表達了這樣的觀點。這位研究人員認為,雖然表面看起來 OpenAI 和谷歌在 AI 大模型上你追我趕,但真正的贏家未必會從這兩家中產生,因為一個第...

“我們沒有護城河,OpenAI 也沒有?!痹谧罱孤兜囊环菸募?,一位谷歌內部的研究人員表達了這樣的觀點。

這位研究人員認為,雖然表面看起來 OpenAI 和谷歌在 AI 大模型上你追我趕,但真正的贏家未必會從這兩家中產生,因為一個第三方力量正在悄然崛起。

這個力量名叫“開源”。圍繞 Meta 的 LLaMA 等開源模型,整個社區正在迅速構建與 OpenAI、谷歌大模型能力類似的模型,而且開源模型的迭代速度更快,可定制性更強,更有私密性……“當免費的、不受限制的替代品質量相當時,人們不會為受限制的模型付費?!弊髡邔懙?。

這份文件最初由一位匿名人士在公共 Discord 服務器上分享,獲得轉載授權的產業媒體 SemiAnalysis 表示,他們已經驗證了這份文件的真實性。

這篇文章在推特等社交平臺上得到了大量轉發。其中,得克薩斯大學奧斯汀分校教授 Alex Dimakis 發表了如下觀點:

    開源 AI 正在取得勝利,我同意,對于全世界來說,這是件好事,對于構建一個有競爭力的生態系統來說也是好事。雖然在 LLM 領域,我們還沒有做到這一點,但我們剛剛讓 OpenClip 擊敗了 openAI Clip,并且 Stable Diffusion 比封閉模型更好。

    你不需要龐大的模型,高質量的數據更有效、更重要,API 背后的羊駝模型進一步削弱了護城河。

    你可以從一個好的基礎模型和參數高效微調(PEFT)算法開始,比如 Lora 在一天內就能運行得非常好。算法創新終于開始了。

    大學和開源社區應該組織更多的工作來管理數據集,訓練基礎模型,并像 Stable Diffusion 那樣建立微調社區。

    谷歌和OpenAI,沒有護城河

    圖/Twiter

    當然,并非所有研究者都同意文章中的觀點。有人對開源模型是否真能擁有媲美 OpenAI 大模型的能力和通用性持懷疑態度。

    谷歌和OpenAI,沒有護城河

    圖/Twiter

    不過,對于學術界來說,開源力量的崛起總歸是件好事,意味著即使沒有 1000 塊 GPU,研究者也依然有事可做。

    谷歌和OpenAI,沒有護城河

    圖/Twiter

    以下是文件原文:

    我們沒有護城河,OpenAI 也沒有。

    我們一直在關注 OpenAI 的動態和發展。誰將跨越下一個里程碑?下一步會是什么?

    但令人不安的事實是,我們沒有能力贏得這場軍備競賽,OpenAI 也是如此。在我們爭吵不休的時候,第三個派別一直在漁翁得利。

    這個派別就是“開源派”。坦率地說,他們正在超越我們。我們所認為的那些“重要的待解決問題”如今已經被解決了,而且已經送到了人們的手中。

    我舉幾個例子:

      能在手機上運行的大型語言模型:人們可以在 Pixel 6 上運行基礎模型,速度為 5 tokens / 秒。

      可擴展的個人 AI:你可以花一個晚上在你的筆記本電腦上微調一個個性化的 AI。

      負責任地發布:這個問題與其說是“被解決了”,不如說是“被忽略了”。有的網站整體都是沒有任何限制的藝術模型,而文字也不例外。

      多模態:目前的多模態科學 QA SOTA 是在一個小時內訓練完成的。

      雖然我們的模型在質量方面仍然保持著輕微的優勢,但差距正在以驚人的速度縮小。開源模型的速度更快,可定制性更強,更有私密性,而且在同等條件下能力更強大。他們正在用 100 美元和 130 億的參數做一些事情,而我們在 1000 萬美元和 540 億的參數上卻很難做到。而且他們在幾周內就能做到,而不是幾個月。這對我們有深遠的影響:

        我們沒有秘密武器。我們最大的希望是向谷歌以外的其他人學習并與他們合作。我們應該優先考慮實現 3P 整合。

        當免費的、不受限制的替代品質量相當時,人們不會為受限制的模型付費。我們應該考慮我們的附加值到底在哪里。

        巨大的模型拖慢了我們的速度。從長遠來看,最好的模型是那些可以快速迭代的模型。既然我們知道 200 億以下參數的模型能做什么,那我們應該在一開始就把它們做出來。

        谷歌和OpenAI,沒有護城河

        圖/參考資料

        LLaMA 掀起的開源變革

        三月初,隨著 Meta 的 LLaMA 模型被泄露給公眾,開源社區得到了第一個真正有用的基礎模型。該模型沒有指令或對話調整,也沒有 RLHF。盡管如此,開源社區立即把握住了 LLaMA 的重要性。

        隨之而來的是源源不斷地創新,主要進展出現的間隔只有幾天(如在樹莓派 4B 上運行 LLaMA 模型、在筆記本上對 LLaMA 指令微調、在 MacBook 上跑 LLaMA 等)。僅僅一個月之后, 指令微調、量化、質量改進、多模態、RLHF 等變體都出現了,其中很多都是在彼此的基礎上構建的。

        最重要的是,他們已經解決了規?;瘑栴},這意味著任何人都可以自由地修改和優化這個模型。很多新想法都出自普通人。訓練和實驗門檻已經從主要研究機構下放到一個人、一個晚上和一臺功能強大的筆記本電腦。

        LLM 的 Stable Diffusion 時刻

        從很多方面來說,任何人都不應該對此感到意外。開源 LLM 當前的復興緊隨圖像生成的復興出現,很多人稱這是 LLM 的 Stable Diffusion 時刻。

        在這兩種情況下,低成本的公眾參與是通過一種成本低得多的低秩適應(low rank adaptation, LoRA)微調機制實現的,并結合了 scale 上的重大突破。高質量模型的易得幫助世界各地的個人和機構孕育了一系列想法,并讓他們得以迭代想法,并很快超過了大型企業。

        這些貢獻在圖像生成領域至關重要,使 Stable Diffusion 走上了與 Dall-E 不同的道路。擁有一個開放的模型促成了 Dall-E 沒有出現的產品集成、市場、用戶界面和創新。

        效果是顯而易見的:與 OpenAI 解決方案相比,Stable Diffusion 的文化影響迅速占據主導地位。LLM 是否會出現類似的發展趨勢還有待觀察,但廣泛的結構要素是相同的。

        谷歌錯過了什么?

        開源項目使用的創新方法或技術直接解決了我們仍在努力應對的問題。關注開源工作可以幫助我們避免重蹈覆轍。其中,LoRA 是功能極其強大的技術,我們應當對其投入更多的關注。

        LoRA 將模型的更新展現為低秩因式分解,能夠使更新矩陣的大小縮減幾千倍。如此一來,模型的微調只需要很少的成本和時間。將在消費級硬件上對語言模型進行個性化調整的時間縮減至幾個小時非常重要,尤其是對于那些希望在近乎實時的情況下整合新的、多樣化知識的愿景而言。雖然該技術對一些我們想要完成的項目有很大影響,但它并未在谷歌內部得到充分的利用。

        LoRA 的神奇力量

        LoRA 如此高效的一個原因是:就像其他形式的微調一樣,它可以堆疊。我們可以應用指令微調等改進,幫助完成對話、推理等任務。雖然單個微調是低秩的,但它們的集合并不是低秩的,LoRA 允許對模型的全等級更新隨著時間的推移積累起來。

        這意味著,隨著更新更好的數據集的出現,模型可以低成本地保持更新,而不需要支付完整的運行成本。

        相比之下,從頭開始訓練大模型不僅丟掉了預訓練,還丟掉了之前進行的所有迭代和改進。在開源世界中,這些改進很快就會盛行起來,這讓全面重新訓練的成本變得非常高。

        我們應該認真考慮,每個新應用或想法是否真的需要一個全新的模型。如果我們真的有重大的架構改進,排除了直接重用模型權重,那么我們應該致力于更積極的更新方式,盡可能保留前一代功能。

        大模型 vs. 小模型,誰更具有競爭力?

        對于最流行的模型尺寸,LoRA 更新的成本非常低(約 100 美元)。這意味著,幾乎任何有想法的人都可以生成并分發它。在訓練時間小于一天的正常速度下,微調的累積效應很快就可以克服開始時的尺寸劣勢。事實上,就工程師時間而言,這些模型的改進速度遠遠超過了我們的最大變體所能做到的。并且最好的模型在很大程度上已經與 ChatGPT 基本沒有區別了。因此,專注于維護一些最大的模型實際上使我們處于不利地位。

        數據質量優于數據大小

        這些項目中有許多是通過在小型、高度策劃的數據集上進行訓練來節省時間。這表明在數據縮放規律中較為靈活。這種數據集的存在源于《數據并非你所想(Data Doesn't Do What You Think)》中的想法,并正迅速成為無需谷歌的標準訓練方式。這些數據集是使用合成方法(例如從現有的模型中過濾出最好的數據)以及從其他項目中搜刮出來的,這但兩種方法在谷歌并不常用。幸運的是,這些高質量的數據集是開源的,所以它們可以免費使用。

        與開源競爭注定失敗

        最近的這一進展對商業戰略有非常直接的影響。如果有一個沒有使用限制的免費、高質量的替代品,誰還會為有使用限制的谷歌產品買單?況且,我們不應該指望能夠追趕上?,F代互聯網在開放源碼上運行,是因為開放源碼有一些我們無法復制的顯著優勢。

        “我們需要他們”多于“他們需要我們”

        保守我們的技術機密始終是一個脆弱的命題。谷歌研究人員正定期前往其他公司學習,這樣可以假設他們知道我們所知道的一切。并且只要這種 pipeline 開放,他們就會繼續這樣做。

        但由于 LLMs 領域的尖端研究可以負擔得起,因此保持技術競爭優勢變得越來越難了。世界各地的研究機構都在相互借鑒,以廣度優先的方式探索解決方案空間,這遠遠超出了我們自身的能力。我們可以努力抓住自己的秘密,但外部創新會稀釋它們的價值,因此可以嘗試相互學習。

        個人不像企業那樣受到許可證的約束

        多數創新構建在 Meta 泄露的模型權重之上。隨著真正開放的模型變得越來越好,這將不可避免發生變化,但關鍵是他們不必等待?!皞€人使用”提供的法律保護和不切實際的個人起訴意味著個人可以在這些技術炙手可熱的時候使用它們。

        擁有生態系統:讓開源工作為自己所用

        矛盾的是,所有這一切只有一個贏家,那就是 Meta,畢竟泄露的模型是他們的。由于大多數開源創新是基于他們的架構, 因此沒有什么可以阻止他們直接整合到自家的產品中。

        可以看到,擁有生態系統的價值再怎么強調都不為過。谷歌本身已經在 Chrome 和 Android 等開源產品中使用這種范式。通過孵化創新工作的平臺,谷歌鞏固了自己思想領導者和方向制定者的地位,獲得了塑造比自身更宏大思想的能力。

        我們對模型的控制越嚴格,做出開放替代方案的吸引力就越大,谷歌和 OpenAI 都傾向于防御性的發布模式,使得他們可以嚴格地控制模型使用方式。但是,這種控制是不現實的。任何想要將 LLMs 用于未經批準目的的人都可以選擇免費提供的模型。

        因此, 谷歌應該讓自己成為開源社區的領導者,通過更廣泛的對話合作而不是忽視來起到帶頭作用。這可能意味著采取一些不舒服的舉措,比如發布小型 ULM 變體的模型權重。這也必然意味著放棄對自身模型的一些控制,但這種妥協不可避免。我們不能既希望推動創新又要控制它。

        OpenAI 未來的路在何方?

        考慮到 OpenAI 當前的封閉政策,所有這些開源討論都會令人覺得不公平。如果他們都不愿意公開技術,我們為什么要分享呢?但事實卻是,我們通過源源不斷地挖角 OpenAI 的高級研究員,已經與他們分享著一切。在我們阻止這一潮流之前,保密仍是一個有爭議的問題。

        最后要說的是,OpenAI 并不重要。他們在開源立場上犯了與我們一樣的錯誤,并且他們保持優勢的能力必然遭到質疑。除非 OpenAI 改變立場,否則開源替代產品能夠并最終會讓他們黯然失色。至少在這方面,我們可以邁出這一步。

        原文地址:https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

晚上一个人睡不着偷偷看b站苹果视频