谷歌認(rèn)真起來，就沒 OpenAI 什么事了！創(chuàng)始人組隊(duì)打造“殺手級(jí)”多模態(tài) AI 模型

發(fā)布時(shí)間：2023-08-30 13:47:23

截至目前，OpenAI 大語言模型在 AI 競(jìng)賽中一直處于領(lǐng)先地位。而強(qiáng)勁優(yōu)勢(shì)的背后，離不開微軟龐大數(shù)據(jù)中心基礎(chǔ)設(shè)施的有力支持。但 ChatGPT 的主導(dǎo)地位恐怕無法長久持續(xù)下去，因?yàn)樾碌?、更?qiáng)大的 AI 模型正不斷涌現(xiàn)，而其中最具戰(zhàn)斗力的挑戰(zhàn)者就來自谷歌。

今年 4 月，Alphabet 首席執(zhí)行官桑達(dá)爾·皮查伊 (Sundar Pichai) 邁出了不尋常的一步：合并兩個(gè)具有不同文化和代碼的大型人工智能團(tuán)隊(duì)（谷歌 Brain 和 DeepMind 團(tuán)隊(duì)），以趕上并超越 OpenAI 和其他競(jìng)爭對(duì)手。

現(xiàn)在，檢驗(yàn)這個(gè)團(tuán)隊(duì)工作成果的時(shí)刻即將到來。有消息稱，這支數(shù)百人組成的團(tuán)隊(duì)將在今年秋天發(fā)布一組大型機(jī)器學(xué)習(xí)模型 Gemini，這是該公司有史以來構(gòu)建的風(fēng)險(xiǎn)最高的產(chǎn)品之一。據(jù)參與 Gemini 開發(fā)的人士透露，這些模型統(tǒng)稱為 Gemini，預(yù)計(jì)將使谷歌能夠制造出競(jìng)爭對(duì)手無法制造的產(chǎn)品。

谷歌 Gemini 于今年 5 月在 I/O 開發(fā)者大會(huì)上首度亮相。

當(dāng)時(shí)，谷歌稱 Gemini 為其下一代基礎(chǔ)模型，它仍在訓(xùn)練中。Gemini 是從一開始就以多模式、高效的工具和 API 集成為目標(biāo)而創(chuàng)建的，旨在支持未來的創(chuàng)新，例如內(nèi)存和規(guī)劃。經(jīng)過微調(diào)和嚴(yán)格的安全測(cè)試后，Gemini 將提供各種尺寸和功能，就像 PaLM 2 一樣。

全世界都在關(guān)心的 Gemini 到底是個(gè)啥？

早在 2016 年，DeepMind 就因其人工智能程序 AlphaGo 在復(fù)雜的圍棋游戲中擊敗了一位冠軍選手而成為頭條新聞?？爝M(jìn)到今天，DeepMind 首席執(zhí)行官 Demis Hassabis 透露，他的團(tuán)隊(duì)正在利用 AlphaGo 的變革性技術(shù)來創(chuàng)建 Gemini AI。Demis Hassabis 透露，Gemini AI 的開發(fā)成本估計(jì)為數(shù)億美元，使用了數(shù)萬顆谷歌的 TPU AI 芯片進(jìn)行訓(xùn)練。

據(jù)悉，Gemini AI 是一個(gè)類似于 ChatGPT 的 GPT-4 的大規(guī)模語言模型。然而，Hassabis 和他的團(tuán)隊(duì)更進(jìn)一步，為 Gemini AI 注入了源自 AlphaGo 的解決問題能力和戰(zhàn)略規(guī)劃能力。

從根本上講，Gemini AI 包含下一代 AI 架構(gòu)，有望取代 Google 當(dāng)前的 AI 模型 PaLM 2。該模型目前支持 Google 的一系列 AI 服務(wù)，例如 Workspace 應(yīng)用程序中廣泛使用的 Duet AI 和流行的 Bard 聊天機(jī)器人。

谷歌還放出消息，稱 Gemini 將為旗下 AI 聊天機(jī)器人 Bard，以及 Google Docs、Slides 等企業(yè)級(jí)應(yīng)用提供支持。

The Information 報(bào)道稱，谷歌并不是簡單地與 ChatGPT 等產(chǎn)品競(jìng)爭，而是打算超越一眾大模型產(chǎn)品讓友商們無法望其項(xiàng)背。消息人士指出，該公司專注于將大型語言模型 (LLM) 的文本功能與人工智能圖像生成相結(jié)合，以創(chuàng)建多功能產(chǎn)品。這意味著 Gemini 不僅能夠像 ChatGPT 那樣生成文本，還能夠創(chuàng)建上下文圖像，但據(jù)報(bào)道，谷歌也在考慮添加其他功能。例如，用戶最終可能能夠使用 Gemini 通過語音分析流程圖或控制軟件。

Gemini 之所以能夠成為強(qiáng)大的競(jìng)爭對(duì)手，是因?yàn)楣雀柰瑯诱莆罩酆竦馁Y源儲(chǔ)備，特別是用于訓(xùn)練 AI 模型的寶貴數(shù)據(jù)。谷歌能夠訪問 YouTube 視頻、谷歌圖書、龐大的搜索索引以及 Google Scholar 上的學(xué)術(shù)資料。其中大部分?jǐn)?shù)據(jù)為谷歌所獨(dú)有，這也使其在構(gòu)建頂尖 AI 模型方面占據(jù)著超越其他廠商的優(yōu)勢(shì)。

那么，Gemini 在訓(xùn)練中，具體都用到了哪些數(shù)據(jù)集？

Gemini 用到了哪些數(shù)據(jù)集？

據(jù)悉，Gemini 項(xiàng)目汲取了谷歌多個(gè)項(xiàng)目的數(shù)據(jù)集來訓(xùn)練大模型，包括了 Google Piper monorepo、DeepMind MassiveText 以及 YouTube 中的數(shù)據(jù)。

來自 Google Piper monorepo 的 Gemini 數(shù)據(jù)集（估計(jì)）

Gemini 數(shù)據(jù)集可能由大量代碼組成，以支持最終訓(xùn)練模型中的推理。Google 的內(nèi)部 monorepo Piper 大小為 86TB 。使用 The Pile 的每字節(jié) 0.4412 個(gè)令牌的計(jì)算，該數(shù)據(jù)集將約為 37.9T 個(gè)令牌，或者大約是 GPT-4 中下一個(gè)最大數(shù)據(jù)集大小的兩倍（估計(jì)）。

來自 DeepMind MassiveText 的 Gemini 數(shù)據(jù)集（估計(jì)）

Gemini 數(shù)據(jù)集可能由 DeepMind 的一些 MassiveText（多語言） 5T 令牌數(shù)據(jù)集組成

請(qǐng)注意，下表是關(guān)于 Gemini 數(shù)據(jù)集的猜測(cè)（未經(jīng) Google DeepMind 確認(rèn)），并且基于來自最先進(jìn)的 DeepMind MassiveText（多語言）+ 1,000B 討論令牌的可用信息。MassiveText 包括網(wǎng)頁、書籍、新聞和代碼等文本，包含約 23.5 億個(gè)文檔， 10.5 TB 的文本量。

MassiveText 多語言數(shù)據(jù)集估計(jì)。

*四舍五入大概的數(shù)據(jù)以粗體顯示（來自 DeepMind 的 MassiveText 多語言數(shù)據(jù)集），確定的數(shù)據(jù)以斜體顯示。

來自 YouTube 的 Gemini 數(shù)據(jù)集（估計(jì)）

據(jù)一位知情人士透露，谷歌的研究人員一直在使用 YouTube 來開發(fā)其下一個(gè)大型語言模型 Gemini。

YouTube 2023 總體統(tǒng)計(jì)數(shù)據(jù)（來自Wyzowl和Statista）：

視頻總數(shù)：8 億。
平均長度：11.7 分鐘。
總時(shí)間：93.6 億分鐘。
四舍五入以跟上每小時(shí)上傳 30,000 小時(shí)的速度：10B 分鐘。

YouTube 2023 文本統(tǒng)計(jì)數(shù)據(jù)：

人類說話速度：每分鐘 150 個(gè)單詞 (wpm)。
150wpm x 10B 分鐘 = 總計(jì) 1.5 萬億字。
假設(shè)：(1) 說話僅出現(xiàn)在視頻的子集中，(2) 質(zhì)量分類器保留分?jǐn)?shù)位于前 80% 的視頻，那么我們保留其中的 80%。
1.5T 字 x 0.8 = 1.2T 字。
1.2T 單詞 x 1.3 = 1.56T 文本標(biāo)記。

1.5T 文本令牌不足以大幅降低 Gemini 或 GPT-5 規(guī)模模型的要求：

1T 參數(shù)（20T 文本令牌）。
2T 參數(shù)（40T 文本標(biāo)記）。
5T 參數(shù)（100T 文本令牌）。

鑒于 2023-2024 年大型語言模型對(duì)多模態(tài)的關(guān)注，可以假設(shè)視覺內(nèi)容（不僅僅是文本）正在用于訓(xùn)練這些模型。

在將 YouTube 上的音頻、視頻數(shù)據(jù)注入 Gemini 數(shù)據(jù)集中后，Gemini 模型就具有了多模態(tài)能力，比如，根據(jù) YouTube 視頻訓(xùn)練的模型，可以幫助需要的人根據(jù)視頻解決一些實(shí)際動(dòng)手問題。

使用 YouTube 內(nèi)容，還可以幫助谷歌開發(fā)更先進(jìn)的文本轉(zhuǎn)視頻軟件，根據(jù)用戶想看的內(nèi)容描述，自動(dòng)生成詳細(xì)的視頻。

Google DeepMind 在 Piper（其 86TB monorepo）中的迭代代碼上訓(xùn)練大模型（DIDACT）。使用 The Pile 的每字節(jié) 0.4412 個(gè)令牌的計(jì)算，該數(shù)據(jù)集將約為 37.9T 個(gè)令牌，大約是 GPT-4 中下一個(gè)最大數(shù)據(jù)集大小的兩倍（預(yù)估）。這意味著訓(xùn)練 Gemini 不會(huì)出現(xiàn)傳聞中的數(shù)據(jù)匱乏的情況。

2023 年最大數(shù)據(jù)集列表（截至 2023 年 6 月）

*四舍五入大概的數(shù)據(jù)以粗體顯示，確定的數(shù)據(jù)以斜體顯示。

據(jù)稱與 GPT-4 不同，Gemini 將是首個(gè)能夠同時(shí)處理視頻、文本和圖像的多模態(tài)模型。有報(bào)告表明，Gemini 接受的訓(xùn)練令牌數(shù)量是 GPT-4 的兩倍，是 PaLM 2 的 10 倍。

Gemini+GPT-4 等于 AGI？

Google Gemini 是一種多模式工具和 API 集成，旨在將 GPT-4 等語言模型與 AlphaGo 中使用的技術(shù)相結(jié)合，以增強(qiáng)其能力，例如規(guī)劃和解決問題。

比如，目前 GPT-4 等大語言模型的缺陷主要體現(xiàn)在兩方面：第一，是結(jié)果高度依賴訓(xùn)練語料，如果語料存在偏見或錯(cuò)誤，那么大語言模型生成的結(jié)果也會(huì)是錯(cuò)誤的；第二，是大語言模型可能會(huì)出現(xiàn)幻覺，給出完全不符合常識(shí)的錯(cuò)誤信息，這主要是因?yàn)榇笳Z言模型只具備當(dāng)前訓(xùn)練語料的知識(shí)，缺乏對(duì)真實(shí)世界全面而準(zhǔn)確的理解。

Gemini 作為先進(jìn)的數(shù)學(xué)定理證明系統(tǒng)，與 GPT4 等大型語言模型相結(jié)合，有可能解決人工智能模型中搜索和規(guī)劃的弱點(diǎn)，并生成新的定理。有專家預(yù)測(cè)，該模型可以在五年內(nèi)達(dá)到 MMLU 基準(zhǔn)的 100 分。

谷歌在構(gòu)建和訓(xùn)練大語言模型方面還有著深厚的人才池和多年實(shí)踐經(jīng)驗(yàn)。除了預(yù)計(jì)于明年秋季發(fā)布的新模型之外，谷歌還有意發(fā)布由 Gemin 驅(qū)動(dòng)的新聊天機(jī)器人，或者借此升級(jí)現(xiàn)有 Bard 聊天機(jī)器人。照慣例來看，新模型應(yīng)該會(huì)通過 Google Cloud 對(duì)外發(fā)布，這無疑會(huì)對(duì)谷歌的云業(yè)務(wù)產(chǎn)生深遠(yuǎn)的積極影響。

Gemini 在上月谷歌開發(fā)者大會(huì)上首度亮相時(shí)曾遭嘲笑，期間谷歌展示的幾個(gè) AI 項(xiàng)目也未受認(rèn)可。

谷歌稱，Gemini 項(xiàng)目的下一代 AI 模型最早將于今年秋季推出。

聯(lián)合創(chuàng)始人謝爾蓋·布林躬身入局，組建研發(fā)團(tuán)隊(duì)

在將谷歌 Brain 和 DeepMind 兩大 AI 部門合并時(shí)，掌門人皮查伊稱是為了提高部門運(yùn)作效率，將谷歌龐大的計(jì)算資源同 DeepMind 的研究技能結(jié)合起來。

消息人士指出，谷歌大腦和 DeepMind 團(tuán)隊(duì)的幾位前成員目前正在研究 Gemini。其中包括 Google 高級(jí)研究員 Paul Barham 和 DeepMind 的 Tom Hennigan，后者專注于 Gemini 的基礎(chǔ)設(shè)施。然而，最引人注目的團(tuán)隊(duì)成員可能是谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林 (Sergey Brin)。

據(jù)報(bào)道，2022 年底，布林開始更頻繁地進(jìn)入谷歌辦公室。在谷歌于 2022 年底因 OpenAI 失去研究人員后，人們認(rèn)為布林正在專注于 Gemini 的招聘流程?，F(xiàn)在，消息人士稱，他在評(píng)估和訓(xùn)練 Gemini 模型方面發(fā)揮了重要作用。

在此之前，兩大部門也分別對(duì) ChatGPT 做出了自己的回應(yīng)。DeepMind 這邊有 Goodall 項(xiàng)目，使用了一種名為 Chipmunk 的未公開模型，另一部門則拿出基于 Google Brain 模型的 Bard。盡管雙方之間存在一定競(jìng)爭，DeepMind 還是決定放棄 Goodall，轉(zhuǎn)而在 Gemini 上攜手合作。

ChatGPT 的統(tǒng)治將就此終結(jié)？

事實(shí)上，Google Brain 和 DeepMind 的通力合作必然給 OpenAI 及其他競(jìng)爭對(duì)手帶來麻煩。當(dāng)然，谷歌具體如何打造 Gemini 才是決定性因素。報(bào)道表明，Gemini 在多模態(tài)能力方面取得了顯著進(jìn)步，切實(shí)超越了以往模型。其設(shè)計(jì)側(cè)重于多模態(tài)，意味著它能夠理解和處理多種不同形式數(shù)據(jù)，并在工具與 API 集成方面極為高效。

具體來講，Gemini 不僅擅長理解和生成會(huì)話文本，而且精通處理多種其他輸入，例如文本、圖像和視頻。另有報(bào)道表明，Gemini 能夠接收的 token 數(shù)量可達(dá) GPT-4 的兩倍，這應(yīng)該能夠支撐起更強(qiáng)的智能度優(yōu)勢(shì)。

隨著生成式人工智能競(jìng)爭格局的加劇，谷歌準(zhǔn)備通過推出 Gemini AI 來展示其真正的能力。谷歌從匆忙引入 Bard 中汲取了寶貴的經(jīng)驗(yàn)教訓(xùn)，決心確保無懈可擊地進(jìn)入市場(chǎng)。預(yù)計(jì)到 2030 年，生成式人工智能市場(chǎng)將達(dá)到 1093.7 億美元，投資者和客戶熱情高漲，加劇了主導(dǎo)地位的爭奪。谷歌著眼于徹底改變行業(yè)，已準(zhǔn)備好釋放 Gemini AI 的全部潛力，塑造文本分析人工智能解決方案的未來。

以上為本次所有分享內(nèi)容

上一篇：吵翻了！到底該選 Rust 還是 Go，成 2023 年最大技術(shù)分歧

下一篇：抽風(fēng)預(yù)測(cè)五年后的 Web 發(fā)展，卻被現(xiàn)實(shí)啪啪打臉

谷歌認(rèn)真起來，就沒 OpenAI 什么事了！創(chuàng)始人組隊(duì)打造“殺手級(jí)”多模態(tài) AI 模型

發(fā)布時(shí)間：2023-08-30 13:47:23

Gemini 用到了哪些數(shù)據(jù)集？

Gemini+GPT-4 等于 AGI？

聯(lián)合創(chuàng)始人謝爾蓋·布林躬身入局，組建研發(fā)團(tuán)隊(duì)

ChatGPT 的統(tǒng)治將就此終結(jié)？

微信服務(wù)號(hào)

微信訂閱號(hào)

在線客服

在線咨詢

聯(lián)系電話

熱線電話

手機(jī)站點(diǎn)

手機(jī)掃一掃打開

關(guān)注微博

回到頂部

歡迎注冊(cè)盛圖科技

谷歌認(rèn)真起來，就沒 OpenAI 什么事了！創(chuàng)始人組隊(duì)打造“殺手級(jí)”多模態(tài) AI 模型

發(fā)布時(shí)間：2023-08-30 13:47:23

Gemini 用到了哪些數(shù)據(jù)集？

Gemini+GPT-4 等于 AGI？

聯(lián)合創(chuàng)始人謝爾蓋·布林躬身入局，組建研發(fā)團(tuán)隊(duì)

ChatGPT 的統(tǒng)治將就此終結(jié)？

微信服務(wù)號(hào)

微信訂閱號(hào)

在線客服

在線咨詢

聯(lián)系電話

熱線電話

手機(jī)站點(diǎn)

手機(jī)掃一掃打開

關(guān)注微博

回到頂部

歡迎登錄盛圖科技

歡迎注冊(cè)盛圖科技

谷歌認(rèn)真起來，就沒 OpenAI 什么事了！創(chuàng)始人組隊(duì)打造“殺手級(jí)”多模態(tài) AI 模型

Gemini 用到了哪些數(shù)據(jù)集？

Gemini+GPT-4 等于 AGI？

聯(lián)合創(chuàng)始人謝爾蓋·布林躬身入局，組建研發(fā)團(tuán)隊(duì)

ChatGPT 的統(tǒng)治將就此終結(jié)？