核心提示:說(shuō)出來(lái)你可能不信,這篇文章可是AI寫(xiě)的。人類擅長(zhǎng)分析,但機(jī)器做得更好。機(jī)器可以分析數(shù)據(jù),并針對(duì)不同用例需求找到相應(yīng)
說(shuō)出來(lái)你可能不信,這篇文章可是AI寫(xiě)的
人類擅長(zhǎng)分析,但機(jī)器做得更好。機(jī)器可以分析數(shù)據(jù),并針對(duì)不同用例需求找到相應(yīng)的規(guī)律——不管是詐騙信息識(shí)別、垃圾郵件檢測(cè)、預(yù)測(cè)快遞送達(dá)時(shí)間還是為你推薦可能感興趣的短視頻——而且它們還在不斷迭代,變得越來(lái)越聰明。這種機(jī)器被稱為“分析式人工智能”(Analytical AI),或者傳統(tǒng)AI。
但人類不僅擅長(zhǎng)分析,還擅長(zhǎng)創(chuàng)造——比如寫(xiě)詩(shī)、設(shè)計(jì)產(chǎn)品、制作游戲與編寫(xiě)程序代碼。以前,機(jī)器在這些方面無(wú)法與人類抗衡,它們只能做些分析型或機(jī)械式的認(rèn)知計(jì)算。但現(xiàn)在不一樣了,AI發(fā)展到了新的階段,機(jī)器已經(jīng)開(kāi)始可以創(chuàng)造有意義并具備美感的東西了。這一新型的AI被稱為“生成式人工智能”(Generative AI),也就是說(shuō),機(jī)器并非如之前那樣僅分析已有的數(shù)據(jù),而是生成了全新的東西。
生成式AI不僅正在變得更快、更便宜,而且在某些情況下,其生成的結(jié)果比人類手工創(chuàng)造的還要好。從社交媒體到游戲,從廣告到建筑,從編程到平面設(shè)計(jì),從產(chǎn)品設(shè)計(jì)到法律,從市場(chǎng)營(yíng)銷(xiāo)到銷(xiāo)售,每一個(gè)需要人類原創(chuàng)力的行業(yè)都將有可能會(huì)被顛覆。某些崗位將完全被生成式AI取代,有些則會(huì)在生成式AI的幫助下更好地促進(jìn)人機(jī)協(xié)作——但總體來(lái)說(shuō),生成式AI將有非常廣泛的終端應(yīng)用市場(chǎng),幫助人們更好、更快并以成本更低的方式去創(chuàng)作。最理想的情況是,生成式AI將會(huì)把創(chuàng)作與知識(shí)類勞動(dòng)的邊際成本降為零,極大提升生產(chǎn)力并創(chuàng)造巨大的經(jīng)濟(jì)價(jià)值——當(dāng)然還有相應(yīng)的市場(chǎng)價(jià)值。
本文由紅杉合伙人Sonya Huang、Pat Grady與生成式AI預(yù)訓(xùn)練模型 GPT-3共同創(chuàng)作完成,正文中的兩幅插圖是由Midjourney生成的,希望這篇人機(jī)合作的文章能為你打開(kāi)一個(gè)充滿創(chuàng)造力的新世界。
每期監(jiān)測(cè)和精編中文視野之外的全球高價(jià)值情報(bào),為你提供先人一步洞察機(jī)會(huì)的新鮮資訊,為你提供升級(jí)思維方式的深度內(nèi)容,是為[ 紅杉匯內(nèi)參 ]。
為什么是現(xiàn)在?
和更廣泛意義上的AI一樣,生成式AI也需要思考“為什么是現(xiàn)在”這樣的問(wèn)題——因?yàn)楝F(xiàn)在有了更好的模型、更多數(shù)據(jù)、可以做更多的計(jì)算。這一方向的發(fā)展變化遠(yuǎn)比我們想象的要快,為了更好理解它當(dāng)下的發(fā)展進(jìn)程,我們不妨先梳理一下它最近的發(fā)展歷史。
第一波發(fā)展浪潮:小模型至上階段(2015年以前)
2015年以前,小模型被認(rèn)為是理解語(yǔ)言的“最先進(jìn)的技術(shù)”。這些小模型更擅長(zhǎng)分析型任務(wù),因此被用于從“預(yù)測(cè)送達(dá)時(shí)間”到“欺詐信息分類”等各類任務(wù)中。然而,對(duì)于通用的生成任務(wù)來(lái)說(shuō),它們的表達(dá)能力還不夠,生成人類水平的文章或代碼仍然是白日做夢(mèng)。
第二波發(fā)展浪潮:規(guī)模化競(jìng)賽階段(2015年-今天)
谷歌研究院的一篇里程碑式的論文《只要注意力機(jī)制就夠了》( 《Attention is All You Need》),向人們描述了一種用于自然語(yǔ)言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)——Transformers模型(有時(shí)翻譯為“變換器”模型),它不但能生成質(zhì)量上乘的語(yǔ)言模型,同時(shí)具有更高的可并行性,大大降低了所需的訓(xùn)練時(shí)間。這些小樣本學(xué)習(xí)模型,可以相對(duì)更容易地針對(duì)特定領(lǐng)域做定制修改。
隨著AI模型逐漸發(fā)展壯大,它們已經(jīng)開(kāi)始超越人類的基準(zhǔn)水平。
當(dāng)然,隨著模型越來(lái)越大,它們開(kāi)始匹敵人類,然后超越人類。從2015年到2020年,用于訓(xùn)練這些模型的計(jì)算量增加了6個(gè)數(shù)量級(jí),其表現(xiàn)在手寫(xiě)、語(yǔ)音和圖像識(shí)別、閱讀理解和語(yǔ)言理解方面超過(guò)了人類的基準(zhǔn)水平。其中OpenAI的GPT-3模型的表現(xiàn)尤為突出:不僅性能相較上一代的GPT-2有了巨大的飛躍,從他們發(fā)布的示例也能看到,不管是生成編程代碼還是寫(xiě)冷笑話,其表現(xiàn)都讓人吃驚。
盡管所有的基礎(chǔ)研究都取得了進(jìn)展,但這些模型在應(yīng)用方面卻都沒(méi)有鋪得太開(kāi)。它們龐大且難以運(yùn)行(需要GPU編排)、缺乏廣泛應(yīng)用(沒(méi)有公開(kāi)可用的版本,或僅有封閉測(cè)試版),而且作為云服務(wù)的使用成本極高。盡管如此,最早期的生成式AI已經(jīng)開(kāi)始進(jìn)入公眾視野。
第三波發(fā)展浪潮:更好、更快、更便宜階段(2022年之后)
首先是計(jì)算成本開(kāi)始下降。新的技術(shù),如擴(kuò)散模型,縮減了訓(xùn)練和運(yùn)行推理所需的成本。與此同時(shí),研究學(xué)界也在持續(xù)開(kāi)發(fā)更好的算法與規(guī)模更大的模型。而開(kāi)發(fā)者的權(quán)限也有了變化,從封閉測(cè)試版擴(kuò)大到開(kāi)放測(cè)試版,甚至有些模型還開(kāi)放了源代碼供開(kāi)發(fā)人員調(diào)用。
對(duì)于那些一直渴望使用大型語(yǔ)言模型(LLM)的開(kāi)發(fā)人員來(lái)說(shuō),探索和應(yīng)用開(kāi)發(fā)的大門(mén)已經(jīng)打開(kāi),基于這些技術(shù)的應(yīng)用開(kāi)始大量涌現(xiàn)。
第四波發(fā)展浪潮:殺手級(jí)應(yīng)用涌現(xiàn)階段(現(xiàn)在)
隨著各大平臺(tái)發(fā)展成熟,AI模型繼續(xù)變得更好、更快、更便宜,越來(lái)越多的模型免費(fèi)、開(kāi)源,應(yīng)用層面將出現(xiàn)大爆發(fā)。
正如當(dāng)初移動(dòng)通信技術(shù)在結(jié)合了GPS定位、相機(jī)及隨身連接等新功能與特點(diǎn)后,催生了一系列新型的應(yīng)用程序,我們預(yù)計(jì)當(dāng)下AI模型的發(fā)展也將推動(dòng)新一輪生成式AI應(yīng)用的爆發(fā)。正如十年前移動(dòng)通信的拐點(diǎn)為少數(shù)幾個(gè)殺手級(jí)應(yīng)用創(chuàng)造了市場(chǎng)機(jī)會(huì)一樣,我們預(yù)計(jì)殺手級(jí)應(yīng)用也將出現(xiàn)在生成式AI領(lǐng)域中。大家爭(zhēng)相發(fā)力,前景讓人期待。
市場(chǎng)格局
下圖為不同細(xì)分方向應(yīng)用的格局分布圖,可以看到各個(gè)細(xì)分方向的應(yīng)用平臺(tái)與應(yīng)用模型。
模型
● 文本領(lǐng)域。文本是發(fā)展最完備的領(lǐng)域。然而,想要語(yǔ)言表達(dá)自然流暢是個(gè)十分高的標(biāo)準(zhǔn)。如今,這些模型在通用的中、短篇寫(xiě)作方面表現(xiàn)還算不錯(cuò)(但即便如此,它們通常也只是被用來(lái)生成初稿或?qū)Τ醺遄龅晟疲kS著時(shí)間的推移,模型越來(lái)越好,我們有望可以看到更高質(zhì)量及更長(zhǎng)篇的內(nèi)容,并且針對(duì)各垂直領(lǐng)域有特定的優(yōu)化。
● 代碼生成。正如GitHub CoPilot所顯示出的效果,很快,代碼生成就會(huì)變得十分普遍,它能極大提高程序開(kāi)發(fā)者的生產(chǎn)力。而對(duì)于非專業(yè)人員,借由這些工具,編寫(xiě)代碼也將不是難事。
● 圖像領(lǐng)域。圖像領(lǐng)域的應(yīng)用爆發(fā)是新近之事,但也可謂勢(shì)不可擋:畢竟,在社交媒體上分享生成的圖像比文字要有趣得多。而且我們也看到,市面上出現(xiàn)了非常多不同審美風(fēng)格的圖像模型,以及編輯和修改生成圖像的不同技術(shù)。
● 語(yǔ)音合成。語(yǔ)音合成的應(yīng)用已經(jīng)有段時(shí)間了(比如蘋(píng)果設(shè)備上的語(yǔ)音助手Siri),但消費(fèi)與企業(yè)級(jí)的應(yīng)用才剛剛起步。對(duì)于像電影和播客這樣的高端應(yīng)用來(lái)說(shuō),要想一次性生成與配音演員或主播錄音一樣不機(jī)械、有自然質(zhì)感的作品,還有很長(zhǎng)的路要走。但就像圖像領(lǐng)域一樣,現(xiàn)在的模型也將成為將來(lái)更優(yōu)秀模型的發(fā)展基礎(chǔ)。
● 視頻和3D模型領(lǐng)域。這一領(lǐng)域的進(jìn)步則要緩慢不少,人們期待AI模型在這些創(chuàng)意領(lǐng)域(如電影、游戲、VR、建筑和實(shí)體產(chǎn)品設(shè)計(jì))的進(jìn)一步應(yīng)用潛力。預(yù)計(jì)在未來(lái)1-2年內(nèi),我們將能看到一些基礎(chǔ)的3D和視頻生成模型。
● 其它領(lǐng)域。其它許多領(lǐng)域還處于基礎(chǔ)模型的研發(fā)階段,如音頻、音樂(lè)到生物與化學(xué)領(lǐng)域。
下圖是這些基本模型的進(jìn)展與相關(guān)應(yīng)用的發(fā)展進(jìn)程時(shí)間表,2025年之后的時(shí)間為預(yù)估時(shí)間。
應(yīng)用
接下來(lái)為你介紹的是一些讓我們感覺(jué)十分興奮的應(yīng)用場(chǎng)景。但實(shí)際上,可應(yīng)用范圍將遠(yuǎn)比本文所描述的多,創(chuàng)始人和開(kāi)發(fā)人員對(duì)于各路應(yīng)用場(chǎng)景的奇思妙想讓我們連連贊嘆。
● 文案寫(xiě)作。日益增長(zhǎng)的個(gè)性化網(wǎng)頁(yè)、電子郵件等網(wǎng)絡(luò)空間,用以支持銷(xiāo)售和營(yíng)銷(xiāo)戰(zhàn)略,甚至提供更好的售后服務(wù),都將催生大量的文案寫(xiě)作需求。這些短小精悍、格式相對(duì)固定的宣傳式話語(yǔ),再加上相關(guān)從業(yè)人員工作壓力大、預(yù)算不高等特點(diǎn),這一領(lǐng)域?qū)⑹俏陌笇?xiě)作型AI實(shí)現(xiàn)自動(dòng)化與寫(xiě)作增強(qiáng)方案的最佳用武之地。
● 特定垂直領(lǐng)域的寫(xiě)作助手。如今大部分寫(xiě)作都是橫向的;但我們相信,對(duì)于特定的終端市場(chǎng),從擬定法律合同到劇本創(chuàng)作,都有可能借助生成式AI的力量獲得更長(zhǎng)足的發(fā)展。在這一領(lǐng)域,產(chǎn)品差異化的主要發(fā)力點(diǎn)將是對(duì)特定工作流程模型和用戶體驗(yàn)?zāi)J降募?xì)節(jié)打磨。
● 代碼生成。如今在該領(lǐng)域,生成式AI的應(yīng)用已經(jīng)帶來(lái)了質(zhì)的提升,程序開(kāi)發(fā)人員的生產(chǎn)力和創(chuàng)造力都被極大增強(qiáng):如今使用GitHubCopilot生成的程序中,有近40%的代碼是由AI生成的。但如果打開(kāi)想象,我們甚至可以設(shè)想,將來(lái)借助更好的生成式AI,普通消費(fèi)者(非專業(yè)程序開(kāi)發(fā)人員)也將有能力自行創(chuàng)作程序代碼。基于提示的學(xué)習(xí)(Learning to prompt,譯注:一種新的AI訓(xùn)練方式)將有可能成為最終的高級(jí)編程語(yǔ)言。
● 藝術(shù)作品生成。如今,不少大型的AI已經(jīng)將整個(gè)藝術(shù)史和流行文化的作品數(shù)據(jù)編碼進(jìn)了模型當(dāng)中,任何人都可以隨意生成——以前可能需要人花一輩子才能掌握的——想要的藝術(shù)風(fēng)格的作品。
● 游戲。最理想的應(yīng)用狀態(tài)是人們可以使用自然語(yǔ)言來(lái)創(chuàng)建復(fù)雜的場(chǎng)景或可操縱的模型;我們離這樣的夢(mèng)想還有很遙遠(yuǎn)的距離,但在短期范圍內(nèi),還是有不少可實(shí)現(xiàn)的場(chǎng)景應(yīng)用,比如生成游戲場(chǎng)景的紋理或Skybox VR場(chǎng)景的圖像等。
● 媒體/廣告。我們大可暢想自動(dòng)化廣告代理的潛力——它將能針對(duì)不同的消費(fèi)者來(lái)優(yōu)化廣告文案與創(chuàng)意。而多模態(tài)生成的應(yīng)用將能更好地針對(duì)不同的銷(xiāo)售信息生成互補(bǔ)性視覺(jué)效果廣告。
● 設(shè)計(jì)。數(shù)字和實(shí)體產(chǎn)品的原型設(shè)計(jì)是一個(gè)勞動(dòng)密集且往往需要不斷反復(fù)修改的過(guò)程。現(xiàn)在的生成性AI已經(jīng)實(shí)現(xiàn)了根據(jù)粗略的草圖與文字描述生成高保真渲染圖。隨著這一技術(shù)往3D模型的方向發(fā)展,生成設(shè)計(jì)過(guò)程將打通從文字到具體產(chǎn)品實(shí)物的全流程。你的下一款手機(jī)應(yīng)用程序,或?qū)?lái)的某雙運(yùn)動(dòng)鞋,說(shuō)不定都將是AI設(shè)計(jì)生成的。
● 社交媒體與數(shù)字社區(qū)。會(huì)不會(huì)有人借助AI生成的方式來(lái)自我表達(dá)呢?當(dāng)然,現(xiàn)在像Midjourney這樣的新應(yīng)用便正在創(chuàng)造新的社交體驗(yàn)——消費(fèi)者可以學(xué)著生成獨(dú)具個(gè)性的作品來(lái)做公共表達(dá)。
生成式AI應(yīng)用解剖
生成式AI應(yīng)用會(huì)是什么樣子呢?這里有一些預(yù)測(cè)可供參考。
智能化與模型微調(diào)
生成式AI應(yīng)用的底層技術(shù)其實(shí)都是GPT-3或Stable Diffusion等大型AI模型。而隨著應(yīng)用程序不斷獲得更多用戶數(shù)據(jù),這些數(shù)據(jù)便可用來(lái)對(duì)模型做更精細(xì)的改進(jìn),以實(shí)現(xiàn)針對(duì)特定問(wèn)題空間改進(jìn)模型質(zhì)量和表現(xiàn)、縮小模型尺寸或降低成本。
我們可以把生成式AI應(yīng)用程序看作UI層(用戶交互界面層)或“小腦”,支撐它運(yùn)行的底層大型通用AI模型才是“大腦”。
實(shí)現(xiàn)形式方面
如今,生成式AI應(yīng)用在很大程度上是以插件的形式存在于現(xiàn)有軟件生態(tài)系統(tǒng)中,通過(guò)IDE(集成開(kāi)發(fā)環(huán)境)運(yùn)行代碼,而通過(guò)Figma或Photoshop之類的應(yīng)用程序來(lái)生成圖像;我們甚至可以設(shè)想,將來(lái)Discord機(jī)器人也將能通過(guò)生成式AI的技術(shù)實(shí)現(xiàn)更廣泛的用途。
此外還有數(shù)量較少的獨(dú)立的生成式AI網(wǎng)絡(luò)應(yīng)用,比如用于文案寫(xiě)作的Jasper和Copy.ai,用于視頻編輯的Runway,以及用于記筆記的Mem。
插件可能會(huì)是個(gè)非常有效的切入口,一方面不需要引入新的應(yīng)用程序,另一方面也以非常聰明的方式避開(kāi)了“先要有雞還是先要有蛋”的問(wèn)題(改善模型需要大量的用戶使用數(shù)據(jù),但另一方面,要有好的模型才能吸引到足夠多的用戶使用)。而目前我們已經(jīng)在消費(fèi)者/社交領(lǐng)域看到了這種推廣策略帶來(lái)的非常好的效果。
交互模式范例
如今,我們看到的大多數(shù)生成式AI的演示都是“一次性作品”:提供一個(gè)輸入量,機(jī)器會(huì)生成一個(gè)輸出,然后你再?zèng)Q定是否保存結(jié)果或者棄掉重來(lái)。隨著越來(lái)越多的模型不斷迭代而變得更強(qiáng),將來(lái)我們能實(shí)現(xiàn)對(duì)輸出作品的修改、完善、升級(jí)或生成不同版本等操作。
現(xiàn)在的生成式AI通常被用來(lái)生成產(chǎn)品原型或初稿。生成式AI通常都很擅長(zhǎng)生成多個(gè)不同版本的作品,人們可以在此基礎(chǔ)上進(jìn)一步創(chuàng)作(如生成多個(gè)不同的圖標(biāo)或建筑設(shè)計(jì)模型);此外,它們也很擅長(zhǎng)為初稿提修改建議,從而幫助用戶更好地完善作品(如博客文章或代碼自動(dòng)補(bǔ)全)。隨著模型變得越來(lái)越智能(當(dāng)然離不開(kāi)大量的用戶使用數(shù)據(jù)),我們有理由期待它們將來(lái)能生成越來(lái)越好的初稿,甚至可以直接生成可作為終稿使用的作品來(lái)。
持續(xù)的細(xì)分類目引領(lǐng)者
通過(guò)不懈加速“更多用戶參與/更多數(shù)據(jù)—更好的模型”這一發(fā)展飛輪,生成式AI公司可以獲得持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì)并最終成長(zhǎng)為行業(yè)最佳。當(dāng)然要注意維護(hù)這一良性循環(huán):①獲得極高的用戶參與度→②獲得更多用戶數(shù)據(jù)以訓(xùn)練出更好的模型(提示改進(jìn)、模型微調(diào)、將用戶行為作為標(biāo)記的訓(xùn)練數(shù)據(jù)等)→③優(yōu)秀的模型吸引更多的用戶并提升參與度。此外,這些AI公司還可以往特定的問(wèn)題空間發(fā)展(如代碼領(lǐng)域、設(shè)計(jì)領(lǐng)域或游戲領(lǐng)域等),而不是非要做得大而全。還可以如前所述,通過(guò)插件的形式整合進(jìn)當(dāng)下目標(biāo)用戶的生產(chǎn)流程中,以此實(shí)現(xiàn)用戶增長(zhǎng)和產(chǎn)品分發(fā),之后再嘗試打造AI原生的工作流程來(lái)替代現(xiàn)有的應(yīng)用程序。找到正確的方式來(lái)打造這些應(yīng)用,積累用戶與數(shù)據(jù),這些都需要時(shí)間,但我們相信,好的產(chǎn)品必然持久,也終將發(fā)展壯大。
困難與風(fēng)險(xiǎn)
盡管生成式AI具有巨大潛力,但在商業(yè)模式和技術(shù)方面仍有許多問(wèn)題需要解決。如版權(quán)、信任與安全以及成本等重要問(wèn)題還遠(yuǎn)未解決。
打開(kāi)想象的邊界
生成式AI仍然處于非常早期的階段。平臺(tái)層面剛剛有些起色,真正的應(yīng)用程序其實(shí)還處于萌芽階段。
但也要知道,我們并不需要大型語(yǔ)言模型寫(xiě)出一部托爾斯泰小說(shuō),才說(shuō)生成式AI獲得了非常好的應(yīng)用。當(dāng)下這些模型已經(jīng)足夠好了,足以用來(lái)生成博客文章的初稿,或商標(biāo)與產(chǎn)品界面原型。而在不遠(yuǎn)的中短期未來(lái),它們也有望創(chuàng)造更大的價(jià)值。
生成式AI應(yīng)用的第一波浪潮有點(diǎn)類似于iPhone剛出現(xiàn)時(shí)的移動(dòng)應(yīng)用格局,多少偏于噱頭,顯得單薄,競(jìng)爭(zhēng)差異化與商業(yè)模式也不明確。然而,其中一些應(yīng)用的確為我們提供了有趣的視角,讓我們可以一窺未來(lái)的可能。一旦你看到過(guò)AI可以生成復(fù)雜的代碼或精彩的圖像,你就很難回到?jīng)]看過(guò)的狀態(tài),因?yàn)槟阒肋@些技術(shù)將來(lái)一定會(huì)成為我們工作與創(chuàng)造的基礎(chǔ),發(fā)揮更重要的作用。
假如盡情暢想幾十年后的未來(lái),我們不難想象彼時(shí)的生成式AI已經(jīng)深刻融入我們的工作、創(chuàng)造與游戲中:自動(dòng)生成的備忘錄;3D打印任何你想象出來(lái)的東西;文字直接生成皮克斯電影;靠想象來(lái)實(shí)時(shí)生成世界場(chǎng)景的游戲體驗(yàn)等等。這些事情如今看來(lái)像是科幻小說(shuō)一般,但我們還是要對(duì)技術(shù)進(jìn)步的速度有信心。要知道,短短幾年時(shí)間,我們便從狹窄的語(yǔ)言模型發(fā)展到了代碼自動(dòng)補(bǔ)全,沿著這樣的發(fā)展思路,如果大型模型也有所謂“摩爾定律”,那么天馬行空般的未來(lái)想象也并非沒(méi)有實(shí)現(xiàn)的可 能。
人類擅長(zhǎng)分析,但機(jī)器做得更好。機(jī)器可以分析數(shù)據(jù),并針對(duì)不同用例需求找到相應(yīng)的規(guī)律——不管是詐騙信息識(shí)別、垃圾郵件檢測(cè)、預(yù)測(cè)快遞送達(dá)時(shí)間還是為你推薦可能感興趣的短視頻——而且它們還在不斷迭代,變得越來(lái)越聰明。這種機(jī)器被稱為“分析式人工智能”(Analytical AI),或者傳統(tǒng)AI。
但人類不僅擅長(zhǎng)分析,還擅長(zhǎng)創(chuàng)造——比如寫(xiě)詩(shī)、設(shè)計(jì)產(chǎn)品、制作游戲與編寫(xiě)程序代碼。以前,機(jī)器在這些方面無(wú)法與人類抗衡,它們只能做些分析型或機(jī)械式的認(rèn)知計(jì)算。但現(xiàn)在不一樣了,AI發(fā)展到了新的階段,機(jī)器已經(jīng)開(kāi)始可以創(chuàng)造有意義并具備美感的東西了。這一新型的AI被稱為“生成式人工智能”(Generative AI),也就是說(shuō),機(jī)器并非如之前那樣僅分析已有的數(shù)據(jù),而是生成了全新的東西。
生成式AI不僅正在變得更快、更便宜,而且在某些情況下,其生成的結(jié)果比人類手工創(chuàng)造的還要好。從社交媒體到游戲,從廣告到建筑,從編程到平面設(shè)計(jì),從產(chǎn)品設(shè)計(jì)到法律,從市場(chǎng)營(yíng)銷(xiāo)到銷(xiāo)售,每一個(gè)需要人類原創(chuàng)力的行業(yè)都將有可能會(huì)被顛覆。某些崗位將完全被生成式AI取代,有些則會(huì)在生成式AI的幫助下更好地促進(jìn)人機(jī)協(xié)作——但總體來(lái)說(shuō),生成式AI將有非常廣泛的終端應(yīng)用市場(chǎng),幫助人們更好、更快并以成本更低的方式去創(chuàng)作。最理想的情況是,生成式AI將會(huì)把創(chuàng)作與知識(shí)類勞動(dòng)的邊際成本降為零,極大提升生產(chǎn)力并創(chuàng)造巨大的經(jīng)濟(jì)價(jià)值——當(dāng)然還有相應(yīng)的市場(chǎng)價(jià)值。
本文由紅杉合伙人Sonya Huang、Pat Grady與生成式AI預(yù)訓(xùn)練模型 GPT-3共同創(chuàng)作完成,正文中的兩幅插圖是由Midjourney生成的,希望這篇人機(jī)合作的文章能為你打開(kāi)一個(gè)充滿創(chuàng)造力的新世界。
每期監(jiān)測(cè)和精編中文視野之外的全球高價(jià)值情報(bào),為你提供先人一步洞察機(jī)會(huì)的新鮮資訊,為你提供升級(jí)思維方式的深度內(nèi)容,是為[ 紅杉匯內(nèi)參 ]。
為什么是現(xiàn)在?
和更廣泛意義上的AI一樣,生成式AI也需要思考“為什么是現(xiàn)在”這樣的問(wèn)題——因?yàn)楝F(xiàn)在有了更好的模型、更多數(shù)據(jù)、可以做更多的計(jì)算。這一方向的發(fā)展變化遠(yuǎn)比我們想象的要快,為了更好理解它當(dāng)下的發(fā)展進(jìn)程,我們不妨先梳理一下它最近的發(fā)展歷史。
第一波發(fā)展浪潮:小模型至上階段(2015年以前)
2015年以前,小模型被認(rèn)為是理解語(yǔ)言的“最先進(jìn)的技術(shù)”。這些小模型更擅長(zhǎng)分析型任務(wù),因此被用于從“預(yù)測(cè)送達(dá)時(shí)間”到“欺詐信息分類”等各類任務(wù)中。然而,對(duì)于通用的生成任務(wù)來(lái)說(shuō),它們的表達(dá)能力還不夠,生成人類水平的文章或代碼仍然是白日做夢(mèng)。
第二波發(fā)展浪潮:規(guī)模化競(jìng)賽階段(2015年-今天)
谷歌研究院的一篇里程碑式的論文《只要注意力機(jī)制就夠了》( 《Attention is All You Need》),向人們描述了一種用于自然語(yǔ)言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)——Transformers模型(有時(shí)翻譯為“變換器”模型),它不但能生成質(zhì)量上乘的語(yǔ)言模型,同時(shí)具有更高的可并行性,大大降低了所需的訓(xùn)練時(shí)間。這些小樣本學(xué)習(xí)模型,可以相對(duì)更容易地針對(duì)特定領(lǐng)域做定制修改。
隨著AI模型逐漸發(fā)展壯大,它們已經(jīng)開(kāi)始超越人類的基準(zhǔn)水平。
當(dāng)然,隨著模型越來(lái)越大,它們開(kāi)始匹敵人類,然后超越人類。從2015年到2020年,用于訓(xùn)練這些模型的計(jì)算量增加了6個(gè)數(shù)量級(jí),其表現(xiàn)在手寫(xiě)、語(yǔ)音和圖像識(shí)別、閱讀理解和語(yǔ)言理解方面超過(guò)了人類的基準(zhǔn)水平。其中OpenAI的GPT-3模型的表現(xiàn)尤為突出:不僅性能相較上一代的GPT-2有了巨大的飛躍,從他們發(fā)布的示例也能看到,不管是生成編程代碼還是寫(xiě)冷笑話,其表現(xiàn)都讓人吃驚。
盡管所有的基礎(chǔ)研究都取得了進(jìn)展,但這些模型在應(yīng)用方面卻都沒(méi)有鋪得太開(kāi)。它們龐大且難以運(yùn)行(需要GPU編排)、缺乏廣泛應(yīng)用(沒(méi)有公開(kāi)可用的版本,或僅有封閉測(cè)試版),而且作為云服務(wù)的使用成本極高。盡管如此,最早期的生成式AI已經(jīng)開(kāi)始進(jìn)入公眾視野。
第三波發(fā)展浪潮:更好、更快、更便宜階段(2022年之后)
首先是計(jì)算成本開(kāi)始下降。新的技術(shù),如擴(kuò)散模型,縮減了訓(xùn)練和運(yùn)行推理所需的成本。與此同時(shí),研究學(xué)界也在持續(xù)開(kāi)發(fā)更好的算法與規(guī)模更大的模型。而開(kāi)發(fā)者的權(quán)限也有了變化,從封閉測(cè)試版擴(kuò)大到開(kāi)放測(cè)試版,甚至有些模型還開(kāi)放了源代碼供開(kāi)發(fā)人員調(diào)用。
對(duì)于那些一直渴望使用大型語(yǔ)言模型(LLM)的開(kāi)發(fā)人員來(lái)說(shuō),探索和應(yīng)用開(kāi)發(fā)的大門(mén)已經(jīng)打開(kāi),基于這些技術(shù)的應(yīng)用開(kāi)始大量涌現(xiàn)。
用Midjourney生成的插圖。
第四波發(fā)展浪潮:殺手級(jí)應(yīng)用涌現(xiàn)階段(現(xiàn)在)
隨著各大平臺(tái)發(fā)展成熟,AI模型繼續(xù)變得更好、更快、更便宜,越來(lái)越多的模型免費(fèi)、開(kāi)源,應(yīng)用層面將出現(xiàn)大爆發(fā)。
正如當(dāng)初移動(dòng)通信技術(shù)在結(jié)合了GPS定位、相機(jī)及隨身連接等新功能與特點(diǎn)后,催生了一系列新型的應(yīng)用程序,我們預(yù)計(jì)當(dāng)下AI模型的發(fā)展也將推動(dòng)新一輪生成式AI應(yīng)用的爆發(fā)。正如十年前移動(dòng)通信的拐點(diǎn)為少數(shù)幾個(gè)殺手級(jí)應(yīng)用創(chuàng)造了市場(chǎng)機(jī)會(huì)一樣,我們預(yù)計(jì)殺手級(jí)應(yīng)用也將出現(xiàn)在生成式AI領(lǐng)域中。大家爭(zhēng)相發(fā)力,前景讓人期待。
市場(chǎng)格局
下圖為不同細(xì)分方向應(yīng)用的格局分布圖,可以看到各個(gè)細(xì)分方向的應(yīng)用平臺(tái)與應(yīng)用模型。
模型
● 文本領(lǐng)域。文本是發(fā)展最完備的領(lǐng)域。然而,想要語(yǔ)言表達(dá)自然流暢是個(gè)十分高的標(biāo)準(zhǔn)。如今,這些模型在通用的中、短篇寫(xiě)作方面表現(xiàn)還算不錯(cuò)(但即便如此,它們通常也只是被用來(lái)生成初稿或?qū)Τ醺遄龅晟疲kS著時(shí)間的推移,模型越來(lái)越好,我們有望可以看到更高質(zhì)量及更長(zhǎng)篇的內(nèi)容,并且針對(duì)各垂直領(lǐng)域有特定的優(yōu)化。
● 代碼生成。正如GitHub CoPilot所顯示出的效果,很快,代碼生成就會(huì)變得十分普遍,它能極大提高程序開(kāi)發(fā)者的生產(chǎn)力。而對(duì)于非專業(yè)人員,借由這些工具,編寫(xiě)代碼也將不是難事。
● 圖像領(lǐng)域。圖像領(lǐng)域的應(yīng)用爆發(fā)是新近之事,但也可謂勢(shì)不可擋:畢竟,在社交媒體上分享生成的圖像比文字要有趣得多。而且我們也看到,市面上出現(xiàn)了非常多不同審美風(fēng)格的圖像模型,以及編輯和修改生成圖像的不同技術(shù)。
● 語(yǔ)音合成。語(yǔ)音合成的應(yīng)用已經(jīng)有段時(shí)間了(比如蘋(píng)果設(shè)備上的語(yǔ)音助手Siri),但消費(fèi)與企業(yè)級(jí)的應(yīng)用才剛剛起步。對(duì)于像電影和播客這樣的高端應(yīng)用來(lái)說(shuō),要想一次性生成與配音演員或主播錄音一樣不機(jī)械、有自然質(zhì)感的作品,還有很長(zhǎng)的路要走。但就像圖像領(lǐng)域一樣,現(xiàn)在的模型也將成為將來(lái)更優(yōu)秀模型的發(fā)展基礎(chǔ)。
● 視頻和3D模型領(lǐng)域。這一領(lǐng)域的進(jìn)步則要緩慢不少,人們期待AI模型在這些創(chuàng)意領(lǐng)域(如電影、游戲、VR、建筑和實(shí)體產(chǎn)品設(shè)計(jì))的進(jìn)一步應(yīng)用潛力。預(yù)計(jì)在未來(lái)1-2年內(nèi),我們將能看到一些基礎(chǔ)的3D和視頻生成模型。
● 其它領(lǐng)域。其它許多領(lǐng)域還處于基礎(chǔ)模型的研發(fā)階段,如音頻、音樂(lè)到生物與化學(xué)領(lǐng)域。
下圖是這些基本模型的進(jìn)展與相關(guān)應(yīng)用的發(fā)展進(jìn)程時(shí)間表,2025年之后的時(shí)間為預(yù)估時(shí)間。
應(yīng)用
接下來(lái)為你介紹的是一些讓我們感覺(jué)十分興奮的應(yīng)用場(chǎng)景。但實(shí)際上,可應(yīng)用范圍將遠(yuǎn)比本文所描述的多,創(chuàng)始人和開(kāi)發(fā)人員對(duì)于各路應(yīng)用場(chǎng)景的奇思妙想讓我們連連贊嘆。
● 文案寫(xiě)作。日益增長(zhǎng)的個(gè)性化網(wǎng)頁(yè)、電子郵件等網(wǎng)絡(luò)空間,用以支持銷(xiāo)售和營(yíng)銷(xiāo)戰(zhàn)略,甚至提供更好的售后服務(wù),都將催生大量的文案寫(xiě)作需求。這些短小精悍、格式相對(duì)固定的宣傳式話語(yǔ),再加上相關(guān)從業(yè)人員工作壓力大、預(yù)算不高等特點(diǎn),這一領(lǐng)域?qū)⑹俏陌笇?xiě)作型AI實(shí)現(xiàn)自動(dòng)化與寫(xiě)作增強(qiáng)方案的最佳用武之地。
● 特定垂直領(lǐng)域的寫(xiě)作助手。如今大部分寫(xiě)作都是橫向的;但我們相信,對(duì)于特定的終端市場(chǎng),從擬定法律合同到劇本創(chuàng)作,都有可能借助生成式AI的力量獲得更長(zhǎng)足的發(fā)展。在這一領(lǐng)域,產(chǎn)品差異化的主要發(fā)力點(diǎn)將是對(duì)特定工作流程模型和用戶體驗(yàn)?zāi)J降募?xì)節(jié)打磨。
● 代碼生成。如今在該領(lǐng)域,生成式AI的應(yīng)用已經(jīng)帶來(lái)了質(zhì)的提升,程序開(kāi)發(fā)人員的生產(chǎn)力和創(chuàng)造力都被極大增強(qiáng):如今使用GitHubCopilot生成的程序中,有近40%的代碼是由AI生成的。但如果打開(kāi)想象,我們甚至可以設(shè)想,將來(lái)借助更好的生成式AI,普通消費(fèi)者(非專業(yè)程序開(kāi)發(fā)人員)也將有能力自行創(chuàng)作程序代碼。基于提示的學(xué)習(xí)(Learning to prompt,譯注:一種新的AI訓(xùn)練方式)將有可能成為最終的高級(jí)編程語(yǔ)言。
● 藝術(shù)作品生成。如今,不少大型的AI已經(jīng)將整個(gè)藝術(shù)史和流行文化的作品數(shù)據(jù)編碼進(jìn)了模型當(dāng)中,任何人都可以隨意生成——以前可能需要人花一輩子才能掌握的——想要的藝術(shù)風(fēng)格的作品。
● 游戲。最理想的應(yīng)用狀態(tài)是人們可以使用自然語(yǔ)言來(lái)創(chuàng)建復(fù)雜的場(chǎng)景或可操縱的模型;我們離這樣的夢(mèng)想還有很遙遠(yuǎn)的距離,但在短期范圍內(nèi),還是有不少可實(shí)現(xiàn)的場(chǎng)景應(yīng)用,比如生成游戲場(chǎng)景的紋理或Skybox VR場(chǎng)景的圖像等。
● 媒體/廣告。我們大可暢想自動(dòng)化廣告代理的潛力——它將能針對(duì)不同的消費(fèi)者來(lái)優(yōu)化廣告文案與創(chuàng)意。而多模態(tài)生成的應(yīng)用將能更好地針對(duì)不同的銷(xiāo)售信息生成互補(bǔ)性視覺(jué)效果廣告。
● 設(shè)計(jì)。數(shù)字和實(shí)體產(chǎn)品的原型設(shè)計(jì)是一個(gè)勞動(dòng)密集且往往需要不斷反復(fù)修改的過(guò)程。現(xiàn)在的生成性AI已經(jīng)實(shí)現(xiàn)了根據(jù)粗略的草圖與文字描述生成高保真渲染圖。隨著這一技術(shù)往3D模型的方向發(fā)展,生成設(shè)計(jì)過(guò)程將打通從文字到具體產(chǎn)品實(shí)物的全流程。你的下一款手機(jī)應(yīng)用程序,或?qū)?lái)的某雙運(yùn)動(dòng)鞋,說(shuō)不定都將是AI設(shè)計(jì)生成的。
● 社交媒體與數(shù)字社區(qū)。會(huì)不會(huì)有人借助AI生成的方式來(lái)自我表達(dá)呢?當(dāng)然,現(xiàn)在像Midjourney這樣的新應(yīng)用便正在創(chuàng)造新的社交體驗(yàn)——消費(fèi)者可以學(xué)著生成獨(dú)具個(gè)性的作品來(lái)做公共表達(dá)。
用Midjourney生成的插圖。
生成式AI應(yīng)用解剖
生成式AI應(yīng)用會(huì)是什么樣子呢?這里有一些預(yù)測(cè)可供參考。
智能化與模型微調(diào)
生成式AI應(yīng)用的底層技術(shù)其實(shí)都是GPT-3或Stable Diffusion等大型AI模型。而隨著應(yīng)用程序不斷獲得更多用戶數(shù)據(jù),這些數(shù)據(jù)便可用來(lái)對(duì)模型做更精細(xì)的改進(jìn),以實(shí)現(xiàn)針對(duì)特定問(wèn)題空間改進(jìn)模型質(zhì)量和表現(xiàn)、縮小模型尺寸或降低成本。
我們可以把生成式AI應(yīng)用程序看作UI層(用戶交互界面層)或“小腦”,支撐它運(yùn)行的底層大型通用AI模型才是“大腦”。
實(shí)現(xiàn)形式方面
如今,生成式AI應(yīng)用在很大程度上是以插件的形式存在于現(xiàn)有軟件生態(tài)系統(tǒng)中,通過(guò)IDE(集成開(kāi)發(fā)環(huán)境)運(yùn)行代碼,而通過(guò)Figma或Photoshop之類的應(yīng)用程序來(lái)生成圖像;我們甚至可以設(shè)想,將來(lái)Discord機(jī)器人也將能通過(guò)生成式AI的技術(shù)實(shí)現(xiàn)更廣泛的用途。
此外還有數(shù)量較少的獨(dú)立的生成式AI網(wǎng)絡(luò)應(yīng)用,比如用于文案寫(xiě)作的Jasper和Copy.ai,用于視頻編輯的Runway,以及用于記筆記的Mem。
插件可能會(huì)是個(gè)非常有效的切入口,一方面不需要引入新的應(yīng)用程序,另一方面也以非常聰明的方式避開(kāi)了“先要有雞還是先要有蛋”的問(wèn)題(改善模型需要大量的用戶使用數(shù)據(jù),但另一方面,要有好的模型才能吸引到足夠多的用戶使用)。而目前我們已經(jīng)在消費(fèi)者/社交領(lǐng)域看到了這種推廣策略帶來(lái)的非常好的效果。
交互模式范例
如今,我們看到的大多數(shù)生成式AI的演示都是“一次性作品”:提供一個(gè)輸入量,機(jī)器會(huì)生成一個(gè)輸出,然后你再?zèng)Q定是否保存結(jié)果或者棄掉重來(lái)。隨著越來(lái)越多的模型不斷迭代而變得更強(qiáng),將來(lái)我們能實(shí)現(xiàn)對(duì)輸出作品的修改、完善、升級(jí)或生成不同版本等操作。
現(xiàn)在的生成式AI通常被用來(lái)生成產(chǎn)品原型或初稿。生成式AI通常都很擅長(zhǎng)生成多個(gè)不同版本的作品,人們可以在此基礎(chǔ)上進(jìn)一步創(chuàng)作(如生成多個(gè)不同的圖標(biāo)或建筑設(shè)計(jì)模型);此外,它們也很擅長(zhǎng)為初稿提修改建議,從而幫助用戶更好地完善作品(如博客文章或代碼自動(dòng)補(bǔ)全)。隨著模型變得越來(lái)越智能(當(dāng)然離不開(kāi)大量的用戶使用數(shù)據(jù)),我們有理由期待它們將來(lái)能生成越來(lái)越好的初稿,甚至可以直接生成可作為終稿使用的作品來(lái)。
持續(xù)的細(xì)分類目引領(lǐng)者
通過(guò)不懈加速“更多用戶參與/更多數(shù)據(jù)—更好的模型”這一發(fā)展飛輪,生成式AI公司可以獲得持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì)并最終成長(zhǎng)為行業(yè)最佳。當(dāng)然要注意維護(hù)這一良性循環(huán):①獲得極高的用戶參與度→②獲得更多用戶數(shù)據(jù)以訓(xùn)練出更好的模型(提示改進(jìn)、模型微調(diào)、將用戶行為作為標(biāo)記的訓(xùn)練數(shù)據(jù)等)→③優(yōu)秀的模型吸引更多的用戶并提升參與度。此外,這些AI公司還可以往特定的問(wèn)題空間發(fā)展(如代碼領(lǐng)域、設(shè)計(jì)領(lǐng)域或游戲領(lǐng)域等),而不是非要做得大而全。還可以如前所述,通過(guò)插件的形式整合進(jìn)當(dāng)下目標(biāo)用戶的生產(chǎn)流程中,以此實(shí)現(xiàn)用戶增長(zhǎng)和產(chǎn)品分發(fā),之后再嘗試打造AI原生的工作流程來(lái)替代現(xiàn)有的應(yīng)用程序。找到正確的方式來(lái)打造這些應(yīng)用,積累用戶與數(shù)據(jù),這些都需要時(shí)間,但我們相信,好的產(chǎn)品必然持久,也終將發(fā)展壯大。
困難與風(fēng)險(xiǎn)
盡管生成式AI具有巨大潛力,但在商業(yè)模式和技術(shù)方面仍有許多問(wèn)題需要解決。如版權(quán)、信任與安全以及成本等重要問(wèn)題還遠(yuǎn)未解決。
打開(kāi)想象的邊界
生成式AI仍然處于非常早期的階段。平臺(tái)層面剛剛有些起色,真正的應(yīng)用程序其實(shí)還處于萌芽階段。
但也要知道,我們并不需要大型語(yǔ)言模型寫(xiě)出一部托爾斯泰小說(shuō),才說(shuō)生成式AI獲得了非常好的應(yīng)用。當(dāng)下這些模型已經(jīng)足夠好了,足以用來(lái)生成博客文章的初稿,或商標(biāo)與產(chǎn)品界面原型。而在不遠(yuǎn)的中短期未來(lái),它們也有望創(chuàng)造更大的價(jià)值。
生成式AI應(yīng)用的第一波浪潮有點(diǎn)類似于iPhone剛出現(xiàn)時(shí)的移動(dòng)應(yīng)用格局,多少偏于噱頭,顯得單薄,競(jìng)爭(zhēng)差異化與商業(yè)模式也不明確。然而,其中一些應(yīng)用的確為我們提供了有趣的視角,讓我們可以一窺未來(lái)的可能。一旦你看到過(guò)AI可以生成復(fù)雜的代碼或精彩的圖像,你就很難回到?jīng)]看過(guò)的狀態(tài),因?yàn)槟阒肋@些技術(shù)將來(lái)一定會(huì)成為我們工作與創(chuàng)造的基礎(chǔ),發(fā)揮更重要的作用。
假如盡情暢想幾十年后的未來(lái),我們不難想象彼時(shí)的生成式AI已經(jīng)深刻融入我們的工作、創(chuàng)造與游戲中:自動(dòng)生成的備忘錄;3D打印任何你想象出來(lái)的東西;文字直接生成皮克斯電影;靠想象來(lái)實(shí)時(shí)生成世界場(chǎng)景的游戲體驗(yàn)等等。這些事情如今看來(lái)像是科幻小說(shuō)一般,但我們還是要對(duì)技術(shù)進(jìn)步的速度有信心。要知道,短短幾年時(shí)間,我們便從狹窄的語(yǔ)言模型發(fā)展到了代碼自動(dòng)補(bǔ)全,沿著這樣的發(fā)展思路,如果大型模型也有所謂“摩爾定律”,那么天馬行空般的未來(lái)想象也并非沒(méi)有實(shí)現(xiàn)的可 能。