這可能是人工智能概念提出70年來,最魔幻的半年——上半段各路大神下場(chǎng)卡位,互聯(lián)網(wǎng)傳奇回歸,廣發(fā)英雄帖“搶人”;下半段潮水漸退,人們迅速意識(shí)到,大模型不是神,落地才是它的終極歸宿。
華為輪值董事長胡厚崑概括出了當(dāng)下入局大模型的企業(yè)在做的兩件大事,做大模型以及做大模型在不同行業(yè)的應(yīng)用,所謂“AI for science,AI for industry”。拓爾思總裁施水才直言,大模型的較量已經(jīng)從比參數(shù)、拼算力、秀牛人過渡到了講落地、謀收入、求價(jià)值。
“局中人”那些分享里,有對(duì)大模型帶來革命性變革的興奮,也有對(duì)技術(shù)、安全、基礎(chǔ)設(shè)施等的冷靜思考。但這些并不妨礙諸多共識(shí)的達(dá)成,比如大模型絕不是一場(chǎng)華麗的煙花秀,它可能會(huì)重塑每一個(gè)行業(yè),未來基礎(chǔ)大模型和行業(yè)大模型將實(shí)現(xiàn)錯(cuò)位互補(bǔ)。
(資料圖片僅供參考)
找行業(yè),找場(chǎng)景,找價(jià)值,圍觀為期三天的世界人工智能大會(huì),這一點(diǎn)變得越發(fā)明確。北京商報(bào)記者通過各種機(jī)會(huì)各種場(chǎng)合“對(duì)話局中人”,既為近距離觀察大模型提供了一個(gè)切口,也足以意識(shí)到,大模型“落入俗套”的開始,或許也正是人工智能真正賦能生產(chǎn)力的開始。
百度集團(tuán)科技與社會(huì)研究中心主任余歡
做大模型不是為了“打榜”
ChatGPT剛推出的前幾個(gè)月,包括文心一言與大家見面的時(shí)候,人們確實(shí)存在各種各樣的甚至有些不切實(shí)際的期待。但經(jīng)歷了一段時(shí)期的發(fā)展,人們?cè)趪L試將其落地的過程中,也發(fā)現(xiàn)一些原本認(rèn)為大有可為的事情可能短期內(nèi)很難實(shí)現(xiàn),于是逐漸放棄了一些不合理的幻想。這就回到了最現(xiàn)實(shí)也最原始的問題,即我們要拿大模型做什么以及能不能做成,這個(gè)過程自然“擠掉”了一些新技術(shù)剛出現(xiàn)時(shí)帶出的泡沫。
至于“買預(yù)期”的資本市場(chǎng),本身就會(huì)存在一定的泡沫。任何一種新技術(shù)的出現(xiàn)都會(huì)伴隨泡沫的產(chǎn)生。泡沫代表著期待與未來,我們與其關(guān)注泡沫的大小,不如關(guān)注泡沫是會(huì)砰地一下爆炸,還是會(huì)逐漸收縮后實(shí)現(xiàn)良性發(fā)展。
從長期來看,這一波AI的確定性非常高,只是無法一蹴而就的跨越式發(fā)展,一些場(chǎng)景的落地可能還需要更長時(shí)間的打磨。事實(shí)上,大模型的to B產(chǎn)業(yè)落地并不是那么功利性的,也不像C端應(yīng)用,會(huì)在極短時(shí)間內(nèi)膨脹成一個(gè)“爆款”。最重要的是,我們要給大模型更多的耐心,給它一定的時(shí)間去發(fā)展。
雖然現(xiàn)在看起來大模型發(fā)展飛速,但整體上來說還處于剛剛通過“預(yù)賽”階段。也就是說我們要在全球范圍內(nèi)參與競(jìng)爭(zhēng),首先要有上牌桌的能力,當(dāng)下只能說是第一波海選結(jié)束了,一些選手突圍,可以參與后面更見實(shí)力的競(jìng)爭(zhēng)了。
從這個(gè)意義上說,正賽階段可能也只是剛開始。以ChatGPT、文心一言為代表的大模型,只是通用人工智能這個(gè)大方向的一個(gè)起點(diǎn),讓大家看到了一些可能性,即便是“中點(diǎn)”也相去甚遠(yuǎn),畢竟全球范圍內(nèi)AI原生應(yīng)用都尚未大規(guī)模落地。
下一個(gè)階段,拼的就是體系化的實(shí)力了。未來,作出千億級(jí)參數(shù)的模型可能并沒有那么高的門檻,但做大模型不只是為了比賽“打榜”,最終的目的仍然是要與產(chǎn)業(yè)相結(jié)合,這樣才能體現(xiàn)出價(jià)值。實(shí)現(xiàn)這一目標(biāo),要拼技術(shù),但也不能只拼技術(shù),更需要看行業(yè)理解、服務(wù)能力和生態(tài)繁榮度。
九章云極DataCanvas聯(lián)合創(chuàng)始人尚明棟
未來會(huì)有更多垂類模型落地并形成標(biāo)桿示范
大模型的行業(yè)應(yīng)用落地正處于起步階段,這個(gè)階段既充滿了挑戰(zhàn),又充滿了機(jī)遇。一方面,企業(yè)需要準(zhǔn)備算力、數(shù)據(jù)以及基礎(chǔ)軟件設(shè)施的升級(jí),以適應(yīng)大模型的需求;另一方面,大模型作為一種新事物,需要找到最容易體現(xiàn)其價(jià)值的業(yè)務(wù)場(chǎng)景結(jié)合點(diǎn)。
目前,大模型仍然面臨著算力成本高的問題。通識(shí)模型至少需要擁有千億參數(shù)規(guī)模以上,而垂類大模型的參數(shù)規(guī)模在70億-300億之間已經(jīng)足夠勝任。同時(shí),隨著AI基礎(chǔ)軟件的算力調(diào)度和優(yōu)化以及訓(xùn)練數(shù)據(jù)集質(zhì)量的提升,大模型的訓(xùn)練、推理和管理成本正在逐步降低。
當(dāng)我們真正將大模型的能力應(yīng)用于各行各業(yè)時(shí),大模型必然已經(jīng)具備了低成本、便攜性以及自主可控等條件。垂類模型的行業(yè)落地需要一個(gè)快速嘗試、驗(yàn)證、調(diào)整、再迭代的過程。未來的半年將會(huì)有更多與行業(yè)結(jié)合的場(chǎng)景落地,從而形成行業(yè)的標(biāo)桿示范。
這些先行行業(yè)往往是那些已經(jīng)具備了一定小模型基礎(chǔ)的企業(yè),因此在大模型時(shí)代可以更加緊湊地將模型與業(yè)務(wù)結(jié)合起來,加速迭代過程。如果說0-1階段是像小馬過河般的探索階段,那么基于現(xiàn)有的數(shù)據(jù)、算力以及AI基礎(chǔ)軟件等基礎(chǔ)設(shè)施,1-10階段將會(huì)是一個(gè)更加快速的普及過程。
云天勵(lì)飛副總裁、AI技術(shù)平臺(tái)總經(jīng)理肖嶸
可以考慮制定評(píng)測(cè)標(biāo)準(zhǔn)考驗(yàn)大模型“三觀”
傳統(tǒng)的模型是訓(xùn)練一個(gè)模型只能做一件事,但生成式模型的特點(diǎn)是可以做通用性的應(yīng)用,優(yōu)點(diǎn)是通用,缺點(diǎn)就是準(zhǔn)確性偏低,所以也就造成了生成式模型“幻覺”等情況的出現(xiàn)。
而且大模型的邏輯性也很弱,這就導(dǎo)致大模型在文生圖、翻譯、會(huì)議摘要等對(duì)準(zhǔn)確性要求不高的場(chǎng)景中展現(xiàn)的能力還不錯(cuò),但在一些對(duì)精度要求比較高的場(chǎng)景,如決策等方面的能力,依然還比較有限。
這就需要解決四個(gè)問題。首先是事實(shí)確認(rèn)和引用,需要確保事實(shí)能夠有效溯源。第二是工具的使用和外部知識(shí)整合,讓語言模型知道什么時(shí)候調(diào)用什么樣的工具、怎樣調(diào)用工具、返回結(jié)果后又怎樣整合到回復(fù)中。第三是邏輯推理,我們需要研究是否有更系統(tǒng)性的方法針對(duì)性地提升這方面能力。
第四就是持續(xù)學(xué)習(xí),現(xiàn)在大模型結(jié)束一輪對(duì)話后,再開啟新的對(duì)話,可能就會(huì)遺忘之前的內(nèi)容。這種遺忘更多不是技術(shù)上要求的必須遺忘,而是我們并沒有很好地解決這種學(xué)習(xí)問題,仍要擔(dān)心大模型被“帶跑偏”。但其實(shí)學(xué)習(xí)能力是很重要的一件事,如果在一個(gè)新的問題上,通用智能的能力與人類還差一大截,那一定不能稱為真正的智能。所以大模型就需要擁有持續(xù)學(xué)習(xí)的能力,并且能夠在場(chǎng)景中提升這種能力,最終趕上人類或者超過人類,才能使模型真正具有價(jià)值。
而且大模型也會(huì)存在一定的安全問題,我們?cè)谟?xùn)練模型后,這些數(shù)據(jù)都有泄露的風(fēng)險(xiǎn)。而且大模型在學(xué)習(xí)的過程中,如果“喂”的數(shù)據(jù)帶有偏見,大模型也會(huì)對(duì)此進(jìn)行吸收,進(jìn)而形成自己的世界觀、價(jià)值觀,如果數(shù)據(jù)有問題的話,學(xué)出來的東西自然就是有問題的。為了解決這種安全問題,可以考慮通過制定評(píng)測(cè)標(biāo)準(zhǔn)、設(shè)置準(zhǔn)入機(jī)制等,去考驗(yàn)大模型的“三觀”是否有害。
英偉達(dá)中國區(qū)首席技術(shù)官賴俊杰
整體能耗將節(jié)省更多
過去6-10個(gè)月,我們觀察到全球數(shù)據(jù)中心在計(jì)算問題上呈現(xiàn)出了兩個(gè)重要的趨勢(shì),第一是以ChatGPT為代表的應(yīng)用大大提升了人們對(duì)人機(jī)交互能達(dá)到的高度的期待,并在全球產(chǎn)學(xué)研等領(lǐng)域引發(fā)了巨大浪潮,也引發(fā)了人們對(duì)于通用人工智能更多的思考和討論。
第二點(diǎn)就是很多大型公司,特別是大型互聯(lián)網(wǎng)公司,在面對(duì)越來越多的業(yè)務(wù)需求、用戶請(qǐng)求時(shí),逐漸遭遇功耗瓶頸。也就是說數(shù)據(jù)中心計(jì)算任務(wù)里面,人工智能大模型、AIGC應(yīng)用占比越來越高,對(duì)算力的要求也日漸提升,而算力也在一定程度上意味著更多能耗的投入。
針對(duì)第二個(gè)趨勢(shì),英偉達(dá)認(rèn)為,在支撐同樣多用戶請(qǐng)求的前提下,如果能夠?qū)⒏嗳蝿?wù)負(fù)載從CPU移植到GPU上,整體能耗將會(huì)節(jié)省很多。
當(dāng)然這也不意味著GPU適合所有類型的工作負(fù)載。GPU設(shè)計(jì)之初主要面向并發(fā)度比較高或者計(jì)算密集度比較高的并行類應(yīng)用程序,我們?nèi)匀恍枰肅PU去進(jìn)行一般問題的解決。而且最近還出現(xiàn)一種趨勢(shì),即為了能夠讓CPU、GPU不同類型處理器之間高效且安全地傳輸數(shù)據(jù),數(shù)據(jù)中心內(nèi)部還需要一類新的處理器DPU。
以前程序員在程序設(shè)計(jì)的時(shí)候,大多數(shù)時(shí)候只是抽象出一臺(tái)計(jì)算機(jī),擴(kuò)充編程目標(biāo)更多面向的一個(gè)CPU。但隨著人工智能、機(jī)器學(xué)習(xí),特別是大模型在不同行業(yè)的應(yīng)用,程序員在做分布式訓(xùn)練等任務(wù)的時(shí)候,要考慮的就不僅僅是一臺(tái)計(jì)算機(jī)或者一顆CPU那么簡(jiǎn)單,而是要考慮整個(gè)數(shù)據(jù)中心如何高效利用起來,也就是說,數(shù)據(jù)中心越來越成為新的計(jì)算單元。
螞蟻集團(tuán)機(jī)器智能部副總經(jīng)理、螞蟻安全天筭實(shí)驗(yàn)室主任張?zhí)煲?/b>
大模型的風(fēng)險(xiǎn)解決沒有靈丹妙藥
大模型帶來的長遠(yuǎn)價(jià)值已經(jīng)成為一種共識(shí),在算力、數(shù)據(jù)等方面,一些大公司可能會(huì)有先發(fā)優(yōu)勢(shì),但大模型同時(shí)帶來的也是全生態(tài)的機(jī)會(huì),一些很小的企業(yè)也可能在下游應(yīng)用上迅速打開局面。在這種背景下,未來做大模型的門檻可能更需要從風(fēng)險(xiǎn)和風(fēng)控的角度來理解。
大模型更廣泛的應(yīng)用帶來了很多風(fēng)險(xiǎn)隱患,比如內(nèi)容安全、隱私、合規(guī)、倫理等難以界定的問題,一旦一個(gè)廠商提供這樣深層次的內(nèi)容服務(wù)時(shí),必然會(huì)在行業(yè)自律或者監(jiān)管角度面臨更高要求,也就是說風(fēng)險(xiǎn)自律及本身可控生成的能力,會(huì)成為未來大模型實(shí)力水平很重要的門檻。
具體而言,大模型的風(fēng)險(xiǎn)可以劃分為三類,第一是技術(shù)類風(fēng)險(xiǎn),模型本身是否會(huì)被攻擊、突破和劫持;第二是產(chǎn)業(yè)風(fēng)險(xiǎn),是否會(huì)帶來壟斷和勞動(dòng)替代;第三是社會(huì)內(nèi)容類風(fēng)險(xiǎn)。
大模型的風(fēng)險(xiǎn)要如何解決,這不是一顆靈丹妙藥就能立刻解決的問題,而是一個(gè)長期對(duì)抗和博弈發(fā)展的過程。一個(gè)例子是,現(xiàn)在安全行業(yè)有一個(gè)很直接的應(yīng)用,就是利用大模型來對(duì)抗更多大模型當(dāng)中的風(fēng)險(xiǎn),這可能也會(huì)是一個(gè)用魔法打敗魔法的必然方向。
關(guān)鍵詞:
責(zé)任編輯:Rex_11