三年片最新电影免费观看,懂色av国产日韩欧美,特级毛片打开直接看

國(guó)產(chǎn)大模型又多一份測(cè)評(píng)，這次的狀元是訊飛星火。近日，《麻省理工科技評(píng)論》從多維度全方位檢測(cè)，力圖評(píng)出“最聰明”的國(guó)產(chǎn)大模型。最終，訊飛星火認(rèn)知大模型V2.0榮獲“最聰明”的國(guó)產(chǎn)大模型稱號(hào)。

國(guó)產(chǎn)大模型競(jìng)賽如火如荼，好像每一個(gè)大模型都很牛，但具體牛在哪又始終縹緲，由此大模型測(cè)評(píng)應(yīng)運(yùn)而生。但這又可能注定是一件要“燒情懷”的事，它同樣面臨著“開(kāi)源”還是“閉源”的兩難選擇，和刷題與競(jìng)價(jià)排名的諸多爭(zhēng)議。

【資料圖】

武林大會(huì)

國(guó)內(nèi)“千模大戰(zhàn)”下，誰(shuí)是最聰明的大模型《麻省理工科技評(píng)論》最新發(fā)布的大模型評(píng)測(cè)報(bào)告。該報(bào)告稱從研發(fā)和商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢(shì)等維度全方位檢測(cè)大模型的能力，最終，訊飛星火認(rèn)知大模型V2.0以81.5分的成績(jī)登頂，榮獲“最聰明”的國(guó)產(chǎn)大模型稱號(hào)。

8月15日，科大訊飛發(fā)布“訊飛星火認(rèn)知大模型V2.0版本”，科大訊飛董事長(zhǎng)劉慶峰介紹，從業(yè)界參考測(cè)試集上的效果對(duì)比來(lái)看，星火V2.0基于Python和C++進(jìn)行代碼寫作能力已高度逼近ChatGPT，差距僅分別為1%和2%。

劉慶峰說(shuō)，到10月24日星火大模型代碼能力全面超越ChatGPT，明年上半年將正式對(duì)標(biāo)GPT4。

訊飛星火像是一個(gè)縮影。過(guò)去這段時(shí)間，大模型頻繁更新讓人眼花繚亂，動(dòng)輒千億的參數(shù)、各種專業(yè)術(shù)語(yǔ)也讓人不明覺(jué)厲。但人們似乎很難找到一把統(tǒng)一的尺子，公平、客觀、直觀地感知大模型真正的效果，而不被紛雜的信息流所蒙蔽。

天使投資人、資深人工智能專家郭濤對(duì)北京商報(bào)記者分析稱，“大模型是一個(gè)非常復(fù)雜的系統(tǒng)，它由大量的數(shù)據(jù)和算法組成，在訓(xùn)練和推理過(guò)程中需要考慮很多因素。對(duì)大模型進(jìn)行測(cè)評(píng)可以幫助我們更好地了解模型的性能和特點(diǎn)、評(píng)估價(jià)值和意義、局限性和潛在風(fēng)險(xiǎn)等，從而為大模型的發(fā)展和應(yīng)用提供有力支持”。

深度科技研究院院長(zhǎng)張孝榮將測(cè)評(píng)形容為一場(chǎng)“武林大會(huì)”，要試試各家身手。他對(duì)北京商報(bào)記者分析稱，大模型涉及到龐大的參數(shù)和復(fù)雜的算法，對(duì)于性能和效果的評(píng)估十分重要。通過(guò)測(cè)評(píng)可以大致地了解大模型的性能、穩(wěn)定性、準(zhǔn)確性等內(nèi)容，為用戶選擇合適的大模型提供參考。

測(cè)評(píng)開(kāi)始補(bǔ)位。今年3月，真格基金以投資者的身份入場(chǎng)，設(shè)計(jì)了一套大模型測(cè)試集Z-Bench。高校也是測(cè)評(píng)的中堅(jiān)力量，例如清華大學(xué)、上海交通大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集C-Eval。

有媒體報(bào)道，5月以來(lái)，10多家國(guó)內(nèi)外多家調(diào)研機(jī)構(gòu)、權(quán)威媒體和高校等發(fā)布大模型評(píng)測(cè)報(bào)告，包括新華社研究院中國(guó)企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗(yàn)報(bào)告2.0》、天津大學(xué)和信創(chuàng)海河實(shí)驗(yàn)室發(fā)布的《大模型評(píng)測(cè)報(bào)告》、國(guó)際數(shù)據(jù)公司IDC發(fā)布的《AI大模型技術(shù)能力評(píng)估報(bào)告，2023》等。

標(biāo)準(zhǔn)難統(tǒng)一

當(dāng)該有測(cè)評(píng)成為共識(shí)，迎面而來(lái)的下一個(gè)問(wèn)題就是，我們需要一個(gè)怎樣的測(cè)評(píng)。

《麻省理工科技評(píng)論》提到，評(píng)測(cè)使用的測(cè)試集包含600道題目，覆蓋了語(yǔ)言專項(xiàng)、數(shù)學(xué)專項(xiàng)、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識(shí)、安全性共8個(gè)一級(jí)大類，126個(gè)二級(jí)分類，290個(gè)三級(jí)標(biāo)簽，并針對(duì)問(wèn)題的豐富性和多樣性做了優(yōu)化。

此前IDC則在測(cè)評(píng)中將大模型分為三層，服務(wù)生態(tài)、產(chǎn)品技術(shù)以及行業(yè)應(yīng)用，對(duì)每一層的能力進(jìn)行測(cè)評(píng)，主要考察指標(biāo)為算法模型、通用能力、創(chuàng)新能力、平臺(tái)能力、安全可解釋、大模型的應(yīng)用行業(yè)以及配套服務(wù)和大模型生態(tài)等，具體包括36項(xiàng)細(xì)顆粒度的評(píng)估標(biāo)準(zhǔn)。

對(duì)于大模型測(cè)評(píng)的必要性，元語(yǔ)智能聯(lián)合創(chuàng)始人兼COO、SuperCLUE聯(lián)合發(fā)起人朱雷提到，模型測(cè)評(píng)基準(zhǔn)是通用人工智能的基石，沒(méi)有測(cè)評(píng)就意味著沒(méi)有目標(biāo)，很難準(zhǔn)確地判斷究竟哪些做得好哪些做得不好，同時(shí)對(duì)于AI的安全性也無(wú)法把控。從國(guó)際視角上看，對(duì)于大模型的測(cè)評(píng)也是沒(méi)有絕對(duì)標(biāo)準(zhǔn)的，因?yàn)榇竽Ｐ桶l(fā)展太快了。但在國(guó)內(nèi)要做出一個(gè)客觀公正的評(píng)測(cè)基準(zhǔn)，也會(huì)遇到很多阻力。

北京市社會(huì)科學(xué)院副研究員王鵬對(duì)北京商報(bào)記者分析，目前大模型尚屬新興事物，國(guó)際上還沒(méi)有一個(gè)覆蓋面非常廣、能夠得到大家公允的評(píng)估方法或整套指標(biāo)體系，需要加強(qiáng)國(guó)際合作，形成廣泛共識(shí)。

“但這也會(huì)面臨一定的問(wèn)題，即大模型本身類型繁多，通用還是專用、垂類還是跨行業(yè)、偏技術(shù)還是偏應(yīng)用等區(qū)別也會(huì)帶來(lái)一定的阻礙，因此更需要權(quán)威機(jī)構(gòu)加強(qiáng)研究，盡快形成共識(shí)，促進(jìn)技術(shù)進(jìn)步和行業(yè)發(fā)展?！蓖貔i稱。

在他看來(lái)，一個(gè)合格的測(cè)評(píng)，應(yīng)該由四個(gè)維度組成。首先是技術(shù)本身，包括穩(wěn)定性、效率、效果等；其次是與行業(yè)的結(jié)合，在行業(yè)應(yīng)用中是否有效果、成本是否可控、是否能夠形成商業(yè)閉環(huán)；再次還要考慮是否安全可控；最后要從社會(huì)及行業(yè)認(rèn)知角度，了解其在行業(yè)中的關(guān)注度，畢竟“酒香也怕巷子深”。

張孝榮也提到，由于大模型涉及的領(lǐng)域和應(yīng)用非常廣泛，不同領(lǐng)域、不同應(yīng)用的大模型需要關(guān)注的指標(biāo)和評(píng)估方法不盡相同。因此，針對(duì)具體應(yīng)用領(lǐng)域和需求，不同機(jī)構(gòu)和組織可能會(huì)提出不同的評(píng)估標(biāo)準(zhǔn)和方法?！氨M管沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)，但測(cè)評(píng)的意義在于提供了一種評(píng)估和比較不同大模型性能和效果的方法，幫助用戶選擇適合自己需求的大模型。”

測(cè)評(píng)還是營(yíng)銷

“測(cè)評(píng)的意義側(cè)重于營(yíng)銷推廣?！睆埿s還提到了一個(gè)觀點(diǎn)。

360智腦產(chǎn)品資深專家葛燦輝在引用SuperCLUE測(cè)評(píng)結(jié)果的時(shí)候，提煉出了一句總結(jié)：“360智腦”多項(xiàng)能力位列國(guó)產(chǎn)大模型第一?！堵槭±砉た萍荚u(píng)論》的測(cè)評(píng)報(bào)告，傳播最多的也是“訊飛星火被評(píng)為中國(guó)‘最聰明’的大模型”。

更早些時(shí)候，刷屏的是百度。比如IDC的大模型報(bào)告中，“百度文心大模型3.5獲多項(xiàng)滿分”，清華大學(xué)新聞與傳播學(xué)院沈陽(yáng)團(tuán)隊(duì)發(fā)布的《大語(yǔ)言模型綜合性能評(píng)估報(bào)告》中，百度文心一言在三大維度20項(xiàng)指標(biāo)中綜合評(píng)分國(guó)內(nèi)第一，超越ChatGPT。

每每涉及榜單，榜首歸誰(shuí)總是容易成為話題中心，從這個(gè)角度上看，測(cè)評(píng)本身或許就帶著些營(yíng)銷的天然屬性。但也正是如此，延伸出了一些不容忽視的問(wèn)題。

“SuperCLUE出6月榜單的時(shí)候，第一時(shí)間就有人指責(zé)我們是不是收了360的錢，但事實(shí)是，直到這次沙龍，我們與360智腦產(chǎn)品負(fù)責(zé)人才有了第一次接觸?！敝炖兹绱苏f(shuō)道。

事實(shí)上，大模型測(cè)評(píng)同樣面臨著“開(kāi)源”和“閉源”的兩難選擇。朱雷稱，大模型測(cè)評(píng)題集也有開(kāi)源閉源之分，但開(kāi)源的題目就會(huì)面臨受試者提前訓(xùn)練進(jìn)而刷分“打榜”的可能，而閉源的題目就會(huì)陷入到是否有暗箱操作乃至競(jìng)價(jià)排名的爭(zhēng)議。

朱雷表示，SuperCLUE還是選擇了閉源的測(cè)評(píng)路線，但不是任何機(jī)構(gòu)都可以閉源的，之所以公眾較為相信SuperCLUE的測(cè)評(píng)結(jié)果，主要還是基于過(guò)去四年CLUE社區(qū)對(duì)中文語(yǔ)言模型的貢獻(xiàn)和公信力。

據(jù)了解，CLUE開(kāi)源社區(qū)發(fā)起于2019年，旨在建立科學(xué)、客觀、中立的AI評(píng)測(cè)基準(zhǔn)，過(guò)去幾年CLUE社區(qū)分別建立了ZeroCLUE、FewCLUE等知名的語(yǔ)言模型評(píng)測(cè)基準(zhǔn)，又于今年5月發(fā)布首個(gè)中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE。

SuperCLUE分為SuperCLUE-Opt、SuperCLUE-LYB瑯琊榜以及SuperCLUE-Open三個(gè)不同維度的評(píng)測(cè)基準(zhǔn)，相輔相成。據(jù)介紹，SuperCLUE目前也是中文AI領(lǐng)域最完整的綜合性測(cè)評(píng)基準(zhǔn)，同時(shí)也是罕見(jiàn)的“閉卷”考試。

“我們暫時(shí)還沒(méi)有找到折中的方法，所以決定先‘保密’，大模型廠商不知道我出了什么樣的問(wèn)題，自然不好刷分。至于‘保密’帶來(lái)的黑盒化，目前來(lái)看還是一個(gè)兩者不可兼得的問(wèn)題，但我們堅(jiān)信自己的第三方中立性，評(píng)測(cè)的結(jié)論也是十分科學(xué)的?！敝炖追Q。

王鵬分析稱，任何一項(xiàng)評(píng)估或排名，都可能面臨一些問(wèn)題，但這其實(shí)相當(dāng)于一個(gè)“否定之否定”的過(guò)程。首先評(píng)估體系本身并不是完美的，需要不斷優(yōu)化提升，應(yīng)對(duì)大家可能產(chǎn)生的質(zhì)疑。

其次，專業(yè)的評(píng)測(cè)機(jī)構(gòu)、技術(shù)機(jī)構(gòu)等，也要注重自己的口碑，建立完善的體系，儲(chǔ)備豐富的經(jīng)驗(yàn)，有較好的技術(shù)團(tuán)隊(duì)和技術(shù)儲(chǔ)備，作出更加客觀公允、公平公正的評(píng)價(jià)?！耙?yàn)橐坏┏霈F(xiàn)‘人情分’等問(wèn)題，不僅會(huì)影響自己的聲譽(yù)，也不利于行業(yè)的未來(lái)發(fā)展?！蓖貔i稱。

關(guān)鍵詞：

責(zé)任編輯：Rex_22

我們需要怎樣的大模型測(cè)評(píng)

我們需要怎樣的大模型測(cè)評(píng)

嚴(yán)禁AI開(kāi)處方北京為互聯(lián)網(wǎng)診療劃紅線

賣皮膚被指“割韭菜” 《王者榮耀》七年之癢了

“一家人看場(chǎng)電影花了400多” 低價(jià)電影票為何難覓蹤影？

有企業(yè)凈利預(yù)增超30倍！多家上市餐企上半年扭虧為盈

國(guó)家發(fā)改委：培育抗衰老、智慧健康養(yǎng)老等潛力產(chǎn)業(yè)

諾輝健康2023年中報(bào)：營(yíng)收8.2億元人民幣同比增長(zhǎng)265%

尖峰集團(tuán)：子公司鹽酸奧洛他定滴眼液抽檢不合格

英國(guó)計(jì)劃斥資1億英鎊購(gòu)入數(shù)千顆AI芯片已與英偉達(dá)進(jìn)入談判后期

進(jìn)駐園區(qū)僅3個(gè)月就接“騰退令” 企業(yè)權(quán)益誰(shuí)來(lái)保障？

中基協(xié)：7月份企業(yè)資產(chǎn)證券化產(chǎn)品，新增備案規(guī)模環(huán)比增29.58%

中洲控股（000042）：8月21日北向資金減持5.75萬(wàn)股

統(tǒng)一戰(zhàn)線內(nèi)容統(tǒng)一戰(zhàn)線的主題

我國(guó)5G基站超300萬(wàn)個(gè)！今年前7個(gè)月通信業(yè)運(yùn)行穩(wěn)健

北京市第十一屆民族傳統(tǒng)體育運(yùn)動(dòng)會(huì)開(kāi)幕，共設(shè)21項(xiàng)比賽項(xiàng)目

威力傳動(dòng)(300904.SZ)：基于物聯(lián)網(wǎng)的智能制造服務(wù)中心平臺(tái)V1.0是DNC管理系統(tǒng)，主要用于管理車間的機(jī)床實(shí)時(shí)狀態(tài)

雅詩(shī)蘭黛持妝粉底液怎么看日期（雅詩(shī)蘭黛持妝粉底液怎么選色號(hào)）

8月21日赤峰黃金股票走強(qiáng) 上漲0.14%

筑牢暑期防汛減災(zāi)“安全堤”，教育系統(tǒng)在行動(dòng)

500多場(chǎng)活動(dòng)，60余萬(wàn)人參節(jié)！第33屆青島國(guó)際啤酒節(jié)（嶗山）圓滿閉幕