大模型領(lǐng)域的口水戰(zhàn)不斷。
此前,王小川與百度陣營(yíng)因在技術(shù)差距上的不同意見(jiàn),引發(fā)廣泛熱議。近日,對(duì)于股價(jià)一度逼近跌停,科大訊飛回應(yīng)稱“股價(jià)下跌系某生成式AI寫(xiě)作虛假‘小作文’導(dǎo)致”,這也導(dǎo)致了百度方面的“回懟”。文心一言相關(guān)負(fù)責(zé)人在社交平臺(tái)發(fā)文質(zhì)疑這篇“AI小作文”的真?zhèn)巍?/p>
“口水戰(zhàn)”不斷的背后,是今年以來(lái)國(guó)內(nèi)人工智能大模型激烈賽道競(jìng)爭(zhēng)。迄今,國(guó)內(nèi)的科技公司、高校、研究機(jī)構(gòu)已發(fā)布了30多款A(yù)I大模型產(chǎn)品。在百度文心一言最先公開(kāi)邀測(cè)后,阿里、科大訊飛、360等企業(yè)的大模型也紛紛亮相……
口水戰(zhàn)再熱鬧,終究得靠硬實(shí)力見(jiàn)真章?!犊苿?chuàng)板日?qǐng)?bào)》記者近期獲得了360、科大訊飛大模型的內(nèi)測(cè)體驗(yàn)名額。
從測(cè)試結(jié)果來(lái)看,國(guó)內(nèi)僅有百度文心一言、360智腦等少數(shù)幾家企業(yè)開(kāi)放了AI作圖功能。其中,360還專(zhuān)門(mén)發(fā)布了AI繪圖應(yīng)用360鴻圖,提供了更多文生圖的高級(jí)選項(xiàng)。
在文字創(chuàng)作能力上,各家大模型差距并不大。而科大訊飛的星火大模型在數(shù)理能力表現(xiàn)尤為突出,是少數(shù)通過(guò)了“小升初”考試的選手。
▍文心一言VS 360智腦:AI作圖大比拼
當(dāng)前,國(guó)內(nèi)僅有百度文心一言、360智腦等少數(shù)幾家企業(yè)的大模型開(kāi)放了AI作圖的應(yīng)用。訊飛星火還僅支持自然語(yǔ)言處理。
訊飛星火認(rèn)知大模型對(duì)AI作圖的回答
在最初的文心一言版本中,由于對(duì)中文輸入詞的理解不足,文心一言曾經(jīng)鬧出不少關(guān)于“紅燒獅子頭”、“胸有成竹”的笑話。
經(jīng)過(guò)版本迭代,文心一言已經(jīng)修正了這些問(wèn)題。《科創(chuàng)板日?qǐng)?bào)》記者也同樣對(duì)360智腦進(jìn)行了測(cè)試。
提問(wèn):畫(huà)一個(gè)胸有成竹的男人
360智腦:
文心一言:
360智腦走的是寫(xiě)實(shí)風(fēng),文心一言則是人物畫(huà),如果以“胸有成竹”的字面理解來(lái)評(píng)估,360智腦的圖片似乎更為準(zhǔn)確。
提問(wèn):畫(huà)一張車(chē)水馬龍的圖
360智腦:
文心一言:
提問(wèn):畫(huà)一張紅燒獅子頭
360智腦:
文心一言:
在“紅燒獅子頭”回答中,360智腦提供的四張圖片里,有一張不幸出現(xiàn)了“真獅子頭”的錯(cuò)誤。
提問(wèn):畫(huà)一幅畫(huà),媽媽抱著寶寶、寶寶在哭泣,寶寶6個(gè)月左右
360智腦:
文心一言:
從兩者生成的圖片來(lái)看,文心一言的哭泣畫(huà)面較為生動(dòng)寫(xiě)實(shí),360智腦則提供更多不同風(fēng)格的選擇。
提問(wèn):生成一張?jiān)朴?jì)算的配圖
360智腦:
文心一言:
顯然,對(duì)科技詞匯的理解上,文心一言更勝一籌。
值得一提的是,360專(zhuān)門(mén)發(fā)布了AI繪圖應(yīng)用360鴻圖,除了一次能夠生成四張不同的圖片,還提供電腦壁紙、海報(bào)、頭像等模式,并支持上傳參考圖,進(jìn)行渲染方式、光線等設(shè)定選擇。
▍文字生成能力比拼:各家差距不大
《科創(chuàng)板日?qǐng)?bào)》記者用常見(jiàn)的“文字游戲”問(wèn)題,對(duì)科大訊飛、360智腦、文心一言進(jìn)行了一一測(cè)試。整體而言,各家都已經(jīng)對(duì)這些問(wèn)題進(jìn)行了專(zhuān)門(mén)的修正。
360智腦:
訊飛星火:
此前,記者曾向多個(gè)大模型提問(wèn)了涉及信息搜索的問(wèn)題:特斯拉在國(guó)內(nèi)過(guò)去五個(gè)月、過(guò)去一年的銷(xiāo)量是多少?
當(dāng)時(shí),文心一言的答案較為不盡如人意。這次記者重新進(jìn)行提問(wèn)。
文心一言的最新回答:
文心一言的舊版回答:
在與問(wèn)題的匹配度方面,文心一言的回答質(zhì)量有所提升。
360智腦:
360給出了截至2021年8月的數(shù)據(jù),但數(shù)據(jù)顯然存在錯(cuò)誤。
訊飛星火:
訊飛星火直接表示無(wú)法回答準(zhǔn)確的數(shù)據(jù)。
看熱鬧不嫌事大,記者要求三家撰寫(xiě)一篇:科大訊飛與文心一言對(duì)峙的新聞報(bào)道。
360智腦:
訊飛星火:
文心一言:
從文章內(nèi)容來(lái)看,文心一言、訊飛星火的新聞內(nèi)容更為完整。特別是文心一言還提供了新聞標(biāo)題。
那么,這些大模型的商業(yè)文案寫(xiě)作能力如何呢?
提問(wèn):請(qǐng)給我一段針對(duì)雙11童裝品牌的140字營(yíng)銷(xiāo)文案,品牌名是童心未泯,關(guān)鍵詞是用料健康、性價(jià)比高。
360智腦:
文心一言:
訊飛星火:
三家大模型都給出了還不錯(cuò)的回答。相比最初測(cè)試的版本,文心一言這次的回答變得更為簡(jiǎn)潔。
此前文心一言的回答:
▍數(shù)理能力比拼:科大訊飛完勝
在數(shù)理邏輯推算能力方面,記者曾對(duì)文心一言、通義千問(wèn)、云從大模型進(jìn)行了測(cè)試,表現(xiàn)均頗為普通,答案準(zhǔn)確度較低。
某次數(shù)學(xué)競(jìng)賽共20道題,評(píng)分標(biāo)準(zhǔn)是:每做對(duì)一題得5分,每做錯(cuò)或不做一題扣1分。小華參加了這次競(jìng)賽,得了64分。問(wèn):小華做對(duì)幾道題?
正確答案應(yīng)該是14題,而文心一言這次得出了42題,360智腦得出了28道題。只有科大訊飛的星火認(rèn)知大模型答對(duì)了。
文心一言:
360智腦:
訊飛星火:
記者又找了幾道“小升初”數(shù)學(xué)題,訊飛星火大模型均順利通過(guò)了測(cè)試。
2分和5分的硬幣共36枚,共值99分。問(wèn):兩種硬幣各多少枚?
訊飛星火模型給出了正確答案:2分27枚,5分9枚。
訊飛星火:
360智腦:
文心一言:
對(duì)于經(jīng)典的雞兔同籠題,訊飛星火也得出了正確的回答。