AI大模型洞察系列之一：百度文心一言，繁花未開冬已至

新經濟IPOIPO君2024-01-18 12:15 數字產業

2023年，對國產大模型而言，是一個激情澎湃，充滿壯志豪言，但唯獨缺乏現象級產品誕生的年頭；在海外ChatGPT為代表的大模型不斷進化的推動下，國產大模型匆匆沖入了2024年，也就是所謂的“大模型應用落地元年”。

在這場代表更高生產力的技術革命浪潮中，國產大模型將扮演什么角色？從百度到三六零，從科大訊飛到后起之秀百川智能，從字節跳動的“豆包”到阿里巴巴的“通義千問”，誰會成為最先進技術與應用的破壁者或涅槃者，誰又是在技術與資本的喧囂中“趕時髦”的泡沫？

百度大模型成色不足

第一個接受考驗的當然是國產大模型排頭兵“文心一言”。

沒人懷疑百度對AI的熱情。早在2016年，李彥宏就曾公開宣布ALL IN AI，并由此吸引了大佬陸奇2017年初加盟；但僅僅一年后（2018年5月），陸奇便掛冠而去；而幾乎就在同時，在地球的另一側，OpenAI研發小組靜悄悄地發布了GPT-1的初始模型。

那時候，李彥宏尚沒意識到，百度錯過了成為AI先驅的歷史機遇。等到2022年末，ChatGPT爆火出圈后，李彥宏突然回過神，再次掉頭撿起ALL IN AI戰略。

問題是，在戰略問題上搖擺不定的百度，這一次是真的ALL IN大模型還是說說而已？

具體到產品層面，從2023年初緊急推出“文心一言”，到目前已進化至4.0版本，盡管百度聲稱“文心4.0版本綜合水平與GPT相比毫不遜色”，但是否能夠媲美GPT仍然存疑，就連李彥宏自己也承認，文心一言也許永遠也追不上ChatGPT。

讓百度更為膽寒的是，元旦后GPT應用商店正式上線，不僅將重塑AI服務與應用格局，也會拉開Agent浪潮的帷幕，有極大概率會誕生李彥宏口中的“殺手級應用”。

李彥宏曾多次表示，進入AI時代的標志是產生很多的AI原生應用，而不是很多的大模型。他質疑國內大模型太多了，AI原生應用卻非常少，國外則正好相反，“僅有幾十個基礎大模型，AI原生應用已經上千個”，這令人“焦慮且慌張”。

顯然，“文心一言”希望成為能夠誕生“殺手級應用”的那個底座，但OpenAI憑借其用戶創建的超300萬個GPTs構建了初步的Agent生態，率先完成了從模型提供商向平臺的轉變。而百度大模型，則面臨著繁花未開冬已至的境況。

盡管不斷有國內機構測評稱，文心一言已超越GPT-4（附加詞“中文語境”），但認真講，文心一言遠未完成從追隨者向引領者的角色轉變。

作為首批通過官方“大模型標準符合性測試”的文心一言4.0去年剛上線時，文生圖曾鬧出很多笑話，一度被質疑“套殼”國外大模型。不過，在過去一年的快速迭代下，文心一言還是有了一些進步。

例如，去年文心一言畫“胸有成竹的男人”、“起重機”時都曾鬧過笑話。用戶要求畫起重機時，文心一言直接畫了一幅仙鶴圖；用戶要求畫 “土耳其”，文心一言卻畫成了“火雞”。這些錯誤讓很多人質疑文心一言文生圖涉嫌套殼國外英文大模型，因為起重機在英文里對應的是CRANE，后者也有仙鶴的意思；土耳其和火雞的英文都是turkey。文心一言在作畫時顯然是先把中文指令轉化成英文，然后再生成圖像，極可能調用了國外的英文大模型。

新經濟IPO今年元旦后對文心一言圖像生成能力再次進行測試，發現這次無論是“胸有成竹的男人”還是“起重機”，文心一言已不再犯去年的錯誤。

2023年和2024年初文心一言文生圖實測結果對比。

此外，新經濟IPO基于理解、生成、邏輯、記憶四個維度對文心一言各方面能力進行了測評。

記者分別輸入“畫一袋雞精、畫一個驢肉火燒、畫一張唐伯虎點秋香、夫妻肺片”等關鍵詞，發現給出的答案依然一言難盡，魚香肉絲、夫妻肺片等圖像勉強過關，但“一袋雞精”、“大頭娃娃菜”的畫像有的很詭異，有的看上去不倫不類。

2024年1月初，文心一言文生圖實測結果。

當然，過去這一年，文心一言的跨模態理解與生成能力的確有了較大提升，并形成了初步的情感分析能力，可以識別文本中的情感傾向和情感表達，并能夠生成具有情感色彩的繪圖。

此外，文心一言還擁有了更豐富的知識庫，并能夠根據用戶的問題進行常規性的回答和解釋。但在邏輯能力上，文心一言依然無法令人滿意。如詢問“秋冬穿搭街拍”，文心一言并沒有生成圖片，而是輸出了一大堆文字；但輸入“春夏穿搭街拍”，生成的就是風格迥異的圖片。

這說明，在相同屬性的關鍵詞下，文心一言的邏輯導向并不一致，仍然有待于優化提高。

2024年1月初，文心一言實測結果。

當記者詢問“明天去深圳，應該穿什么衣服”時，文心一言并沒有主動搜集天氣信息（不具備互聯網查詢能力），而是給出了以下模糊信息。從答案看，文心一言在語言理解能力及精準回復上還存在較大缺陷，和ChatGPT的語義理解及解答能力相比，文心一言落后的遠不止李彥宏所說的“兩個月”。

2024年1月初，文心一言實測結果。

去年11月，百度開始面向C端收費，在國內算是第一家，很多應用如百度文庫也都基于C端進行了重構。但從評測結果看，文心一言4.0的C端收費用戶數量可能并不理想。如果文心一言被大量付費用戶高頻使用，擁有自我學習能力的大模型會在海量用戶數據基礎上，快速彌補之前的缺陷。Chatgpt之所以迭代越來越快，越來越精準，最重要的原因就是全球數十億用戶在不斷向其提供免費訓練數據。

而文心一言在產品尚未成熟時就急匆匆收費，反而阻礙了其獲取更為寶貴的用戶使用數據，可以說“因小失大”；李彥宏對文心一言快速商業化賺錢的急切心態，可能也會讓文心一言與國外競爭對手的差距越來越大。李彥宏對Office365推出的30美元/月的Copilot套餐羨慕不已，但他忽略了一個至關重要的細節：2019年以來，微軟向OpenAI投資了110億美元。反觀百度和李彥宏在文心一言上又投了多少呢？OpenAI推出大模型花費了數年時間，但百度文心一言推出不到一年就宣稱趕超ChatGPT，可信度有多少？

對于中文大模型，目前業內有一些比較權威的評測標準，如SuperCLUE、C-Eval、MMLU等。有業內人士曾從基礎知識、信息搜集能力、總結歸納能力、創作能力四個方面對包括ChatGPT 4、通義千問、文心一言、豆包、百川等十幾個大模型進行評測，結果文心一言敗給ChatGPT 4，在全部測評模型中也僅排中上水平。

當然這一比較不代表最終結果，實際上這些也都不重要。核心問題在于，在大模型發展方向上，百度在目前為止更像是一個追隨者，距離真正的創新還有較遠的距離？

應用生態落后于人

談到大模型時，李彥宏喜歡強調“文心大模型一家的API調用量，比其他200多家大模型的調用量加起來還要多”，它們即使“上了這個榜單、進了那個排名”，也是在浪費社會資源。

然而，百度大模型未來面臨的最大競爭是海外競爭對手在應用層面的降維打擊，這是繼搜索引擎時代后的又一次“全球性”競爭，它并將直接決定百度這些傳統互聯網巨頭的生死存亡。

在這場競爭中，AI應用生態將成為互聯網巨頭的爭奪焦點。

李彥宏曾多次提及，“因為大模型本身并不直接產生價值，基于基礎大模型開發出來的AI原生應用才是模型存在的意義”。AI原生應用有三個特點：第一，能用自然語言交互；第二，能充分利用理解、生成、推理、記憶等；第三，每個應用的交互都不超過兩級菜單。第三個特點，其實就是 Agent的典型技術特性——能夠跨應用程序完成任務。作為一個AI“新主體”，Agent不僅可以獨立完成工作，也可以去尋找其他 Agent合作，組成新的工作流程，共同完成復雜工作。

釘釘總裁葉軍曾把這一技術特性解釋為“一鍵拉起所有AI應用”。

百度目前的軟肋在于，文心一言尚停留在寫報告、做計劃、文生圖等文本處理層面，這只是AIGC的第一階段，在這個層面，全球大模型第一梯隊的各家實力差距都不大。

真正拉開差距的是第二階段，譬如圖生文、文生視頻；以及第三階段—大一統模態（人工智能體），即用一個模型鏈接一切，能夠自由地串聯表達。

需要指出的是，雖然目前GPTs還不是完全自動的智能體,但它已經向人們展示了一個AI智能體可以觸及的未來—有能力串聯起任何產品與服務，因此GPTs被認為最有希望引領下一波AI浪潮。

國內類似的產品包括釘釘最近發布的“AI超級助理”以及百度的“文心大模型智能體平臺”。后者于去年9月上線，目前能查到的公開資料顯示，截至2023年12月18日，超2000個智能體上線。而去年11月官宣的GPT商店，由用戶創建的“定制”ChatGPT已經超過300萬個。兩者完全不在一個數量級上。

百度大模型生態與海外巨頭差距懸殊，背后原因很多，但過于“實用主義”、營銷思維過重無疑阻礙了百度技術生態的成長。

在百度多位AI技術主管的公開演講或受訪中，付費率、成本、投放效率成為關鍵詞，幫助某某集團實現轉化量提升多少，ROI提升多少的案例也不鮮見，聽上去受訪者不是技術主管，而是營銷總監。

這或許是百度廣告基因決定的，但沿著舊地圖，如何能找到新大陸？更為關鍵的是，去年12月Pika的出現，代表AIGC邁入了第二階段。在Pika的官方宣傳片中，僅憑一句話，就生成了動畫版的馬斯克，不但神形兼備，背景和動作都合理連貫，面部一致性也驚人得完美。

隨著大模型從單一文本邁向多模態，視頻就像之前文字、圖像生成一樣，成為大模型身上長出來的一項功能，一旦成為生產力，AI應用落地的商業化困境便迎刃而解。為此，谷歌、阿里、字節、騰訊都競相下場，多模態也將成為大模型的標配。

更令人激動的是，第二階段的到來，意味著第三階段的Agent也觸手可及，在這場“超級入口”之爭的關鍵節點上，百度似乎又沒跟上創新的步伐。

新入口之爭

Agent將是最佳AI應用入口已然成為業界共識，但為何是“超級入口”呢？

在傳統互聯網時代，搜索引擎幾乎是唯一的壟斷性入口。到了移動互聯網時代，蘋果借助“iOS+App Store”，重新定義了入口形式，人機交互不再通過搜索引擎進行，取而代之的是以微信、抖音、Uber為代表的眾多獨立App載體，對應著如新聞、社交、辦公、網購等不同的內容。

在大模型時代，取代它們的則是AI原生應用—Agent，并且一個終端可能只需要一個就夠了，因為Agent可以連接一切。

自然語言會成為Agent的使用界面，Agent調出功能后會攔截SaaS界面，包括很多其他APP也會被攔截掉，只保留交互層，所以Agent才會被稱為“超級入口”。

“新入口之爭”早已展開。Open AI大張旗鼓地公布GPTs，姍姍來遲的Google將Gemini Nano塞進手機，蘋果開發新版Siri引入Ajax，阿里布局AI助理試圖連接B端所有生態；為了“新入口”，華為、小米、vivo、OPPO相續發布了“端側大模型”，甚至騰訊開發的Agent已經可以模仿人類在手機上操作APP。

曾經錯過移動互聯網時代的百度似乎還沉浸在昔日的信息流廣告邏輯中，文心一言APP迄今也沒有給出現象級的迭代更新。、

多年來，百度一直在尋找除搜索以外的第二增長曲線，從汽車到電商到直播到教育到外賣，但至今沒有一款產品能扛起大旗，簡直成了“魔咒”。百度也曾試圖追趕自動駕駛的風口，但始終沒找到突破點。這一次，百度能乘上大模型的東風嗎？從目前的發展看，前景并不樂觀。

百度打贏應用之戰、建設AI生態的前提是，“文心一言”自身要足夠強大、足夠創新，而不是亦步亦趨，隨人起舞。只有這樣，才有機會在大模型淘汰賽中贏得一線生機。

本文為派財經原創，網頁轉載須在文首注明來源派財經及作者名字。微信轉載可發郵件至paicaijing314@126.com聯系授權，并在文首注明來源派財經（微信公眾號ID：paicj314）及作者名字。如不遵守，派財經將向其追究法律責任。免責聲明：本網站所有文章僅作為資訊傳播使用，既不代表任何觀點導向，也不構成任何投資建議。