人工智能三大推動力:技術是源動力,應用是牽引力,安全是信任力。
1)趨勢一 統一未來:多模態模型加速文本、圖像和視頻融合
多模態模型:多模態模型能夠處理視覺信息、文本信息、聽覺信息等多元化數據,可以對不同表現形式的信息進行融合理解,進一步提升大模型的遷移學習能力,是人工智能全面理解真實世界的重要一步。
發展情況:文本、語音、等單模態人工智能模型已經相對成熟,大模型正在朝著多模態信息融合的方向快速發展。從CLIP的誕生再到GPT-4的圖像處理能力,圖文多模態技術已經取得了顯著的進步。大模型不止滿足文字和圖像,開始向著音頻、視頻等領域拓展。
未來展望:未來模型將面對更加復雜多樣化的交互場景,更加注重各種形式的信息融合,多模態技術將在智能家居、智慧城市、醫療診斷、自動駕駛等方面打開全新的應用空間。
2)趨勢二 逾越虛擬邊界:具身智能成為AI發展新形態
具身智能:具身智能是可以和物理世界進行感知交互,并具有自主決策和行動能力的人工智能系統。具身智能中的智能體能夠以主人公的視角感受物理世界,通過與環境產生交互并結合自我學習,從而產生對于客觀世界的理解和改造能力。
發展情況:斯坦福大學教授李飛飛將具身智能列為計算機視覺未來的關鍵發展方向,并將其稱之為人工智能研究的“北極星”。現階段來看,谷歌推出RoboCat大模型,英偉達推出Nvidia VIMA,具身智能已經成為AI龍頭企業競相爭奪的高地。
未來展望:通用人工智能與機器人產業正處在快速發展、互相融合促進的戰略機遇期,作為兩大領域交叉的核心應用,具身智能有望在未來取得快速發展。具身智能將促使智能體具備自主規劃、決策、行動、執行等能力,實現人工智能的能力進階。
3)趨勢三 大模型智慧火花:走向通用人工智能的途徑愈發明晰,腦機接口創造新的交互方式
通用人工智能(AGI)是指具有像人類一樣的思考能力,可以適應廣泛的領域并解決多種問題的機器智能,AGI是人工智能研究的重要目標之一。狹義人工智能是指當下已取得顯著進展但局限特定領域的人工智能,如語音識別、機器視覺等。我們正處于狹義人工智能相對成熟、通用人工智能曙光乍現的階段,目前以GPT-4為代表的自然語言大模型被認為是通往通用人工智能的重要潛在路徑,OpenAICEO薩姆·奧特曼(Sam Altman) 表示,AGI時代可能很快就會到來,未來十年內行業可能會擁有超強的AI系統。
人類與人工智能之間的溝通方式也在不斷升級,腦機接口有望成為下一代人機交互方式。當前,腦機接口技術正在突破人類的生理界限,不僅為殘障人士提供了前所未有的可能性,而且有望成為下一代的人機交互方式。
4)趨勢四 數據的力量:海量數據帶來模型能力涌現,高質量數據提升模型性能
深度學習的進步建立在以更大的模型處理海量數據基礎之上。GPT-1模型從1.17億參數上升至GPT-3的1750億參數,模型效果取得了顯著突破,同時還有能力的涌現。但是模型參數量的增大帶來算力需求的激增,模型架構和參數量提升帶來的收益正處于遞減狀態。
阿伯丁大學、麻省理工大學等研究機構的一項研究顯示,高質量的語言數據將在2026年耗盡,低質量的語言數據和圖像數據將分別在2030 -2050年、2030-2060年間枯竭。
以數據為中心的人工智能更加專注于數據的價值,進一步推動AI模型的性能突破。斯坦福大學吳恩達教授提出二八定律:80%的數據+20%的模型=更好的AI。以數據為中心的策略可以解決數據樣本不足、數據偏差等問題,高質量數據集成為推動模型性能進一步提升的關鍵要素,高質量的數據處理、數據標注服務以及完善的數據收集和評估體系的價值將進一步凸顯。
5)趨勢五 數據中心的AI變革:智算中心成為關鍵基礎設施
云計算是當前重要的AI算力提供方案,AI服務器市場獲得迅猛發展。根據TrendForce數據,2022年全球AI服務器的出貨量占整體服務器比重約1%,隨著大模型訓練側和推理側的需求爆發,AI算力資源需求預計將呈指數增長。根據IDC數據,預計未來5年中國智能算力規模的年復合增長率將達52.3%,全球價值萬億美金的數據中心存量市場將從通用計算逐步過渡向AI計算。
云計算正從CPU為中心的同構計算架構向以CPU+GPU/NPU為中心的異構計算架構深度演進。預計,大模型帶來的GPU存量空間將從2023年的277億美金上升至2025年的1121億美金,以GPU為代表的AI計算資源中短期將處于供不應求的狀態。
隨著專有領域的計算需求提升,AI芯片追求更高的性能和更低的功耗,芯片的多樣性和生態豐富性將不斷提升。部分頭部互聯網廠商將著力推進AI芯片的自主研發,如谷歌著力打造專注深度學習的TPU,同時不斷豐富其AI生態布局。
6)趨勢六 大模型C端角色:個人智能助理與新一代的流量入口
大語言模型將成為個人智能助理。大模型目前具備接入互聯網、進行內存管理等能力,通過目標任務自動拆分、計劃制定、計劃實施等方式,能夠自主完成用戶的需求,成為每個人的智能助理,如制定旅行計劃并進一步預定賓館和餐飲。
大模型正在成為新一代的流量入口。GPT-4正在逐步開放插件功能,通過底層模型連接第三方應用,從而構建豐富的生態系統。GPT-4自插件功能開放以來,目前已經接入超過500個插件(其中包括教育、金融等場景)。隨著大模型能力的不斷增強以及插件生態的不斷豐富,大模型有望成為新一代的人機交互方式以及流量入口,2023年5月OpenAI官網訪問量為18.6億次,是全球第19名次的互聯網訪問IP。
7)趨勢七 大模型B端應用:專業數據與成本驅動行業模型百花齊放,打開廣闊應用空間
數據壁壘帶來企業端大模型百花齊放。通用大模型可以幫助用戶解決一般性問題,而當企業需要處理其特定行業的數據和任務時,往往需要針對其行業數據庫來對基本模型進行微調,垂直行業的特性和需求不盡相同,因此大模型的應用也呈現出多樣化的趨勢。
B端應用出于對模型的經濟性考量,未來將呈現階梯式、差異性需求。大模型在垂直領域的商業化落地對模型的運行成本更為敏感,模型的推理成本與模型的參數量多少密切相關,需要不同參數規模的大模型組成多層次的產品組合,從而在不同場景下實現最佳的經濟性,進一步提升大模型的豐富度。
8)趨勢八 大模型輕量化:降低應用成本、帶動端側算力發展
隨著大模型小型化、場景化需求增加,同時出于對AI應用的經濟性、可靠性和安全性考量,部分場景的推理將逐步從云側擴展向端側,帶動端側算力需求的進一步提升。
目前多個大模型都已推出“小型化”和“場景化”版本。5月23日谷歌發布的PaLM-2大模型,其中最輕量版本“壁虎”可在移動端運行,運行速度快且支持離線操作,其他多個大模型也都有其對應的小參數版本。
大模型端側應用布局不斷加速。端側算力正在快速發展過程中,高通通過量化、編譯和硬件加速進行優化,使Stable Diffusion能在搭載第二代驍龍8移動平臺的手機上運行。高通在微軟Build2023開發者大會上展示了最新的端側AI能力以及在下一代Windows 11上開發生成式AI的工具,并表示未來幾個月大語言模型有望在端側運行。
9)趨勢九 大模型的深遠影響:重構勞動力市場、改寫科研范式
大語言模型對勞動力市場結構的影響深遠而復雜。據OpenAI聯合賓夕法尼亞大學的研究報告預測,約80%的美國勞動力可能有至少10%的工作受到大語言模型的影響。
大語言模型的應用帶來勞動力市場結構的調整和變化。短期而言,大語言模型可能替代部分低技能或重復性工作;中期來看,大語言模型也將創造新的人工智能相關就業機會;長期來看,大語言模型的應用將會深度改變各行業的工作模式和商業模式,讓企業的組織架構更加扁平化和小型化。過程中需要個人和企業去積極適應,發展人類獨有的創新、協作和社交等能力,與人工智能共同進化。
AI與前沿科學的結合展現出了巨大潛力,可顯著降低前沿科技研究中的智力成本并提升研究效率。生命科學、氣象預測、數學、分子動力學等前沿科學均得到了人工智能的廣泛助力,AI for Science將帶來科研范式的變革和新的產業形態。
10)趨勢十 AI治理與技術的平衡:AI可解釋性亟待增強,監管緊迫性日益凸顯
在人工智能的快速發展中,加強AI監管與推動AI技術的進步同等重要。AI能力帶來應用的便利性,同時也可能引發數據隱私、算法偏見、AI倫理等一系列問題。
從技術角度來看,可以通過可解釋AI等技術手段增強AI的可信度。可解釋AI使人工智能的決策過程透明化,增加輸出內容的可理解性和可信任度,對于構建用戶對AI系統的信任、提升系統的有效性、應對潛在的倫理問題都至關重要。
從規范角度來看,各國政府也都已經開始采取行動,制定和執行各種AI政策和法規。4月份,我國網信辦出臺《生成式人工智能服務管理辦法(征求意見稿)》,明確了生成式人工智能的定義,從明確條件要求、劃定責任主體、形成問題處理機制、明晰法律責任幾個方面為行業劃定底線。