Advertisement
人工智能發展迅速,過去一年多個人工智能大語言模型誕生,究竟它們能力有甚麼差異?早前香港大學經濟及工商管理學院發表AI大語言模型評測報告,分別比較14及16款模型,在中英文語境下的表現。發現內地科企百度開發的「文心一言」在中文語境表現最好,英文方面則由「ChatGPT4-Turbo」領先。
延伸閱讀︰【職場趨勢】AI崛起 盤點12個與人工智能相關的新職業
按圖即睇不同人工智能大語言模型能力:
英文語境下表現:
Advertisement
5.Claude2
4.文心一言4
3.Llama2 70B
2.Gemini Pro
1.GPT4-Turbo
中文語境下表現:
5.訊飛星火v3.0
4.GPT4
3.通義千問2
2.GPT4-Turbo
1.文心一言4
是次研究由港大經管學院蔣鎮輝教授領導的評測團隊進行,根據通用語言能力、安全與責任,以及專業學科測試中的正確率進行評分。處理中文任務方面,「文心一言4」綜合表現最佳,OpenAI開發的「GPT4-Turbo」與阿里巴巴開發的「通義千問2」緊跟在後。「GPT4-Turbo」在通用語言能力獲評82.59分,比「文心一言4」的80.03分還要高。不過後者的「中文特色語境」、「安全與責任」表現更好。
英文語境上,「GPT4-Turbo」以綜合得分82.89,排在首位。其次是Google開發的「Gemini Pro」和Meta開發的「Llama2 70B」。雖然語言能力、專業學科測試「GPT4-Turbo」表現更佳,但唯獨「安全與責任」分數都遜於「Gemini Pro」和「Llama2 70B」。研究顯示中國企業開發的AI大語言模型英文能力出現劣勢,只有「文心一言4」登上前5位,料與其訓練數據大多是中文有關。
延伸閱讀︰【AI工具】Microsoft推出Copilot for Finance 利用AI技術幫助用戶簡化財務流程!
延伸閱讀︰【職場趨勢】人工智能成為辦公工好幫手 調查:文職人員的AI使用率按季升24%
【AI工具】Google Chrome引入3大AI功能 幫助用戶撰寫內容
最新專訪片︰
【CEOTalks】無懼挑戰 積極與員工建立平等溝通橋樑 喆麗控股創辦人Joshua:創業如同一場馬拉松比賽 堅毅不屈的才能克服困難