科大訊飛發布業界首個長文本 長圖文 長語音大模型
(大公文匯網 記者 趙臣 合肥報道)4月26日,訊飛星火大模型V3.5(以下簡稱「訊飛星火」)春季上新,發布業界首個長文本、長圖文、長語音大模型。
據科大訊飛介紹,在知識獲取和學習的過程中,廣大用戶能拿到的資料往往不僅是現成的長文本,還有隨手可見的報刊書籍內容、各種研討會的PPT內容,老師黑板上的板書、同學的筆記,以及各種會議錄音、訪談,各種網上的發布會、培訓教育視頻等,能不能把這些文本、圖片、語音等都上傳到訊飛星火中,快速地獲取知識?為此,科大訊飛推出首個支持長文本、長圖文、長語音的大模型,來解決用戶真實場景中多源信息的獲取需求。
本次訊飛星火長文本功能全新升級後,具備長文檔信息抽取、長文檔知識問答、長文檔歸納總結、長文檔文本生成等能力,總體已經達到GPT-4 Turbo 4月最新長文本版本的97%水平,而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上,訊飛星火長文本總體水平已經超過GPT-4 Turbo。
面向複雜的圖文場景,科大訊飛在圖文識別、公式識別大賽多年國際第一的技術積累基礎上,首次推出星火圖文識別大模型。據介紹,相比傳統小模型逐行文字識別的限制,星火圖文識別大模型具有三大優勢:能夠直接處理非常複雜的版面分析,目前已經覆蓋31個典型場景,比如書刊、學術論文、專利、報紙、海報、PPT等,同時能自動識別標註出18類不同的版面要素,比如頁眉、頁腳、標題、段落、表格、公式、印章、手寫等;融合篇章上下文語義進行文字識別,識別更精準;面向教育、金融、醫療、科研等專業領域深度優化,能自動實現更多領域的專業符號識別。
此外,面對廣泛的音視頻信息高效獲取需求,科大訊飛此次也推出長語音功能,將國際領先的語音識別和翻譯技術結合起來,可以實現會議錄音、學習視頻等的一鍵研讀,實現音視頻場景的高效知識獲取。
另據七麥數據顯示,訊飛星火APP在安卓端的下載量目前已經超過9600萬次,在國內工具類通用大模型APP中排名第一。
字號:

評論