人人爽人人澡人人人妻、百度-字幕网中文字幕精品一区-亚洲综合高清一区二区三区-美女裸体跪姿扒开屁股无内裤-天天爽夜夜爽夜夜爽-久久久久精品国产三级美国美女-精品精品国产国自在线-国产白丝jk捆绑束缚调教视频-欧洲熟妇色xxxx欧美老妇软件

首頁 資訊 > 金融 > 正文

前沿?zé)狳c:DeepSeek團隊發(fā)布新型視覺壓縮模型DeepSeek-OCR


(相關(guān)資料圖)

智通財經(jīng)APP獲悉,10月20日,DeepSeek-AI團隊推出全新研究成果——DeepSeek-OCR,提出通過視覺模態(tài)壓縮長文本上下文的創(chuàng)新方法,即是把長長的上下文渲染成一張圖片再喂給模型,讓原本需要數(shù)千上萬個文本token的上下文,只需幾百個視覺token就能表示,實現(xiàn)信息的高效壓縮。

據(jù)悉,DeepSeek-OCR由兩個部分組成:核心編碼器DeepEncoder和解碼器DeepSeek3B-MoE-A570M。DeepEncoder專為在高分辨率輸入下保持低計算激活而設(shè)計,同時實現(xiàn)高壓縮比,以控制視覺token數(shù)量在可管理的范圍內(nèi)。

實驗顯示,當文本token數(shù)量不超過視覺token的10倍(壓縮比低于10x)時,模型的OCR(文字識別)精度可達97%;即便壓縮比提高到20x,準確率仍保持約60%,展現(xiàn)出在歷史文檔長上下文壓縮和大語言模型記憶機制研究中的巨大潛力。DeepSeek-OCR同時具備較高的實際應(yīng)用價值。

在OmniDocBench測試中,DeepSeek-OCR使用100個視覺token就超過了階躍星晨的GOT-OCR2.0(每頁256個token),而使用不到800個視覺token便優(yōu)于上海AI實驗室的MinerU2.0(平均每頁超過6000個token)。在實際生產(chǎn)中,DeepSeek-OCR可在單塊A100-40G顯卡上每天生成超過20萬頁的大語言模型/視覺語言模型訓(xùn)練數(shù)據(jù)。

關(guān)鍵詞: 財經(jīng)頻道 財經(jīng)資訊

最近更新

關(guān)于本站 管理團隊 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.jxytsy.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號-3