正式出炉!重磅发布|日韩精品无码一区二区三区不卡|国产SUV精品一区二AV18款|18av爱库网千部影片|超帅小鲜肉套小蓝GAY|精选国产一区二区三区|daching

首頁資訊 > 金融 > 正文

前沿?zé)狳c(diǎn):DeepSeek團(tuán)隊(duì)發(fā)布新型視覺壓縮模型DeepSeek-OCR

2025-10-20 20:12:49 來源: 智通財(cái)經(jīng)

(相關(guān)資料圖)

智通財(cái)經(jīng)APP獲悉，10月20日，DeepSeek-AI團(tuán)隊(duì)推出全新研究成果——DeepSeek-OCR，提出通過視覺模態(tài)壓縮長文本上下文的創(chuàng)新方法，即是把長長的上下文渲染成一張圖片再喂給模型，讓原本需要數(shù)千上萬個(gè)文本token的上下文，只需幾百個(gè)視覺token就能表示，實(shí)現(xiàn)信息的高效壓縮。

據(jù)悉，DeepSeek-OCR由兩個(gè)部分組成：核心編碼器DeepEncoder和解碼器DeepSeek3B-MoE-A570M。DeepEncoder專為在高分辨率輸入下保持低計(jì)算激活而設(shè)計(jì)，同時(shí)實(shí)現(xiàn)高壓縮比，以控制視覺token數(shù)量在可管理的范圍內(nèi)。

實(shí)驗(yàn)顯示，當(dāng)文本token數(shù)量不超過視覺token的10倍(壓縮比低于10x)時(shí)，模型的OCR(文字識(shí)別)精度可達(dá)97%；即便壓縮比提高到20x，準(zhǔn)確率仍保持約60%，展現(xiàn)出在歷史文檔長上下文壓縮和大語言模型記憶機(jī)制研究中的巨大潛力。DeepSeek-OCR同時(shí)具備較高的實(shí)際應(yīng)用價(jià)值。

在OmniDocBench測試中，DeepSeek-OCR使用100個(gè)視覺token就超過了階躍星晨的GOT-OCR2.0(每頁256個(gè)token)，而使用不到800個(gè)視覺token便優(yōu)于上海AI實(shí)驗(yàn)室的MinerU2.0(平均每頁超過6000個(gè)token)。在實(shí)際生產(chǎn)中，DeepSeek-OCR可在單塊A100-40G顯卡上每天生成超過20萬頁的大語言模型/視覺語言模型訓(xùn)練數(shù)據(jù)。

關(guān)鍵詞：財(cái)經(jīng)頻道財(cái)經(jīng)資訊

您可能也感興趣:

今日熱點(diǎn)

【糧食大事】增強(qiáng)糧食全鏈條協(xié)同保障能力

北交所將穩(wěn)步擴(kuò)大指數(shù)化投資

融券新規(guī)對(duì)ETF投資有影響么？

更多

更多

排行

最近更新

今日要聞

關(guān)于本站管理團(tuán)隊(duì) 版權(quán)申明網(wǎng)站地圖聯(lián)系合作招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.jxytsy.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3