正式出炉!重磅发布|日韩精品无码一区二区三区不卡|国产SUV精品一区二AV18款|18av爱库网千部影片|超帅小鲜肉套小蓝GAY|精选国产一区二区三区|daching

首頁 資訊 > 金融 > 正文

前沿熱點:DeepSeek團隊發布新型視覺壓縮模型DeepSeek-OCR


(相關資料圖)

智通財經APP獲悉,10月20日,DeepSeek-AI團隊推出全新研究成果——DeepSeek-OCR,提出通過視覺模態壓縮長文本上下文的創新方法,即是把長長的上下文渲染成一張圖片再喂給模型,讓原本需要數千上萬個文本token的上下文,只需幾百個視覺token就能表示,實現信息的高效壓縮。

據悉,DeepSeek-OCR由兩個部分組成:核心編碼器DeepEncoder和解碼器DeepSeek3B-MoE-A570M。DeepEncoder專為在高分辨率輸入下保持低計算激活而設計,同時實現高壓縮比,以控制視覺token數量在可管理的范圍內。

實驗顯示,當文本token數量不超過視覺token的10倍(壓縮比低于10x)時,模型的OCR(文字識別)精度可達97%;即便壓縮比提高到20x,準確率仍保持約60%,展現出在歷史文檔長上下文壓縮和大語言模型記憶機制研究中的巨大潛力。DeepSeek-OCR同時具備較高的實際應用價值。

在OmniDocBench測試中,DeepSeek-OCR使用100個視覺token就超過了階躍星晨的GOT-OCR2.0(每頁256個token),而使用不到800個視覺token便優于上海AI實驗室的MinerU2.0(平均每頁超過6000個token)。在實際生產中,DeepSeek-OCR可在單塊A100-40G顯卡上每天生成超過20萬頁的大語言模型/視覺語言模型訓練數據。

關鍵詞: 財經頻道 財經資訊

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2023 創投網 - www.jxytsy.com All rights reserved
聯系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3