首页
产品
海外产品
FaceBook获客
Tiktok获客
WhatsApp获客
instagram获客
Twitter获客
google获客
广告获客
邮件获客
跨境店铺
客服系统
TikTok Ai矩阵营销
WhatsApp Ai产号系统
社媒聚合Ai矩阵
WhatsApp Shop
WhatsApp Ai广告
WhatsApp Ai客服
产品PPT
海外AI聚合营销拓客系统
海外PC版获客系统
Ai企业知识库介绍
外贸营销推广代运营
谷歌站群SEO案例
WhatsApp+deepseek
WhatsApp磐石系统
WhatsApp Ai超链客服
代理加盟分销合作
WhatsApp无限产群系统
国内APP版获客系统
海外获客系统企业版
短剧出海分销系统
国内GEO服务方案
海外GEO服务方案
解决方案
游戏出海营销方案
外贸易询盘服务方案
谷歌站群SEO服务方案
WS/TG/RCS/IM代发服务
厂家
Ai
厂家出海
服务内容
服务套餐
客户案例
关于我们
导航
Ai网址导航
跨境B2C电商导航
跨境B2B外贸导航
游戏App出海导航
AIGC
Ai 智能体
Ai 新闻资讯
Ai 工具导航
Ai 提示词大全
私域聚合API
定制
小程序APP定制开发
搭建Ai企业知识库
搭建教育Ai知识库
搭建公检法Ai知识库
搭建交通Ai知识库
搭建医疗Ai知识库
搭建政务Ai知识库
TikTok专用网络专线
全球直播专线代理
企业级SD-WAN跨境组网服务
资讯
新闻动态
产品公告
营销干货
行业动态
Ai新闻资讯
GEO
国内GEO服务
国际GEO服务
GEO新闻资讯
教程
软件界面
操作教程
帮助中心
文档中心
定价
视频
下载
招商
案例
商城
书签
服务
登录
注册
私域神器全球官方网站
首页
新闻动态
行业动态
DeepSeek 又发新模型,小而美玩出新高度
行业动态
2025年10月27日 下午11:56
245
摘要
DeepEncoder:SAM-base 局部特征 + CLIP-large 全局语义 + 16× 卷积压缩器,多分辨率输入(64‒400
Token
) 一键输出;
DeepSeek
-3B-MoE 解码器:仅激活 5.7 亿参数即可从压缩视觉
Token
高精度重建文本,兼顾容量与速度。
单卡 A100-40G 日处理 20 万页,20 节点集群达 3300 万页/天;在 OmniDocBench 上以 100 视觉
Token
超 GOT-OCR2.0,800
Token
击败 MinerU2.0,训练数据生产成本骤降。
统一提示词即可把图表、化学结构式、几何图形、自然图像等直接转成
结构化数据
(SMILES、LaTeX、JSON),为 STEM 领域提供端到端文档理解能力。
将历史对话渲染成图像并逐级降低分辨率,模拟人类记忆衰退;近期高保真、远期低消耗,理论上实现“无限长”上下文窗口,开辟 LLM 做“减法”的新研究方向。
DeepSeek
开源
了一个 3B 模型
DeepSeek
-OCR。虽然体量不大,但模型思路创新的力度着实不小。
众所周知,当前所有 LLM 处理长文本时都面临一个绕不开的困境:计算复杂度是平方级
增长
的。序列越长,
算力
烧得越狠。
于是,
DeepSeek
团队想到了一个好办法。
既然一张图能包含大量文字信息,而且用的
Token
还少,那不如直接把文本转成图像?这就是所谓的「光学压缩」——用视觉模态来给文本信息「瘦身」。
而 OCR 正好天然适合验证这个思路,因为它本身就是在做「视觉→文本」的转换,而且效果还能量化评估。
论文显示,
DeepSeek
-OCR 的压缩率能达到 10 倍,OCR 准确率还能保持在 97% 以上。
啥意思呢?就是说,原本需要 1000 个文本
Token
才能表达的内容,现在只用 100 个视觉
Token
就搞定了。即使压缩率拉到 20 倍,准确率也还有 60% 左右,整体效果相当能打。
OmniDocBench 基准测试结果显示:
只用 100 个视觉
Token
,就超过了 GOT-OCR2.0(每页 256 个
Token
)的表现
用不到 800 个视觉
Token
,干翻了 MinerU2.0(平均每页超过 6000 个
Token
)
在实际生产中,
一块 A100-40G 显卡就能每天生成超过 20 万页的 LLM/VLM 训练数据。20 个节点(160 块 A100)直接飙到每天 3300 万页。
DeepSeek
-OCR 由两个核心组件组成:
DeepEncoder(编码器):负责图像特征提取和压缩
DeepSeek
3B-MoE(解码器):负责从压缩后的视觉
Token
中重建文本
让我们来重点说说 DeepEncoder 这个引擎。
它的架构很巧妙,通过把 SAM-base(8000 万参数)和 CLIP-large(3 亿参数)串联起来,前者负责「窗口注意力」提取视觉特征,后者负责「全局注意力」理解整体信息。
中间还加了个 16×卷积压缩器,在进入全局注意力层之前把
Token
数量大幅砍掉。
举例而言,一张 1024×1024 的图像,会被切成 4096 个 patch token。但经过压缩器处理后,进入全局注意力层的
Token
数量会大幅减少。
这样的好处是,既保证了处理高分辨率输入的能力,又控制住了激活内存的开销。
而且 DeepEncoder 还支持多分辨率输入,从 512×512 的 Tiny 模式(64 个
Token
)到 1280×1280 的 Large 模式(400 个
Token
),一个模型全搞定。
目前
开源
版本支持的模式包括原生分辨率的 Tiny、Small、Base、Large 四档,
还有动态分辨率的 Gundam 模式,灵活性拉满。
解码器用的是
DeepSeek
-3B-MoE 架构。
别看只有 3B 参数,但采用了 MoE(混合专家)设计——64 个专家中激活 6 个,再加 2 个共享专家,实际激活参数约 5.7 亿。这也让模型既有 30 亿参数模型的表达能力,又保持了 5 亿参数模型的推理效率。
解码器的任务就是从压缩后的视觉
Token
中重建出原始文本,这个过程可以通过 OCR 风格的训练被紧凑型
语言模型
有效学习。
数据方面,
DeepSeek
团队也是下了血本。
从互联网收集了 3000 万页
多语言
PDF 数据,涵盖约 100 种语言,其中中英文占 2500 万页。
数据分两类:粗标注直接用 fitz 从 PDF 提取,主要训练少数语言的识别能力;精标注用 PP-DocLayout、MinerU、
GOT-OCR2.0
等模型生成,包含检测与识别交织的高质量数据。
对于少数语言,团队还搞了个「模型飞轮」机制——先用有
跨语言
泛化能力的版面分析模型做检测,再用 fitz 生成的数据训练 GOT-OCR2.0,然后用训练好的模型反过来标注更多数据,循环往复最终生成了 60 万条样本。
此外还有 300 万条 Word 文档数据,主要提升公式识别和 HTML 表格解析能力。
场景 OCR 方面,从 L
AI
ON 和 Wukong 数据集收集图像,用 PaddleOCR 标注,中英文各 1000 万条样本。
DeepSeek
-OCR 不仅能识别文字,还具备「深度解析」能力,只需一个统一的提示词,就能对各种复杂图像进行结构化提取:
图表:金融研究报告中的图表可以直接提取为
结构化数据
化学结构式:识别并转换为 SMILES 格式
几何图形:对平面几何图形进行复制和结构化解析
自然图像:生成密集描述(dense captions)
这在 STEM 领域的应用潜力巨大,尤其是化学、物理、数学等需要处理大量符号和图形的场景。
第一作者
Haoran Wei 此前曾供职于阶跃星辰,期间发布并
开源
了 GOT-OCR2.0 系统
值得注意的是,
DeepSeek
团队在论文里还提出了一个脑洞大开的想法——用光学压缩模拟人类的遗忘机制。
人类的记忆会随时间衰退,越久远的事情记得越模糊。
DeepSeek
团队想,那能不能让
AI
也这样?
于是,他们的方案是:
1.
把超过第 k 轮的历史对话内容渲染成图像
2.
初步压缩,实现约 10 倍的
Token
减少
3.
对于更久远的上下文,继续缩小图像尺寸
4.
随着图像越来越小,内容也越来越模糊,最终达到「文本遗忘」的效果
这就很像人类记忆的衰退曲线,近期信息保持高保真度,久远记忆自然淡化。
虽然这还是个早期研究方向,
但如果真能实现,对于处理超长上下文将是个巨大突破——近期
上下文保持
高分辨率,历史上下文占用更少计算资源,理论上可以支撑「无限上下文」。
简言之,
DeepSeek
-OCR 表面上是个 OCR 模型,但实际上是在探索一个更宏大的命题:能否用视觉模态作为 LLM 文本信息处理的高效压缩媒介?
初步答案是肯定的,7-20 倍的
Token
压缩能力已经展现出来了。
当然,团队也承认这只是个开始。
单纯的 OCR 还不足以完全验证「上下文光学压缩」,后续还计划开展数字–光学文本交替预训练、「大海捞针」式测试,以及其他系统性评估。
不过不管怎么说,这在 VLM 和 LLM 的进化路上,又多了一条新赛道。
去年这个时候,大家还在卷怎么让模型「记得更多」。今年
DeepSeek
直接反其道行之,不如让模型学会「忘掉一些」。
确然,
AI
的进化,有时候不是做加法,而是做减法。小而美,也能玩出大花样,
DeepSeek
-OCR 这个 3B 小模型就是最好的证明。
相关新闻
专访FoloToy创始人:接入大模型后,目标把AI玩具做到年出货30万台
一场游戏直播超2亿人观看,你需要重新理解快手了
苏嘉科技 Funder and Managing Director Jaron Tam确认担任2022全球互联网产业CEO大会 线上品牌DTC分论坛演讲嘉宾
《王者荣耀》国际版年内上线,消息冲上微博热搜
美团Keeta入局巴西先投10亿美金,部分沙特团队已转战巴西
MPU 2024年报发布:FlexTV年收入超3600万美元 同比增长6倍 活跃用户达1000万
抛弃东南亚?短剧出海押宝欧美妞?
新游观察丨小马哥强调手游出海 腾讯新作《APEX Legends》登顶72个国家免费榜
东南亚电商开始“变天”了吗?
2025全球手游流水榜:《王者荣耀》112亿,《Last War》105亿,《无尽冬日》98亿
2024年2月全球热门移动游戏下载量TOP10
《2022年全球电商平台报告》:流量、品类及站点分布
让世界记住的不止是商品:中国品牌的全球表达力正在生长
上线就爆单,TikTok吸粉80万,AR穿戴彩瞳在海外有多火?
美团AI大动作,防守还是进攻?
焊接品牌YesWelder如何引爆海外社交平台,赢得10w+追随者?
私域神器每周合作精选No.101|动作塔防,中重度产品找海外发行;需要俄罗斯mlbb游戏充值货源;寻可推广苹果包的代投
短剧“变天”,AI真人剧产能暴涨千倍
灵巧手头部创业公司灵心巧手获新融资,蚂蚁集团、中金观博成新股东
盲盒出海也挺香,看财报破解泡泡玛特的海外超10亿营收密码
年度盘点 | 隐于闹市,低调增长 谁在偷吃网文出海这块大蛋糕?
大变局:韩国正式立法,将强制苹果/谷歌开放三方支付
印度教育科技行业正在被美国企业“渗透”
索尼发布会的一款中国风“打拳游戏”引海外玩家集体高潮?
一条价值千金的建议:如何从0到1做好投放测试?
开年狂飙!不到2个月,出海企业扎堆赴港IPO,AI/跨境电商/云服务齐发力
Yandex Ads 推出新版移动广告 SDK,助力全球开发者提升应用变现能力
游戏公司出海必备:美国儿童数据保护的6个监管趋势 | “游”法可依
游艺春秋 CEO 陈澍确认担任2022全球互联网产业CEO大会 主峰会演讲嘉宾
2022年西班牙跨境网购消费趋势报告
AI群聊成春节新战场
Valve再度遭集体诉讼其“非法赌博”
营收狂飙1000%,亚马逊卖家抢夺拉美人的钱包|深度
微软副总裁采访:600人团队服务开发者,微软如何构建游戏生态圈?
一年卖出700亿,“中国童装之都”如何驶向海外?
两周内快速起量至上万美元量级,社媒营销引流YYDS
100+品牌参与,第二届品创·品牌节在京成功举办
给奶牛带AI项圈,干成10亿美元独角兽!Halter是怎么做到的?
末日生存SLG市场将迎来变局? IGG《黎明再现》日韩台上线
曾经辉煌的E3游戏展,没有逃过被遗弃的结局
OpenAI放王炸!Sora、满血o1,连续12天发布最新技术!
年收5亿,单日流水5000万,一款非头部MOBA游戏的生存之道
前10位交友软件合计MAU, 3年内增加35%
SHEIN 想在巴西做一个淘宝;Temu 或将进入加拿大和西班牙;双十一快递面临更复杂挑战
AI生图赛道的出海“卷王”,试图在“灵魂交友”中重构AI社交
SLG门槛5000万?买量单价20美元?他们眼中的“卷王”SLG市场
数说苹果,在极不平凡的一年中取得了哪些成就?
Flat Ads:“狂飙”的程序化广告CTV,助力全球化营销增长
重磅官宣!法国平台利器“独角兽”公司和Cubyn达成战略合作,强强联合
冻结工资、降低奖金!又一个跨境电商公司陷入寒冬……
SHEIN成为跨境出海影响力第一平台,撼动亚马逊
TikTok Shop跨境POP欧洲入驻标准放宽
阿里电商在东南亚:被支援的Lazada,“左右互搏”的1688和国际站
《三国志•战略版》拿下畅销Top5,三国SLG要在韩国市场“二次崛起”了?
滴滴海外业务恢复增长 进军新西兰
外卖大战在巴西打响:数十亿美元已砸下
接不接DeepSeek?互联网大厂的新天问
女性+品牌=?!“第四届全球女性消费品牌大会·杭州站”在嗨创周超燃呈现
印度不太可能撤销《PUBG Mobile》禁令,暴力问题或成主要原因
2022年上半年,腾讯网易和朝夕光年下架了多少游戏?
在海外爆火的三消+SLG,到了国内还能玩得转吗?
7月国产网络游戏审批信息:105款游戏收获版号
1024北京DACon数智大会汇聚100位顶尖专家,共创AI新纪元
巴基斯坦总理致信扎克伯格 要求FB禁仇视穆斯林言论
蜻蜓FM CTO 苏格林 确认担任 GICC2025丨第六届全球互联网产业CEO大会主峰会圆桌嘉宾!
日本消费税新规冲击,中国厂商或面临合规挑战
TikTok之后,腾讯成为特朗普的下一个“靶子”
SHORTTV LIMITED、广州七火山科技有限公司、LuckyShort确认加入PAGC2024丨短剧对接会
亚马逊又一热销品爆雷,超17万件产品被紧急召回
圆桌讨论:破圈·技术引力场——Akamai 华南区互联网事业部 总经理 唐鉴维、INSIGHT ENTERTAINMENT 创始人 宋月雷、爱聊科技 CTO 周彤
董宇辉太牛了,单干30天,干了7个亿
当跨境电商不再需要“海盗精神”
Brawl Stars(荒野乱斗)玩家用户支出超过 20 亿美元
阿里巴巴的新模型AnyText:动动嘴就能1分钟做出一张电商大促海报
深度 | TikTok内部人士解密TikTok成功之道:战略、文化与创新深度解析
《泰坦尼克号》导演卡梅隆,加入生成式AI赛道
“走路就能赚钱”的脚下生意火到海外
亚马逊美国站广告成本最高,CPC增速放缓
AIGC最佳试验场?大厂集结短剧、漫剧
华东第一家!海外营销体验中心于上海完美落成
发表回复
You must be logged in to post a comment...
Please
Login
to Comment
提交
联系我们
联系我们
13276019273
邮件:siyushenqi@gmail.com
工作时间:周一至周五,9:30-20:30,节假日休息
添加微信
Telegram
分享本页
返回顶部
私域神器:一站式全网全渠道拓客营销软件
备用域名:
https://www.siyushenqi.com