摘要
首次实现细粒度稀疏注意力,在几乎不损失模型质量的前提下,显著提升长文本训练与推理效率。
V3.2-Exp与V3.1-Terminus在相同训练设置下对比测试,结果显示两者在主流公开评测集上表现几乎持平,验证优化有效性。
新模型已同步更新至App、网页端及小程序,API调用价格下调超50%,大幅降低开发者使用门槛。
V3.2-Exp模型已在Huggingface与魔搭平台开源,支持用户自由访问与二次开发,推动社区共建。
2025年9月29日,DeepSeek-V3.2-Exp模型发布,V3.2-Exp在V3.1-Terminus 的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
DeepSeek Sparse Attention的核心创新在于首次实现了细粒度的稀疏注意力机制,这一机制能够在几乎不影响模型输出质量的前提下,大幅提高长文本的处理效率。
并且,为了确保优化效果的可验证性,V3.2-Exp的训练设置与V3.1-Terminus进行了严格对比,结果显示,V3.2-Exp在各大公开评测集上的表现与V3.1-Terminus几乎持平。
与此同时,DeepSeek还宣布,V3.2-Exp版本已同步更新至官方App、网页端及小程序,并且API价格大幅度下调。在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。
此外,DeepSeek表示,V3.2-Exp模型已在Huggingface与魔搭平台开源,用户可以直接访问并进行二次开发。
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.nodgame.com/66815.html