您现在的位置是: > 快讯快讯

问链网:强化Agent能力,融入思考推理

zhoucl 2025-12-01 20:10:49 快讯 已有人查阅

导读今天,我们同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2是我们推出的首个将思考融入工具使用的模型,并且同时支持思考模式与非思考模式的工具调用。我们提出了一种大规模Agent训练数据合成方法,构造了大量“难解答,易验证”的强化学习任务(1800 环境,85,000 复杂指令),大幅提高了模型的泛化能力。(DeepSeek)

今日,我们正式发布两款模型:DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale。

DeepSeek-V3.2 是首款将思考过程融入工具使用的模型,支持思考模式与非思考模式下的工具调用。

我们提出一种大规模 Agent 训练数据合成方法,构建了超过 1800 个环境、85,000 条复杂指令的“难解答、易验证”强化学习任务,显著提升模型泛化能力。

本文标签:

很赞哦! ()