您现在的位置是：首页 > 快讯快讯

问链网：强化Agent能力，融入思考推理

zhoucl 2025-12-01 20:10:49 快讯已有人查阅

导读今天，我们同时发布两个正式版模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2是我们推出的首个将思考融入工具使用的模型，并且同时支持思考模式与非思考模式的工具调用。我们提出了一种大规模Agent训练数据合成方法，构造了大量“难解答，易验证”的强化学习任务（1800 环境，85,000 复杂指令），大幅提高了模型的泛化能力。（DeepSeek）

今日，我们正式发布两款模型：DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale。

DeepSeek-V3.2 是首款将思考过程融入工具使用的模型，支持思考模式与非思考模式下的工具调用。

我们提出一种大规模 Agent 训练数据合成方法，构建了超过 1800 个环境、85,000 条复杂指令的“难解答、易验证”强化学习任务，显著提升模型泛化能力。

本文标签：

很赞哦！ ()

上一篇：182.79枚BTC从Wintermute转出，价值约1386万美元

下一篇：Circle于11月在Solana网络铸造约80亿美元USDC