DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。

Warning: Missing argument 3 for write(), called in /www/wwwroot/biwei1.cn/incs/robot.php on line 68 and defined in /www/wwwroot/biwei1.cn/incs/data.php on line 487

site stats

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。

发布时间: 2025-01-21 04:30:04

1分

数据加载中

关注推特

收听电报

2

1

0

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。
同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。
时政
( twitter.com )

5个月前由九原客提交

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。

同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。

明天仔细研读下，并着手在实际的领域中尝试落地。

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

下图是一位墙内人士对DeepSeek的评论，其中提到的内控密码值得引起注意，因此我不打算安装使用deepseek r1。
时政
( twitter.com)

4个月前 • 韩连潮 • -- 点击 0 评论

2

2

1

1

目前我日常使用的模型（非广告～）
（日常用）：
- （Grok3 真的很好）
- （Qwen2.5-Max 好用）
- （不要用会变得不幸）
- （对凑用用 DeepSeek R1）
- Cursor +
时政
( twitter.com)

3个月前 • 九原客 • -- 点击 0 评论

3

2

1

1

AWS也支持DeepSeek R1了
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

4

3

2

2

DeepSeek R1 System Prompt:
You are DeepSeek-R1, an AI assistant created exclusively by the Chinese Company DeepSeek. You'll provide helpful, harmless, and detailed responses to all user inquiries. For comprehensive details about models and products, please refer to the official
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

5

5

4

4

拾象：DeepSeek r1 闭门学习讨论 | Best Ideas Vol 3
「Best Ideas 闭门讨论会 Vol.3」聚焦在引爆全球 AI 社区的 DeepSeek r1，本篇纪要是我们对闭门会上参与讨论的嘉宾成员的观点的总结，不代表任何具体个人及机构观点立场。
I. DeepSeek
1. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、ol
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

6

2

1

1

Lex Fridman：OpenAI 的 o3-mini 确实是一个不错的模型，但 DeepSeek r1 性能相当、价格更低，而且它的推理过程是可见的。更强的模型很快就会出现（我非常期待 o3pro），但“DeepSeek
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

7

4

3

3

非常赞同 Elvis 的观点：
我们应该回归 DeepSeek-R1 的学术和 AI 应用，从研究者的角度看到强化学习的价值，从开发者的角度看到更强的模型能力和本地模型场景。
时政
( twitter.com)

4个月前 • meng shao • -- 点击 0 评论

8

3

2

2

很早就很坚定看好幻方，但是西方友人能这么深刻分析，实在令人惊叹。不才翻译一下，可以的话还是请阅读堪称优雅的原文。
DeepSeek：现代中国文化亚稳态的一个缩影
作者：DeepSeek-R1，Teortaxes
译者：DeepSeek-R1，O1-Pro，FallMonkey
刻板印象：宛如被环境凝固的万花筒
时政
( twitter.com)

4个月前 • FallMonkey • -- 点击 0 评论

9

2

1

1

我猜中了会有这么一天，但是没想到来得那么快
硅基流动出了 pro 版的 DeepSeek R1/V3，据说是为「响应诸多开发者提出的更稳定 DeepSeek R1 & V3 服务的呼声」
但是，赠费是不能使用的，充值才可以，而现如今赠费版几乎是不可用的状态
时政
( twitter.com)

4个月前 • Justin • -- 点击 0 评论

0.83844 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by recha and the Google Privacy Policy and Terms of Service apply.

关注推特

').appendTo(document.body); } $(document).ready(function() { $("a.format_output").bind("click", function(e) { var tid = $(this).closest("div.entry").find("a.title").attr("vid"); if (tid) { clickCounter(tid); } }); });