应用介绍
新的思路不断涌现:推理时扩展(Test-Time Scaling)让 OpenAI 的 o 系列在数学推理上大放异彩,DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破,强化学习 Self-play + LLM 让 AI 在游戏和代码生成中展现惊人能力,Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路都在探寻可能的下一个跃迁。
新的思路不断涌现:推理时扩展(Test-Time Scaling)让 OpenAI 的 o 系列在数学推理上大放异彩,DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破,强化学习 Self-play + LLM 让 AI 在游戏和代码生成中展现惊人能力,Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路都在探寻可能的下一个跃迁。