Date

2 年前

强化学习是机器学习的重要分支，也是多学科领域的交叉产物，其本质是解决 Decision Making 问题，即实现自动决策且可做连续决策。

强化学习主要包含四个元素：Agent 、环境状态、行为、奖励，其目标是获得最多的累计奖励。

强化学习分类

从元素的角度进行分类，方法主要有以下几种：

Policy based：关注点是找到最优策略；
Value based：关注点是找到最优奖励总和；
Action based：关注点是每一步的最优行动。

父级词：机器学习

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

Date

2 年前

强化学习是机器学习的重要分支，也是多学科领域的交叉产物，其本质是解决 Decision Making 问题，即实现自动决策且可做连续决策。

强化学习主要包含四个元素：Agent 、环境状态、行为、奖励，其目标是获得最多的累计奖励。

强化学习分类

从元素的角度进行分类，方法主要有以下几种：

Policy based：关注点是找到最优策略；
Value based：关注点是找到最优奖励总和；
Action based：关注点是每一步的最优行动。

父级词：机器学习

Related Wiki

组方差策略优化 GVPO

基于 GRPO 等微调技术现有局限性，GVPO 作为一种可靠、多功能的后训练范式应运而生。

2 个月前

代理熵平衡策略优化 AEPO

AEPO 专注于在高熵工具调用指导下平衡和合理化策略扩展分支和策略更新。

1 个月前

HiPO 混合策略优化框架

HiPO 用于自适应 LLM 推理，主要包括混合数据构建和混合强化学习。

1 个月前

在线强化学习框架 ReinFlow

ReinFlow 具有轻量级实现、内置探索功能，并能广泛适用于各种流策略变体。

2 个月前

智能体上下文工程 Agentic Context Engineering

ACE 通过动态优化输入上下文使智能体能够自我改进。

2 个月前

赫胥黎–哥德尔机 Huxley–Gödel Machine

在编码代理环境下近似 Gödel Machine，并通过具有自适应调度的 Thompson 采样来指导扩展。

1 个月前

搜索自博弈 Search Self-play

SSP 展现了自博弈作为可扩展且数据高效的智能体 LLM 训练范式的潜力。

1 个月前

多智能体工作流程 CudaForge

CudaForge 是一个简单有效且低成本的用于 CUDA 内核生成和优化的多智能体工作流程。

1 个月前

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

强化学习 Reinforcement Learning

强化学习分类

父级词：机器学习

Build AI with AI

HyperAI Newsletters

Command Palette

强化学习 Reinforcement Learning

强化学习分类

父级词：机器学习

Related Wiki

组方差策略优化 GVPO

代理熵平衡策略优化 AEPO

HiPO 混合策略优化框架

在线强化学习框架 ReinFlow

智能体上下文工程 Agentic Context Engineering

赫胥黎–哥德尔机 Huxley–Gödel Machine

搜索自博弈 Search Self-play

多智能体工作流程 CudaForge

Build AI with AI

HyperAI Newsletters

Command Palette

强化学习 Reinforcement Learning

强化学习分类

父级词：机器学习

Related Wiki

组方差策略优化 GVPO

代理熵平衡策略优化 AEPO

HiPO 混合策略优化框架

在线强化学习框架 ReinFlow

智能体上下文工程 Agentic Context Engineering

赫胥黎–哥德尔机 Huxley–Gödel Machine

搜索自博弈 Search Self-play

多智能体工作流程 CudaForge

Build AI with AI

HyperAI Newsletters

Related Wiki

组方差策略优化 GVPO

代理熵平衡策略优化 AEPO

HiPO 混合策略优化框架

在线强化学习框架 ReinFlow

智能体上下文工程 Agentic Context Engineering

赫胥黎–哥德尔机 Huxley–Gödel Machine

搜索自博弈 Search Self-play

多智能体工作流程 CudaForge

Related Wiki

组方差策略优化 GVPO

代理熵平衡策略优化 AEPO

HiPO 混合策略优化框架

在线强化学习框架 ReinFlow

智能体上下文工程 Agentic Context Engineering

赫胥黎–哥德尔机 Huxley–Gödel Machine

搜索自博弈 Search Self-play

多智能体工作流程 CudaForge