电子发烧友

技术资料
元器件/IC

搜索历史

清空

搜索热词

搜索历史

清空

搜索热词

全文搜索
- 全文搜索
- 标题搜索
全部时间
- 全部时间
- 1小时内
- 1天内
- 1周内
- 1个月内
默认排序
- 默认排序
- 按时间排序

大家还在搜

pppoe连接是什么意思? oppo手机型号 pppoe是什么意思 oppox6pro支持频段 oppo手机 opponent opposite oppo电源管理芯片 oppofindx6pro散热技术 oppose

一文解析PPO算法原理

Reward Model的初始化：6B的GPT-3模型在多个公开数据（(ARC, BoolQ, CoQA, DROP, MultiNLI, OpenBookQA, QuAC, RACE, and Winogrande）上fintune。不过Paper中提到其实从预训练模型或者SFT模型开始训练结果也差不多。

2024-01-09 12:12
怎样让PPO训练更稳定？早期人类征服RLHF的驯化经验

尽管鲁迅先生曾言：真的强化敢于直面惨淡的结果，敢于正视崩坏的曲线。但日复一复地开盲盒难免会让人心脏承受不了，好在前人们留下了宝贵的驯化经验，今天让我们一起看看“如何稳定且有效地训练PPO”。

2023-11-16 11:41
RLHF实践中的框架使用与一些坑 (TRL, LMFlow)

我们主要用一个具体的例子展示如何在两个框架下做RLHF，并且记录下训练过程中我们踩到的主要的坑。这个例子包括完整的SFT，奖励建模和 RLHF, 其中RLHF包括通过 RAFT 算法（Reward rAnked FineTuning）或者TRL-PPO 对齐模型两个部分。

2023-06-20 14:36
18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

本来转自：DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术（如PPO、A3C、PlaNet等）的实现原理与编码过程，旨在通过理论结合代码的方式，构建对强化学习算法的全面理解。为确保内容

2025-04-23 13:22 颖脉Imgtec 企业号
基于ML-Agents v0.4，在Unity 2018搭建的虚拟城市环境中训练了一辆自动驾驶车辆

基于ML-Agents可以将自动驾驶车辆摄像头获取道路的图片信息，发送给Python的训练模型，利用图像识别提取图片中的参数信息。例如：前方障碍物的分类，距离以及运动方向的判断，发送给PPO训练模型，并将模型输出的命令发送回车辆，控制车辆在虚拟环境中行驶。

2018-07-09 16:33
全新的强化学习算法:柔性致动/评价(soft actor-critic,SAC)

为了评价新型算法的表现，研究人员首先在仿真环境中利用标准的基准任务来对SAC进行了评测，并与深度确定性策略梯度算法(DDPG),孪生延迟深度确定性策略梯度算法(TD3)，邻近策略优化(PPO)等算法进行了比较。几种算法在三种基本的模拟移动任务上进行了性能比较，分别是豹，蚂蚁和人形。

2018-12-20 10:31
MAX14900E八通道、高速、工业高边开关技术手册

~ = +125°C时，具有165mΩ (最大)低导通电阻。驱动电阻负载时，高边开关的输入至输出传输延迟为2μs (最大)。推挽式操作的PWM/PPO控制中，开关频率达100kHz，可驱动长电缆。可将多个高边开关并联，实现较高驱动电流。器件具有较宽的10V至36V电源输入范围。

2025-05-21 14:12