电子发烧友

技术资料
元器件/IC

搜索历史

清空

搜索热词

搜索历史

清空

搜索热词

全文搜索
- 全文搜索
- 标题搜索
全部时间
- 全部时间
- 1小时内
- 1天内
- 1周内
- 1个月内
默认排序
- 默认排序
- 按时间排序

大家还在搜

SGD的随机项在其选择最终的全局极小值点的关键性作用

在这篇题为《将拟势函数视为随机梯度下降损失函数中的隐式正则项》的论文中，作者提出了一种统一的方法，将拟势作为一种量化关系的桥梁，在SGD隐式正则化与SGD的随机项的协方差结构之间建立了联系。

2019-03-06 09:15
Transformer在下一个token预测任务上的SGD训练动态

【导读】 AI理论再进一步，破解ChatGPT指日可待？ Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域，不过目前只是实验效果非常惊艳，对Transformer工作原理的相关研究仍然十分有限。其中最大谜团在于，Transformer为什么仅依靠一个「简单的预测损失」就能从梯度训练动态（gradient training dynamics）中涌现出高效的表征？最近田渊栋博士公布了团队的最新研究成果，以数学严格方式，分析了1层Transformer（一个自注意力层加

2023-06-12 10:11
一种相对直接使用的distillation的变体方法

对于Common Crawl上的语言建模，具有128GPU的同步SGD实现了标准分布式训练的最佳结果，至少是我们尝试过的配置，并且我们无法使用256个GPU来提高训练时间。虽然额外的GPU似乎不能

2018-04-16 11:35
一个框架看懂优化算法

说到优化算法，入门级必从 SGD 学起，老司机则会告诉你更好的还有 AdaGrad / AdaDelta，或者直接无脑用 Adam。可是看看学术界的最新 paper，却发现一众大神还在用着入门级

2018-03-26 11:39
7个实用技巧，让您的深度神经网络发挥最大作用

因此，如果你需要一些快速的结果，或者只是想测试一个新的技术，选择自适应优化器。我发现Adam很容易使用，因为它对你选择完美的学习率并不是很敏感。如果您想获得绝对最佳的最终表现，请使用SGD + Momentum，并使用学习率，衰减和动量值来最大化表现。

2019-04-02 15:12
深入浅出的介绍了深度学习的理论——用理论的力量横扫深度学习！

很多机器学习问题是深度为2的子案例，例如，输入层和输出层之间的一个隐含层。通常假设网络的结构、数据分布，等等。比起GD/SGD，可以使用不同算法，例如张量分解、最小化交替以及凸优化等等。

2018-07-12 09:25
可实现可视化的EDA工具远程调用接口

随着EDA平台服务趋于网络化，如何通过对资源和流程的有效管理，为用户提供更为方便安全的远程EDA平台调用服务，已成为关键问题。在FPGA开发平台上集成了EDA工具环境，并部署SGD软件。

2019-01-20 09:34
一种WS新方法，那它可以超越GN、BN吗？

其中 W^ 卷积层的权重，* 是卷积运算。将图2 所示作为一个例子，WS方法不会直接在原始权重上进行优化，而是采用另一个函数 W^=WS（W）来表示原始权重 W^。然后使用 SGD 算法来更新 W。

2019-04-08 14:36
Apollo 2.5自动驾驶规划控制系统详细介绍

这种降低维度，以退为进的方法，是对规划模块认识上的一个飞跃。通过放弃最优解的追求转而追求较优解，换来系统运算速度、稳定性的极大提高，同时满足无人驾驶系统的整体需求。这一点可以类比机器学习中SGD的思路，放弃对精确梯度方向的寻找，转而寻找近似梯度的方向，从而换来学习速率上的提升。

2018-07-16 11:06
TensorFlow.js 的基本构建块及其操作,如何创建一些复杂的模型

在这里，我们将学习如何解决优化问题。给定函数 f（x），基于 x = a 评估最小化 f（x）。为此，我们需要一个优化器。优化器是一种通过渐变来最小化函数的算法。文献中有许多优化器，如 SGD，Adam 等......这些优化器的速度和准确性各不相同。Tensorflowjs 支持最重要的优化器。

2018-08-01 11:37