看不见的深层架构参数预测

OneFlow深度学习框架

企业官方账号

2021-10-28 08:26:35

#看不见的深层架构参数预测# 深度学习在自动化机器学习管道中的特征设计方面取得了成功。然而，优化#神经网络# 参数的算法在很大程度上仍然是手工设计的，并且计算效率低下。#Facebook# 研究人员通过引入神经架构的不同计算图的大规模数据集DeepNets-1M并使用它来探索 CIFAR-10 和#ImageNet# 上的参数预测。通过利用#图神经网络# ，他们提出了一种超网络，即使在#CPU# 上，也可以在几分之一秒的时间内预测单个前向传递中的性能参数。所提出的模型在看不见的和多样化的网络上取得了令人惊讶的良好性能。例如，它能够预测 ResNet-50 的所有 2400 万个参数，在 CIFAR-10 上达到 60% 的准确率。在 ImageNet 上，一些网络的 top-5 准确率接近 50%。他们的任务以及模型和结果可能会导致一种新的、计算效率更高的训练网络范式。他们的模型还学习了神经架构的强大表示，从而能够进行分析。论文：https://arxiv.org/pdf/2110.13100.pdf；代码：https://github.com/facebookresearch/ppuda

...全文

438 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

近年来，学界和业界致力于通过引入先进的网络架构和自监督预训练策略来提高时间序列预测的准确性。然而现有方法存在两大缺点。本文介绍一篇 KDD 2024 中的时间序列预测工作，来自中科大的研究者提出了一种新的生成式...

通过优化模型的参数和流程，深度学习在多个领域取得了显著的进展，推动了AI技术的快速发展。：网络中的隐层数量，层数越多，网络越深，模型的表达能力越强，但也更容易过拟合。这是模型在训练过程中调整的参数，直接...

TimeKAN在保持轻量级架构的同时（参数量比主流模型小1-2个数量级），在多个基准测试中达到SOTA性能，实现了模型复杂度与数据特征的最优匹配。该研究为时间序列预测提供了新的解决方案，并验证了KAN网络在时序任务中...

在大型语言模型（LLM）的发展中，传统 “下一个令牌预测”（Next-Token Prediction, NTP）目标虽奠定了自回归生成的基础，却面临训练效率...本文将从技术本质、核心原理、架构设计、落地流程到应用价值进行全方位解析。

"从简到繁，验证驱动"具体实践：从深层GRU开始建立基线根据性能缺口选择合适的复杂架构始终用验证集性能指导架构选择考虑部署环境的计算约束。

OneFlow深度学习框架

222

社区成员

261

社区内容

发帖

与我相关

我的任务

学习其他企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章