稀疏低维结构与深度网络有本质的联系 - 学习的出发点,也是终点

SoftwareTeacher
CSDN副总裁·《编程之美》作者
博客专家认证
2022-03-26 08:54:24

马毅老师的发言

https://weibo.com/3235040884/Lltyxyq5p

人们很早就认识到稀疏低维结构与深度网络有本质的联系。Yann LeCun在深度网络大热之前就在研究用学习的方法寻找稀疏解,称为Learned ISTA(ISTA是求稀疏解的经典迭代优化算法,结构与神经网络很相似)。我在我的新书网页链接 的最后一章也从概念和技术层面上建立起了两者本质的关系。而且很长时间,人们也相信(包括我自己多次讲过)不同类型的神经网络本质上是等价的,区别也就是在寻求高维数据中不同类型的低维结构并将它们(线性)稀疏化。最近看到一个有趣的小文章对有代表性的网络给出了另一种简洁明快的证明:网页链接 用作者的原话:“the arguments that we present are elementary, and in many cases, quite trivial.” (文章所用的数学技巧是很基础甚至肤浅的)。 是的,很多本来很清楚很简单的事实,在各种眼花缭乱的个例和不同实现里(当然还有网络自媒体),给遮掩住了。不故弄玄虚,通过现象看本质,才是科研所追求的。可以很肯定的讲,目前为止所有的深度网络模型都是在做同样的事情:通过计算海量高维数据里的相关性,寻找数据的低维结构。只是绝大多数网络,虽然消耗了大量算力,学到的特征表示(feature representations)仍然是隐含(hidden)的,是很不到位的。这也是我们最近提出,学习的根本目的,应该是要学习到结构化的特征表示。通过编码率减少原理rate reduction,就是要找到类似Linear Discriminative Representation (LDR)一样有明确线性稀疏结构的表示。重要的事情讲三遍:这是所有(机器也好生物也好)学习的出发点,也是终点

 

 

https://weibo.com/3235040884/LlrvNgIzJ

我们最新的数据闭环转录(Closed-Loop Transcription)工作刚刚发表在由MIT的Lizhong Zheng教授和TAMU的Chao Tian教授组织的Entropy杂志关于《信息理论与机器学习的专刊》:网页链接 以前讲过,我个人比较喜欢这项工作,因为它把学习生成(generative)和分类(discriminative)模型统一在了一个极其简单的计算框架下;而且把信息理论(information theory)、闭环控制(closed-loop control)、以及机器学习(machine learning)里面最核心的思想概念统一在了一个可计算的框架里;甚至在一定程度上揭示了自然界有可能也是利用类似的闭环转录系统,通过实现两个普适的优化原理:简约(parsimony)和自洽(self-consistency),来完成对所感知的外部世界进行建模的。 从这个角度出发:对于数据分析理解而言,信息理论给出了目标;控制理论给出了优化框架;而机器学习提供了计算手段。这几个领域其实都只是一个更大的“闭环体系”中的一个有机部分。这几周到处讲学传道,其中最重要的message,就是这个新的认知:机器也好,生物也好,对外部世界的感知与建模才是最普遍、最重要、最宏大的闭环学习与控制系统!果真如此,人工智能也好、生物智能也好,应该是遵从同样的优化原则以及利用同样(有效)的计算原理。(对了,我们把新方法命名为Ctrl,因为一位reviewer认为我们的方法比GAN和VAE有优势,建议我们取个名字,以好区分。)

 

https://weibo.com/3235040884/LkTzObnoE 

大家知道训练深度网络最常用的目标函数是Cross Entropy。前两年斯坦福的David Donoho团队的研究网页链接 发现用Cross Entropy训练网络学习到的特征表示features会有neural collapse的现象,也就是每一类的特征会收敛到一维。当时很多人认为这不一定是一件不好的事情,甚至可能对网络的泛化性generalizability有好处。我当时就不这么认为。这个现象激励了我们研究更正确的目标函数,也就是编码率减小原理:网页链接。这种目标函数与Cross Entropy正好相反,能学习到数据分布更完整的信息并且表示成简约的线性结构。这也成了我们后面一系列基于第一性原理推导出白箱深度网络ReduNet以及数据闭环转录Closed-Loop Transcription的基础。最新的一项研究网页链接 看来验证了我关于neural collapse的理解是正确的。Cross Entropy(广泛用于分类模型或生成模型学习)不是学习数据可泛化representations表示最好的目标;而基于信息理论的编码率才是学习数据分布更精确的度量和优化目标。这个关于模型“简约性”客观的度量,看来是一切数据表示学习的起点,也是终极目标。

...全文
641 3 打赏 收藏 举报
写回复
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
SoftwareTeacher 2022-04-21
  • 打赏
  • 举报
回复

马老师的发言: https://weibo.com/3235040884/Lpo3BtUVK

今天上班,邮箱里看到最近IEEE Spectrum封面:Andrew Ng:In AI, Small is the New Big. 非常纳闷,这不是我和一些同事十几年来一直面对巨大阻力顽强坚持的观点?并为之一直辛苦努力的方向吗?我的第一篇有关深度学习的文章就是PCAnet:A simple baseline for deep learning(一个两层完全不用backprop的网络)。我新书的最后一章最后留给读者的一句口号就是:"We compress to learn, and we learn to compress.” 我们最近一系列突破性的进展就是因为这份坚持。最早鼓吹Big模型就是Andrew,现在终于从弯道绕回来了(的确,对中国而言,这是过去十年为数不多的一个弯道超车的机会,可惜大家要跟着别人屁股后面做大模型)。这是要“大小通吃”的节奏?最近Google的Jeff Dean,Stanford的Christopher Re等都开始关注sparsity。看来大家在反智方向跑久了开始逐渐回到智能的本质原理:寻找“简约”、“自洽”的表示。以小见大,适者生存。智能,不管自然的还是将来人工的,会像数学、物理一样:让大家体会到什么是”大道至简“的统一和完美。

SoftwareTeacher 2022-04-08
  • 打赏
  • 举报
回复

马老师的发言: 谁要能看懂图中这一系列严格、系统、统一的论文,相信我,你就走上了机器学习、人工智能,乃至理解智能的正道。我相信自然界的“学习”机制极其简单统一:”We learn to compress and we compress to learn." 也就是学习就是为了将感知到的数据进行有效的聚类和压缩(成低维简单的结构),无它。那这个机制如何严格量化而且变得可计算呢?这就是这一系列论文想要解决的问题。我们从2005年做子空间聚类起,就已经认识到传统的基于Maximum Likelihood,KL-divergence,Jensen-Shannon,mutual information等等的学习目标,在高维空间根本无法计算(NP- hard或者exponential sample complexity),甚至对有低维结构的分布干脆没有定义 -- 所以大家看到实际中各种近似的bounds或者通过粗暴采样(拼算力)。有损编码压缩(lossy conding,或者metric entropy),才是正确的计算框架。现在看来有一统天下之势:有监督学习、无监督学习,分类、聚类,和生成模型。让整个机器学习过程,从目标,到过程(网络),到最后学习到的结构化模型,变成完全的白盒子。而目前林林总总的方法,都是在经验地甚至粗暴地近似这个目标和机制。

https://weibo.com/3235040884/Lnlv1tiPW?pagetype=homefeed

SoftwareTeacher 2022-03-29
  • 打赏
  • 举报
回复 1

将欲敛之,必固张之。-- 《道德经》,老子。这句话英文翻译为:That which shrinks must first expand. 这句话很有哲理。其实也很有数理基础:在寻找高维数据中的低维结构并把它们表示得更简洁时,必然用到这个思想 -- 一团搅在起的线团要压扁不容易,先打散拆开后就很好铺平压扁了。更严格一点,压缩感知让我们放弃了传统的正交基complete basis而认识到使用更一般的overcomplete basis的重要 -- 反而更有利于得到数据更稀疏的表示。深度神经网络也一样,往往先对特征空间升维然后再降维。深度网络刚出来时,大家很困惑的一点是为什么模型很大也不会过拟合(overfit)?其实现在我们明白了,深度网络在最初升维之后,接下来一层一层的功能就是在压缩数据并将结构线性化 -- 也就是ReduNet网络揭示的机制。所以只要升维的目的是为了压缩,再冗余的表示只要后面压缩到位,一般不会出现过拟合。这也是很有趣的事情:神经网络中绝大部分参数,不是用于过拟合数据,反而正好相反,是在实现压缩数据表示内在维度的功能 -- Learn to compress, and compress to learn。所以很多事情,表象与本质可能正好相反。老子的道德经里把这一点阐述得很多。只是我们做科学的,在有具体数理事实之前,往往认为这些是玄学,自相矛盾,忽悠成分居多。这一点好像老子也预料到了,固有:“玄之又玄,众妙之门。”之语。当然老子肯定没有料到他的思想对现代数据分析有如此中肯的诠释。今有此悟,实在也算是妙不可言。
https://weibo.com/3235040884/LlYz7dnTE?pagetype=profilefeed

相关推荐
发帖
High-Dimensional DA

181

社区成员

High-Dimensional DA
社区管理员
  • 程程程序猿啊
  • SoftwareTeacher
加入社区
帖子事件
编辑了帖子 (查看)
2022-03-26 09:06
创建了帖子
2022-03-26 08:54
社区公告
暂无公告