CSDN论坛 第6期专家问答——视觉跟踪和Deep learning问题答疑

CSDN 2013-05-20 01:53:20
加精
CSDN论坛本期专家问答我们请来了zouxy09为大家解答视觉跟踪和Deep learning开发相关问题。

问答时间:5月20日~5月27日

问答规则:视觉跟踪和Deep learning相关都可以在此提问。

问答奖励:问答结束后会随机抽取3名用户,奖励最新一期《程序员》杂志一本。

专家简介



邹晓艺 id:zouxy09

华南理工大学研究生在读,主要研究方向是计算机视觉(视觉跟踪方向)、机器学习和人机交互。本科是材料专业的,对嵌入式感兴趣,曾自学嵌入式Linux的知识。目前关注的主要是任意手势跟踪和Deep Learning方面,现为CSDN博客专家

博客主页http://blog.csdn.net/zouxy09

微博地址http://weibo.com/u/2528300757
...全文
10593 77 打赏 收藏 转发到动态 举报
写回复
用AI写文章
77 条回复
切换为时间正序
请发表友善的回复…
发表回复
你不走吗 2015-06-27
  • 打赏
  • 举报
回复
博主大神你好,我视觉跟踪菜鸟一枚,博主了解有关于稀疏表示的在线视觉吗,用粒子滤波。通常都是在哪儿能怎么找到相关的代码呢?
lonelyrains 2015-06-04
  • 打赏
  • 举报
回复
居然本科是材料的... 跪了
John小川 2015-03-10
  • 打赏
  • 举报
回复
感谢楼主分享自己的经验,受益良多! 本人现在是软件工程大四学生,准备攻读机器学习方向的直博生,但是之前没有接触学习过相关的知识,最近刚开始做本科毕设(基于深度学习实现一个图像识别框架,在ImageNet上实现初步的识别结果),现在不知道该从何入手,希望晓艺楼主能给一些学习,较快入手的建议,真心感谢!
引用 47 楼 zouxy09 的回复:
[quote=引用 16 楼 wuie12345 的回复:] 关注博主的文章很久了。博主实际上进入机器视觉领域的时间并不长,但是在这么短的时间内能够吃透这么多的算法,并以通俗易懂的方式描述出来,如此惊人的学习能力着实让人佩服,真是让小弟自叹不如啊。小弟进入CV领域也有一定时间了,但一直苦于知识获取速度的缓慢,计算机是一个知识激增的领域,需要不断的获取新的知识才能在这一领域立足。作为一名研究生,论文的阅读是必不可少的,大量文献的阅读对于自身的研究是有极大帮组的。 于是我的问题来了,不知晓艺博主平时在阅读文献时,有什么快速阅读的方法吗?或者说,在获取新知识时,哪些习惯是一个研究人员必须养成的呢? 还希望晓艺博主能够给出详细的回复。期待哦~
呵呵,很多算法我也是因为好奇它所宣扬的神奇的效果,然后去想一探究竟的。但很多我也只是在门外看看,知道里面发生了什么事而已,但更深入的走进去看看,挖掘里面发生的事情的来龙去脉,我还是比较缺乏的。 关于阅读文献的话,对于我来说,是看我的目的是什么。如果是抱着检索的目的,也就是尝试从不同的论文中找到某一个方法是什么用或者怎么描述的,那么只需要简要的浏览其他部分,然后对关键部分进行细读即可。如果目的是想真正了解这个算法,那么就必须细读了,我的习惯一般是翻译主要的地方,然后按照自己的思路总结一遍。另外,对于理解一个算法,论文最多只能提供70%的信息,如果是保守点的论文,就更少了,所以更多的信息需要从其参考文献和其代码中获得,这两个附加部分起到的作用是非常关键的。还需要指出的一点是,对于一个算法,有时候从单一的论文中很难获得深刻和全面的理解,所以就需要检索和阅读更多的论文,但这样的目的就转化为第一个了,所需要耗时也就减少。 呵呵,关于第二个问题,首先我暂时不敢把自己标榜为一个研究者,所以也不存在说什么经验。只是说点自己的理解吧。作为一个研究者,对获取新知识,个人理解是分几个层次的,第一首先是评价这个新知识对自己的有用性,不同的评价等级决定你的深入程度。然后决定下面这这几层次是否继续。第二就是新知识所要求的基楚础,这个可以在了解新知识的情况下,如果时间有限,来不及系统学习基础的话,就针对里面遇到的某些基础基础有的放矢的学习或者复习吧。第三就是深入了,这个深入就需要多种资源来辅助了,包括理论、实现等等。第四就是总结了,这点对我来说是非常重要的一点。总结的过程对自己的系统认识非常重要。它可以让你站在另一个平行空间去审视这个新知识的系统组织过程。第四就是你天马行空,行云流水的idea了。哈哈 呵呵,个人浅见,望交流。[/quote]
hamigua_12 2013-09-23
  • 打赏
  • 举报
回复
跟帖中...菜鸟一只,只为求得一点牛人的经验,梦想以后也能变成牛人
MrMake123 2013-08-14
  • 打赏
  • 举报
回复
现在这块Deep learning和 sparse的东西最火了吧,但是,总觉得Deep learning 和 big data搞到一起,非一般小团队能搞的啊,做个实验没有hadoop集群都很难的?个人愚见。
snail_zhangt 2013-08-06
  • 打赏
  • 举报
回复
HEN NIU DE TIE ZI
dilly61 2013-06-20
  • 打赏
  • 举报
回复
大牛,我目前在国外读博,最近对deep learning非常感兴趣,看到绝大多数资料都是关于音视频等媒体领域的应用,我想请问下您对deep learning对于推荐领域的应用怎么看呢?另外是否能推荐下相关的研究论文?非常感谢。 QQ 87201618 期待您的答复。
zwtchy123 2013-06-03
  • 打赏
  • 举报
回复
跟帖学习.......
dianyancao 2013-05-29
  • 打赏
  • 举报
回复
引用 68 楼 zouxy09 的回复:
[quote=引用 67 楼 dannywu19910524 的回复:] [quote=引用 59 楼 zouxy09 的回复:] [quote=引用 56 楼 dannywu19910524 的回复:] 膜拜一下大神,本科申过个项目搞tld,后来不了了之了,研究生准备弄deep learning,又看到大神深入浅出的博客呀,可惜初学的时候没看到,不过现在看也很受用,希望能多和大神交流,我的qq:281328060 还是要问个问题呀,话说local contract normalization大神懂不懂,在读Building High-level Features Using Large Scale Unsupervised Learning时遇到的。。。想知道这个归一化的好处在哪
local contract normalization 这个归一化包括两个部分:局部做减和局部做除(local subtractive and divisive normalizations)。我的理解:自然图像存在低阶和高阶的统计特征,低阶(例如二阶)的统计特征是满足高斯分布的,但高阶的统计特性是非高斯分布。图像中,空间上相邻的像素点有着很强的相关性。而对于PCA来说,因为它是对协方差矩阵操作,所以可以去掉输入图像的二阶相关性,但是却无法去掉高阶相关性。而有人证明了除以一个隐含的变量就可以去除高阶相关性。你可以理解为一张图像的像素值是一个随机变量,它由两个独立的随机变量相乘得到,分别是二阶量和高阶量相乘,二阶量的相关性可以由PCA去掉,然后高阶量(这个是隐含的,需要通过MAP等方法估计出来)直接用x除掉就好了。 有论文的操作是这样: 对输入图像的每一个像素,我们计算其邻域(例如3x3窗口)的均值,然后每个像素先减去这个均值,再除以这个邻域窗口(例如3x3窗口)拉成的9维向量的欧几里德范数(如果这个范数大于1的时候才除:这个约束是为了保证归一化只作用于减少响应(除以大于1的数值变小),而不会加强响应(除以小于1的数值变大))。 也有论文在计算均值和范数的时候,都加入了距离的影响,也就是距离离该窗口中心越远,影响越小,例如加个高斯权重窗口(空间上相邻的像素点的相关性随着距离变大而变小)。 其实在这里,很多自己也还不清楚,所以上面的不一定正确,仅供参考。还望明白的人也指点一下。谢谢。 [/quote] 不知道大神还在不,毕业论文准备写deep learning的综述,在介绍deep learning和神经网络的发展历史方面有什么文献值得参考么[/quote] 深度学习我所了解到的比较好的综述有以下几篇: Learning Deep Architectures for AI Representation Learning: A Review and New Perspectives Deep Machine Learning—A New Frontier in Artificial Intelligence Research 孙志军等,深度学习研究综述 然后,神经网络的话,发展了挺久,理论方面资料也挺多的,基本机器学习的书籍都涉及到了。然后具体综述性的文章暂时自己没有保留,这个可能需要您去找找,呵呵,不好意思啊。[/quote] 大牛,目前特征有没有明确的定义呀?
dannywu19910524 2013-05-27
  • 打赏
  • 举报
回复
引用 59 楼 zouxy09 的回复:
[quote=引用 56 楼 dannywu19910524 的回复:] 膜拜一下大神,本科申过个项目搞tld,后来不了了之了,研究生准备弄deep learning,又看到大神深入浅出的博客呀,可惜初学的时候没看到,不过现在看也很受用,希望能多和大神交流,我的qq:281328060 还是要问个问题呀,话说local contract normalization大神懂不懂,在读Building High-level Features Using Large Scale Unsupervised Learning时遇到的。。。想知道这个归一化的好处在哪
local contract normalization 这个归一化包括两个部分:局部做减和局部做除(local subtractive and divisive normalizations)。我的理解:自然图像存在低阶和高阶的统计特征,低阶(例如二阶)的统计特征是满足高斯分布的,但高阶的统计特性是非高斯分布。图像中,空间上相邻的像素点有着很强的相关性。而对于PCA来说,因为它是对协方差矩阵操作,所以可以去掉输入图像的二阶相关性,但是却无法去掉高阶相关性。而有人证明了除以一个隐含的变量就可以去除高阶相关性。你可以理解为一张图像的像素值是一个随机变量,它由两个独立的随机变量相乘得到,分别是二阶量和高阶量相乘,二阶量的相关性可以由PCA去掉,然后高阶量(这个是隐含的,需要通过MAP等方法估计出来)直接用x除掉就好了。 有论文的操作是这样: 对输入图像的每一个像素,我们计算其邻域(例如3x3窗口)的均值,然后每个像素先减去这个均值,再除以这个邻域窗口(例如3x3窗口)拉成的9维向量的欧几里德范数(如果这个范数大于1的时候才除:这个约束是为了保证归一化只作用于减少响应(除以大于1的数值变小),而不会加强响应(除以小于1的数值变大))。 也有论文在计算均值和范数的时候,都加入了距离的影响,也就是距离离该窗口中心越远,影响越小,例如加个高斯权重窗口(空间上相邻的像素点的相关性随着距离变大而变小)。 其实在这里,很多自己也还不清楚,所以上面的不一定正确,仅供参考。还望明白的人也指点一下。谢谢。 [/quote] 不知道大神还在不,毕业论文准备写deep learning的综述,在介绍deep learning和神经网络的发展历史方面有什么文献值得参考么
wbuzhou 2013-05-27
  • 打赏
  • 举报
回复
跟帖学习.......
zouxy09 2013-05-27
  • 打赏
  • 举报
回复
引用 67 楼 dannywu19910524 的回复:
[quote=引用 59 楼 zouxy09 的回复:] [quote=引用 56 楼 dannywu19910524 的回复:] 膜拜一下大神,本科申过个项目搞tld,后来不了了之了,研究生准备弄deep learning,又看到大神深入浅出的博客呀,可惜初学的时候没看到,不过现在看也很受用,希望能多和大神交流,我的qq:281328060 还是要问个问题呀,话说local contract normalization大神懂不懂,在读Building High-level Features Using Large Scale Unsupervised Learning时遇到的。。。想知道这个归一化的好处在哪
local contract normalization 这个归一化包括两个部分:局部做减和局部做除(local subtractive and divisive normalizations)。我的理解:自然图像存在低阶和高阶的统计特征,低阶(例如二阶)的统计特征是满足高斯分布的,但高阶的统计特性是非高斯分布。图像中,空间上相邻的像素点有着很强的相关性。而对于PCA来说,因为它是对协方差矩阵操作,所以可以去掉输入图像的二阶相关性,但是却无法去掉高阶相关性。而有人证明了除以一个隐含的变量就可以去除高阶相关性。你可以理解为一张图像的像素值是一个随机变量,它由两个独立的随机变量相乘得到,分别是二阶量和高阶量相乘,二阶量的相关性可以由PCA去掉,然后高阶量(这个是隐含的,需要通过MAP等方法估计出来)直接用x除掉就好了。 有论文的操作是这样: 对输入图像的每一个像素,我们计算其邻域(例如3x3窗口)的均值,然后每个像素先减去这个均值,再除以这个邻域窗口(例如3x3窗口)拉成的9维向量的欧几里德范数(如果这个范数大于1的时候才除:这个约束是为了保证归一化只作用于减少响应(除以大于1的数值变小),而不会加强响应(除以小于1的数值变大))。 也有论文在计算均值和范数的时候,都加入了距离的影响,也就是距离离该窗口中心越远,影响越小,例如加个高斯权重窗口(空间上相邻的像素点的相关性随着距离变大而变小)。 其实在这里,很多自己也还不清楚,所以上面的不一定正确,仅供参考。还望明白的人也指点一下。谢谢。 [/quote] 不知道大神还在不,毕业论文准备写deep learning的综述,在介绍deep learning和神经网络的发展历史方面有什么文献值得参考么[/quote] 深度学习我所了解到的比较好的综述有以下几篇: Learning Deep Architectures for AI Representation Learning: A Review and New Perspectives Deep Machine Learning—A New Frontier in Artificial Intelligence Research 孙志军等,深度学习研究综述 然后,神经网络的话,发展了挺久,理论方面资料也挺多的,基本机器学习的书籍都涉及到了。然后具体综述性的文章暂时自己没有保留,这个可能需要您去找找,呵呵,不好意思啊。
dianyancao 2013-05-26
  • 打赏
  • 举报
回复
【提出问题】 什么是特征呢?如何用合适的结构描述特征? 【问题背景】 比如有两个不同的字符图像代表样本分别为A、B, 输入一个待识别的未知字符图像X, 已知字符X的确是A或者B之一经过某种变换和添加随机噪声生成的, 如何计算字符X和A或B的匹配代价呢? 【方案一】 可以先将两个类别代表样本,A和B用相应的变换重合在一起 可能有多个重合最优解,对每个重合最优解都提取这个对应状态下的区别特征点 提取区别特征点时,重合两类别代表样本图像后做差,用合适的硬阈值二值化图像差, 将得到的区别特征点连通域滤波,得到提取的特征点 对特征点的连通域做包围盒,用设定的阈值扩大包围盒 该包围盒中的图像数据即是这一组特征点的邻域上下文描述。 匹配时先对准上下文环境再匹配特征点。 匹配时直接用特征点的匹配代价作为相似度,忽略其他非特征点的匹配代价 【细化问题】 区别特征是针对两个或两个以上的不同类别而言的吗? 共有特征是针对同一个类别的所有代表样本而言的吗? 如何定义3个或3个类别以上的区别特征呢? 如果【方案一】中有3个类别的分类问题,A、B、C,待分类的字符图像为X 假设没有使用区别特征时,X和A匹配代价最小, 对X以A为基准,检查[A和B],[A和C]的区别特征时,得到X更有B的特征, 再对X以B为基准,检查[B和C]的区别特征时,得到X更有C的特征, 再对X以C为基准,检查[A和C]的区别特征时,得到X更有A的特征, 这个造成了混淆。 如何定义3个类别以上的区别特征,能避免上述检查区别特征匹配代价时造成的混淆呢?
lindajun10 2013-05-24
  • 打赏
  • 举报
回复
引用 60 楼 zouxy09 的回复:
[quote=引用 57 楼 lindajun10 的回复:] 问一个弱弱的问题,很多论文提到的跟踪帧率应该是怎样测量,因为看到有些代码里计算时间时没加上显示等其他操作的时间
这个我也不太明确,一般都是计算完成处理一帧(你的算法处理一帧)需要的时间吧。理论上来讲,是不需包括显示的时间的。但显示的时间感觉应该影响不大的,因为它需要的时间是很小的。当然,如果算法加了其他为了让算法效果更好的预处理等,理应计算进处理时间里面。[/quote] 谢了!
dannywu19910524 2013-05-24
  • 打赏
  • 举报
回复
引用 59 楼 zouxy09 的回复:
[quote=引用 56 楼 dannywu19910524 的回复:] 膜拜一下大神,本科申过个项目搞tld,后来不了了之了,研究生准备弄deep learning,又看到大神深入浅出的博客呀,可惜初学的时候没看到,不过现在看也很受用,希望能多和大神交流,我的qq:281328060 还是要问个问题呀,话说local contract normalization大神懂不懂,在读Building High-level Features Using Large Scale Unsupervised Learning时遇到的。。。想知道这个归一化的好处在哪
local contract normalization 这个归一化包括两个部分:局部做减和局部做除(local subtractive and divisive normalizations)。我的理解:自然图像存在低阶和高阶的统计特征,低阶(例如二阶)的统计特征是满足高斯分布的,但高阶的统计特性是非高斯分布。图像中,空间上相邻的像素点有着很强的相关性。而对于PCA来说,因为它是对协方差矩阵操作,所以可以去掉输入图像的二阶相关性,但是却无法去掉高阶相关性。而有人证明了除以一个隐含的变量就可以去除高阶相关性。你可以理解为一张图像的像素值是一个随机变量,它由两个独立的随机变量相乘得到,分别是二阶量和高阶量相乘,二阶量的相关性可以由PCA去掉,然后高阶量(这个是隐含的,需要通过MAP等方法估计出来)直接用x除掉就好了。 有论文的操作是这样: 对输入图像的每一个像素,我们计算其邻域(例如3x3窗口)的均值,然后每个像素先减去这个均值,再除以这个邻域窗口(例如3x3窗口)拉成的9维向量的欧几里德范数(如果这个范数大于1的时候才除:这个约束是为了保证归一化只作用于减少响应(除以大于1的数值变小),而不会加强响应(除以小于1的数值变大))。 也有论文在计算均值和范数的时候,都加入了距离的影响,也就是距离离该窗口中心越远,影响越小,例如加个高斯权重窗口(空间上相邻的像素点的相关性随着距离变大而变小)。 其实在这里,很多自己也还不清楚,所以上面的不一定正确,仅供参考。还望明白的人也指点一下。谢谢。 [/quote] 谢谢大神,我再参考一下
zouxy09 2013-05-23
  • 打赏
  • 举报
回复
引用 58 楼 JatonLee 的回复:
尊敬的楼主你好,我想请教一下, deep learning 和tracking有什么可以结合的地方,二维的单目标tracking感觉已经做到尽头了
DL是种特征提取的方法,如果可以学习到具有很好区分性的特征用于跟踪(Tracking by Detection),跟踪的性能还是可以上升的。但关键在于说实际跟踪过程中,如果我们跟踪的目标是变化的,那么如何训练DL是一个问题,因为现在几乎不可能在线训练DL(因为目标外观是变化的,我们需要在线适应它的变化),而且在线的样本也有限。但是更乐观地说的话,如果DL可以事先对采集的很多存在形变的目标可以离线训练,并可以提取其更高层的本质特征的话,那也存在实时跟踪的可能。不过这只是我的一个乐观想法,不知道DL现在或者未来是否具有这种的能力。所以在于Tracking那一块,我暂时了解还不是很多,这只是初步的见解,希望更多的人可以交流下。
JatonLee 2013-05-23
  • 打赏
  • 举报
回复
尊敬的楼主你好,我想请教一下, deep learning 和tracking有什么可以结合的地方,二维的单目标tracking感觉已经做到尽头了
zouxy09 2013-05-23
  • 打赏
  • 举报
回复
引用 57 楼 lindajun10 的回复:
问一个弱弱的问题,很多论文提到的跟踪帧率应该是怎样测量,因为看到有些代码里计算时间时没加上显示等其他操作的时间
这个我也不太明确,一般都是计算完成处理一帧(你的算法处理一帧)需要的时间吧。理论上来讲,是不需包括显示的时间的。但显示的时间感觉应该影响不大的,因为它需要的时间是很小的。当然,如果算法加了其他为了让算法效果更好的预处理等,理应计算进处理时间里面。
zouxy09 2013-05-23
  • 打赏
  • 举报
回复
引用 56 楼 dannywu19910524 的回复:
膜拜一下大神,本科申过个项目搞tld,后来不了了之了,研究生准备弄deep learning,又看到大神深入浅出的博客呀,可惜初学的时候没看到,不过现在看也很受用,希望能多和大神交流,我的qq:281328060 还是要问个问题呀,话说local contract normalization大神懂不懂,在读Building High-level Features Using Large Scale Unsupervised Learning时遇到的。。。想知道这个归一化的好处在哪
local contract normalization 这个归一化包括两个部分:局部做减和局部做除(local subtractive and divisive normalizations)。我的理解:自然图像存在低阶和高阶的统计特征,低阶(例如二阶)的统计特征是满足高斯分布的,但高阶的统计特性是非高斯分布。图像中,空间上相邻的像素点有着很强的相关性。而对于PCA来说,因为它是对协方差矩阵操作,所以可以去掉输入图像的二阶相关性,但是却无法去掉高阶相关性。而有人证明了除以一个隐含的变量就可以去除高阶相关性。你可以理解为一张图像的像素值是一个随机变量,它由两个独立的随机变量相乘得到,分别是二阶量和高阶量相乘,二阶量的相关性可以由PCA去掉,然后高阶量(这个是隐含的,需要通过MAP等方法估计出来)直接用x除掉就好了。 有论文的操作是这样: 对输入图像的每一个像素,我们计算其邻域(例如3x3窗口)的均值,然后每个像素先减去这个均值,再除以这个邻域窗口(例如3x3窗口)拉成的9维向量的欧几里德范数(如果这个范数大于1的时候才除:这个约束是为了保证归一化只作用于减少响应(除以大于1的数值变小),而不会加强响应(除以小于1的数值变大))。 也有论文在计算均值和范数的时候,都加入了距离的影响,也就是距离离该窗口中心越远,影响越小,例如加个高斯权重窗口(空间上相邻的像素点的相关性随着距离变大而变小)。 其实在这里,很多自己也还不清楚,所以上面的不一定正确,仅供参考。还望明白的人也指点一下。谢谢。
zouxy09 2013-05-22
  • 打赏
  • 举报
回复
引用 46 楼 YJJat1989 的回复:
专家好,我是DL菜鸟,请教一下专家。 DL有什么缺陷?应用有什么条件限制?能不能用于语音增强? DL过热,是处于膨胀期吗?会不会有低谷期?几年才能成熟?
任何的事物都不是完美的,DL也一样,也不是解决尘世任何机器学习问题的屠龙刀。首先对于DL架构,还有很多东西的确定缺乏理论规则的指导。例如多少层才是好的,每层多少个节点数才是好的;对于捕捉短时或者长时间的时间依赖,哪种架构才是有效的?毕竟在视频分析中,时间维度是携带了巨大的信息的。还有就是DL需要训练的参数很多,需要的样本很多,因此对研发资源的要求比较高,如何并行训练等也是他的一个研究点等等。应用的条件限制?那就需要明确DL是干什么的?个人觉得关键的一点是它是一种”学习找到对解决我们的任务如何描述数据结构才是最好的“的一种方法。所以,如果您的数据量很大,您需要找一种比较好的描述方法,就可以考虑下DL。对语音增强也一样。例如已有DL在降噪上面的研究。然后具体的限制就得看您具体的应用了。但因为我没有接触过,其中的细节没办法和您交流。 DL最近是很热,因为它让大家看到了希望,看到了很多有价值或者将会有价值的东西。至于说会不会有膨胀期还是低谷期,最终还是需要回归到是否有成熟的理论支持,或者未来出现了更好的方法,就像当年SVM等把人工神经网络的聚焦点夺走一样。所以您的这个问题提的很好。随着国内外在DL上面的研究投入,它的理论和应用都在发展和日益完善,从不断新的paper和工业界传出来的可喜声音可以听到。但其依旧还没达到成熟的境界,还是存在很多尚未解决的问题。这个我也相信不远的未来会慢慢浮出水面的。
加载更多回复(51)

4,445

社区成员

发帖
与我相关
我的任务
社区描述
图形图像/机器视觉
社区管理员
  • 机器视觉
  • 迪菲赫尔曼
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧