[quote=引用 21 楼 ssbqrm 的回复:] 你训练图片多少,不够用dataAugmentation,可以参考https://github.com/aleju/imgaug
你训练图片多少,不够用dataAugmentation,可以参考https://github.com/aleju/imgaug
我把concat改了然后试了方法[1], loss值还是震荡,我测试了一个数据发现训练模型还是会把所有的分为一个类 另外我想问问的是为什么最后预测两类的概率会有负数值出现,我的网络有写错么?还是说也是因为没训练好? 因为现在训练数据量很小(和文献里比),我是应该先把数据做多一些还是在现有的数据上先根据你后面的建议调网络呢?因为我怕数据的影响是根本性的,再怎么调也调不出来
[1] 卷积的初始化用 weight_filler { type: "xavier" }取代gaussian试试 [2] 方法[1]还不行,试试增大卷积的num_output,你的GPU是啥?好像显存挺大的啊,8个都BatchSize128 [3] 上面[1]+[2]还不行,可以试试加个BatchNorm层(http://caffe.berkeleyvision.org/tutorial/layers/batchnorm.html),一般来说会加快收敛效果很好,不过训练速度相对变慢,BatchNorm层用的时候 注意train的时候设置use_global_stats :false,test的时候true [4] concat可以一下子把8个视角一起人concat,没必要两个两个
[quote=引用 16 楼 ssbqrm 的回复:] solver也发一下
solver也发一下
我正在尝试,目前还不能训练收敛,师兄提到是不是可以用多通道?把9个view作为9个通道输入数据?
[quote=引用 10 楼 ssbqrm 的回复:] 我上面data_1 对应视角1, data_2 对应视角2, data层的类似是 type: "ImageData" 打乱顺序你可以在写入label的时候自己先弄好,关键是每个视角的要一一对应
我上面data_1 对应视角1, data_2 对应视角2, data层的类似是 type: "ImageData" 打乱顺序你可以在写入label的时候自己先弄好,关键是每个视角的要一一对应
[quote=引用 6 楼 u013837566 的回复:] [quote=引用 3 楼 ssbqrm 的回复:] 把v1...v9九个视角的图拼接成一张图,然后传入模型后再增加一层分成9张(不知道caffe有没有现成的,或者github上有没有人改造过),然后分别输出到九个不同的网络, 最后的融合倒是用concat层或者Eltwise层直接可以用哦
[quote=引用 3 楼 ssbqrm 的回复:] 把v1...v9九个视角的图拼接成一张图,然后传入模型后再增加一层分成9张(不知道caffe有没有现成的,或者github上有没有人改造过),然后分别输出到九个不同的网络, 最后的融合倒是用concat层或者Eltwise层直接可以用哦
把v1...v9九个视角的图拼接成一张图,然后传入模型后再增加一层分成9张(不知道caffe有没有现成的,或者github上有没有人改造过),然后分别输出到九个不同的网络, 最后的融合倒是用concat层或者Eltwise层直接可以用哦
"Attention-based Extraction of Structured Information from Street View Imagery" 这篇论文就是用4个不同角度拍摄的图片最后融合进行识别的,不过是基于TensorFlow的 源码在:https://github.com/tensorflow/models/tree/master/attention_ocr caffe不知道怎么传不同视角的,一种简单处理方法你就把v1...v9当成一种视角,不过这种估计识别率会降低。 或者你一个视角训练一个caffe模型,最终判断是时候融合9个模型的结果
4,449
社区成员
15,336
社区内容
加载中
试试用AI创作助手写篇文章吧