wantalcs 北京大米未来科技 技术专家  2019年05月12日
咨询一个可行性问题
由于人工智能的举起,我买了一堆书上了一堆课,希望学到一些这个领域的一些技能。由于是刚上船的小白,自己做的第一个模型训练实验一败涂地,现在想咨询经验丰富的专家们,希望能得到一些指导。
我想试验的是一个端到端的出租车票识别模型,输入是(512, 512, 3)大小出租车票照片,输出是(30, 15)的识别内容。输入的出租车票可能是任何角度任何光照条件下的手机拍照照片。识别内容是车票的日期时间金额信息:"2015-10-12_16:15-16:26_24.00",内容长度最大30,最多使用15种字符,映射成了(30, 15)的one-hot编码。
使用的大概模型思路是先用darknet的结构,把(512, 512, 3)的图片提取成(32, 32, 128)的特征,然后把特征的feature map展开成1维,送给128个cell组成的的双向LSTM网络生成注意力上下文,然后把上下文送给30个cell的单向LSTM网络,结果Dense后生成30个15维的向量作为最后输出。
由于自己对类似的事情完全没任何经验,结果到处栽跟头。费了半天劲用keras拼出了上面的模型的代码,开始怕模型能力不够,就使劲加模型的层数和单元数量,结果直接撑爆了GPU内存。后来大量消减模型参数量,keras保存的模型只有5M,又怀疑它能不能胜任工作。尝试训练几次后,发现根本不收敛。然后就加大参数量强迫多轮训练,由于自己手里的车票照片只有几十张,虽然进行了随机变形等数据增强处理,它又过拟合了。折腾了几天,费了不少时间和电字儿,一无所获。。
教材上说端到端的模型非常难训练,现在我有了直观感受。我想请教大神们,这个端到端的出租车票识别模型是不是根本就是错的,就没有可能训练成功?如果可以继续,我得找大约多少数量的出租车票才能训练出来?我作为一个希望快速进步的小白,欢迎大家提出种指导意见和训诫建议。谢谢大家!
...全文
68 点赞 收藏 2
写回复
2 条回复

还没有回复,快来抢沙发~

发动态
发帖子
人工智能技术
创建于2007-08-27

1920

社区成员

2925

社区内容

专题开发/技术/项目 人工智能技术
社区公告
暂无公告