69
社区成员




答:
self-attention、channel attention、spatial attention、multi-head attention、transformer
自注意力机制是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
1.ce loss 的公式,说完了问BCE loss,就纯背公式
sigmoid 和 softmax,BCE与CE loss function_阿猫的自拍的博客-CSDN博客_ce loss
答:
构造类内差异大、类间差异小的数据集
3、softmax求导
答:
答:
KL散度可以用来衡量两个概率分布之间的相似性,两个概率分布越相近,KL散度越小
答:
从上面的导数可以看出,L2 Loss的梯度包含 (f(x) - Y),当预测值 f(x) 与目标值 Y 相差很大时,容易产生梯度爆炸,而L1 Loss的梯度为常数,通过使用Smooth L1 Loss,在预测值与目标值相差较大时,由L2 Loss转为L1 Loss可以防止梯度爆炸。
答:
与传统的计算机视觉技术不同,DETR将目标检测作为一个直接的集合预测问题来处理。它由一个基于集合的全局损失和一个Transformer encoder-decoder 结构组成,该全局损失通过二分匹配强制进行唯一预测。给定固定的学习对象查询集,则DETR会考虑对象与全局图像上下文之间的关系,以直接并行并行输出最终的预测集。由于这种并行性,DETR非常快速和高效。
↓ ↓ ↓以下5本书,电子版,直接送 ↓ ↓ ↓
刚出的《2021年最新大厂AI面试题 Q3版》还没来得及拍照:
《2021年最新大厂AI面试题 Q2版》、《2021年最新大厂AI面试题 Q3版》《机器学习十大算法系列》、《名企AI面试100题》及《名企AI面经100篇》私我,免费取!