10月11日-货拉拉-NLP工程师面试题6道

julyedu_7 2021-12-10 18:59:38

1.词向量平均法做分类的优劣势是什么

优势

词向量平均的方法做分类模型，主要的优势是模型简单
有参数模型，无参数模型都可以尝试使用，模型选择大
模型速度极快，训练的参数量少
在语句少的场景下，效果好

劣势

在语句长的长的场景下，效果会变的很差
语句长，分出的词多，词越多，信息量越杂，简单的做平均的话，重要的词的信息会在平均的过程中极大的被消弱，从而分类效果差

2.词向量的基础上如何做优化

映入一个新的向量，做attention，此向量专门对重要的，和标签相关的词敏感。从而通过加权平均的方式，得到的句向量只包含重要词的信息，忽略不重要的词的信息，从而加强模型的效果。
使用self-attention, 尝试对语句里词的分布做重新的调整，提高模型的学习能力
使用Transformer encoder或者bert来做学习

硬核好课，限时1分钱秒杀>>Transformer与Bert特训4 - 七月在线

3.Bert模型和Transformer模型之间的关系

Transformer模型有encoder和decoder
Bert其实就是Transformer的encoder的部分
Transformer只是一个空模型，里面的参数都是随机的，需要在下游任务上做有监督的训练，由于参数量大，直接使用Transformer做训练，模型难收敛，并且速度慢
Bert其实是预训练好的Transformer的encoder部分，也就是已经在海量的数据集上做了Transformer的参数的训练了，其参数可以保存下来，直接拿来在下游任务上使用，做调优。

4.Bert模型中有哪些预训练的任务

首先是MLM任务，masked language model。随机的mask掉一些词，从而基于上下文，通过attention的方法来训练，来预测mask的词。
NSP任务，Next Sentence Prediction任务。通过CLS的来进行二分类，查看当前两个句子是否是上下文。词任务的有效性在各大论文中也是有争议的，有的说这个任务有用，有的说这个任务没用。

5.Bert模型的做句向量的缺陷

直接使用Bert做句向量的输出，会发现所有的句向量两两相似度都很高。
因为对于句子来说，大多数的句子都是使用常见的词组成的
Bert的词向量空间是非凸的，大量的常见的词向量都是在0点附近，从而计算出的句子向量，都很相似

6.如何解决Bert句向量的缺陷

使用双卡的形式，将两个句子传入两个参数共享的Bert模型，将两个句向量做拼接，进行有监督的学习，从而调整Bert参数。此方法叫sentencebert。
使用无监督或者有监督的对比学习，将同一个句子传入相同的bert(dropout = 0.3)得到标签为正例的一个句子对。通过这种方式来做Bert的微调整，得到SimCSE模型。

...全文

594 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

CSDN-Ada助手 2023-01-13

打赏
举报

回复

您可以前往 CSDN问答-人工智能发布问题, 以便更快地解决您的疑问

问题1：词向量平均法做分类的优劣势是什么优势词向量平均的方法做分类模型，主要的优势是模型简单有参数模型，无参数模型都可以尝试使用，模型选择大模型速度极快，训练的参数量少在语句少的场景下，效果好劣势在语句长的长的场景下，效果会变的很差语句长，分出的词多，词越多，信息量越杂，简单的做平均的话，重要的词的信息会在平均的过程中极大的被消弱，从而分类效果差评论区回复“十大算法”，免费领取《机器学习十大算法系列》PDF，内容 10 大常用机器学习算法，包括线性回归、Logistic 回归、线性判别.

nlp算法面试经验

它的主要功能是什么？今天两点面了货拉拉（base上海），其实就算面过了也不太可能去，主打一个面试体验，因为面试官说赶时间，只有半个小时，就没有问实习经历，主要是问了一些八股和穿插场。1️⃣准备并优化简历确定✅要找工作之前，必须先整理自己的简历，简历就相当于我们的形象，简历模版要尽可能的整洁干净，不要花里胡哨，切记简历头像不要使用自拍，要用正！面试的感觉像个领导，有点不好相处的样子，很严肃，全程不会笑，最后反问面的咋样，他说还好，然后我两个都笑了，二面是一些八股，不会的话就不会往下问了，会的话会接着往？

第1题我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218U022017/1/236U012017/2/224要求使用SQL统计出每个用户的累积访问次数，如下表所示：用户id月份小计累积u012017-011111u012017-021223u022017-011212u032017-0188u042017-0133第2题京东有5

面试官说话很温柔，人很好，你不会的话会引导你，有错误会给你说，可能因为是双非臭二本鼠鼠，问的是比较简单的1.自我介绍2.项目(大概意思说鼠鼠项目属于烂大街了还写。和四个女生和一个男生实测秋招性别歧视企业（均是C9机械大类研究生）中船707所，602直升机所，中电科53所，中车研，除了双9以外，直接不要女生，602。一直处在焦虑和压力之下，等到真正OC了，反而不是范进中举式的大喜大悲，而是一种麻木，仿佛一切都不是真实接下来的十月份会继续面试，冲一冲银行，然后写一点东西回馈一。

2022AI面试1000题讨论区

70

社区成员

29

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章