字节跳动算法岗武功秘籍(上)

2023-10-13 04:59

本文主要是介绍字节跳动算法岗武功秘籍(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

45家大厂面经秘籍及参考答案:

已助力150+人进入国内大厂的《人工智能算法岗江湖武林秘籍》,点击查看

目录

  • 1 字节跳动面经汇总资料
    • 1.1 面经汇总参考资料
    • 1.2 面经涉及招聘岗位
    • 1.3 面试流程时间安排
    • 1.4 字节跳动面试心得汇总
  • 2 字节跳动面经涉及基础知识点
    • 2.1 图像处理基础
      • 2.1.1 讲解相关原理
      • 2.1.2 手写算法代码
    • 2.2 深度学习:CNN卷积神经网络方面
      • 2.2.1 讲解相关原理
      • 2.2.1.1 卷积方面
        • 2.2.1.2 池化方面
        • 2.2.1.3 网络结构方面
        • 2.2.1.4 其他方面
      • 2.2.2 数学计算
      • 2.2.3 公式推导
      • 2.2.4 手写算法代码
      • 2.2.5 激活函数类
    • 2.3 深度学习:RNN递归神经网络方面
      • 2.3.1 讲解相关原理
      • 2.3.2 手绘网络原理
    • 2.4 深度学习:CNN&RNN通用知识点
      • 2.4.1 基础知识点
      • 2.4.2 模型评价
    • 2.5 传统机器学习方面
      • 2.5.1 讲解相关原理
        • 2.5.1.1 数据准备
        • 2.5.1.2 特征工程
        • 2.5.1.3 有监督学习-分类和回归方面
        • 2.5.1.4 无监督学习-聚类方面
        • 2.5.1.5 模型评价
      • 2.5.2 手推算法及代码
        • 2.5.2.1 手推公式
        • 2.5.2.2 手写代码
    • 2.6 深度学习&机器学习面经通用知识点
      • 2.6.1 损失函数方面
      • 2.6.2 激活函数方面
      • 2.6.3 网络优化梯度下降方面
      • 2.6.4 正则化方面
      • 2.6.5 压缩&剪枝&量化&加速
      • 2.6.6 过拟合&欠拟合方面
      • 2.6.7 其他方面


1 字节跳动面经汇总资料

在这里插入图片描述

1.1 面经汇总参考资料

① 参考资料:

(1)牛客网:字节跳动面经-340篇,网页链接

(2)知乎面经:点击进入查看

(3)面试圈:点击进入查看

② 面经框架&答案&目录&心得:

(1)面经框架及参考答案:点击进入查看

(2)大厂目录及整理心得:点击进入查看

1.2 面经涉及招聘岗位

(1)实习岗位类

【图像与多媒体算法实习】、【Data搜索部(数据挖掘)实习】、【三维视觉实习】、【自然语言处理实习】、【数据挖掘/搜索/推荐实习】、【效率工程算法实习】、【广告算法实习】、【AI Lab机器学习实习生】、【商业变现部门推荐算法】、【编解码算法工程师实习】

(2)全职岗位类

【AI Lab计算机视觉与深度学习岗】、【抖音互娱图形图像算法工程师】、【搜索团队算法工程师】、【研发算法工程师】、【视频基础架构组】,【搜索部门算法工程师】、【广告算法工程师】、【企业应用算法工程师】、【抖音算法工程师图像增强方向】、【飞书算法工程师】、【Data部门算法工程师】、【推荐算法工程师】、【抖音算法工程师】、【NLP算法工程师】、【自然语言处理算法工程师】、【机器学习中台算法工程师】、【多媒体视频算法工程师】、【Data推荐算法工程师】、【字节教育工程师】、【电商NLP算法工程师】、【大数据开发工程师】、【教育部门算法工程师】

1.3 面试流程时间安排

在这里插入图片描述

PS:以上流程为大白总结归纳所得,以供参考。

其他注意点:

● 在面试的流程中,需要注意的是,有的人是三轮技术面试,有的人是两轮技术面试。

1.4 字节跳动面试心得汇总

字节跳动的面经超级多,说明机会和发展都是很不错的。以下是大白整理的,几百篇面经中的面试者的心得感悟,将此提炼出来,便于大家体会:

★ 一面二面的面试官比较偏理论基础,三面的大佬比较偏业务,不过总体来说,头条的面试官总的来说都挺好的,编程题检查时也会指错并引导。

★ 阿里更注重底层基础和深度,源码级别,头条更注重算法,手撕代码。常常自我介绍完啥也不说基本都先来一道编程题,然后发问,问到最后,再以一个编程题收尾。

★ 面试时对简历上自己实习或者项目的细节要很清楚,会问的很深。(比如为什么用欧式距离算样本之间的距离)而且涉及的面也会比较广,比如做图像/视频增强的,应该对于超分,去模糊,去噪,去雾,HDR甚至图像translation等问题都应该有一个比较深的了解,希望各位还不急着找工作的同学们能坚持努力。

★ 注重原理的理解而不是方法看起来有多fancy,原理至上,所以一定要理解透彻。

★ 一定要回忆所有细节,并站着面试官的角度思考他会问什么问题。项目中你做工作时的流程一定要清楚,比如业界一般是怎样解决该问题的,你是怎样做的,你遇到了什么困难,你如何解决这些困难的。如果有的问题不会,或是只有个模糊的答案,直接说出来或这说不会就行了,没有事的。

★ 划重点!!!项目一定要挑自己熟悉的说,简历上放一些和岗位相关的项目。

★ 心态部分,战略上藐视,战术上重视。

★ 面试官似乎很看重工程能力 而我的经历都很Research 所以除了表达自己算法能力的同时,把工程上的东西说一说也是很加分的,哪怕是脏活累活。

★ 大家面试的时候放松心态,做足准备就好,谋事在人,成事在天,不必太过紧张。如果面试中遇到思路卡壳可以一点一点解释,不用着急。

★ 算法工程师的自我修养:数据建模,C/C++,思考、解决问题的方向和逻辑(建立在足够的理论基础和实践基础上)

★ 多运用到工程,想一想工程方向的优化。在有算法的基础做一做开发对于自己的成长有帮助。

★ 项目中每一个创新点一定要清楚:为什么用、怎么用的、好处在哪里。

★ 一些基本的概念一定要熟悉,不能只是知道。比如ROC曲线和PR曲线,面试官的
要求不仅仅是横轴纵轴是什么,往往会有进一步的follow up:比如说样本分布不平衡的话PR和ROC会有差别类似的;不能只关注于某一个概念是什么,往往最基础的follow up是考察的重点。

★ 各种基本算法除了原理要了解他们的优缺点,这里应该是面试官考察比较核心的地方。平时不能只顾着刷题,而没有去练习怎么在人前把一个算法表述清楚。

★ 感觉算法岗真的没有那么难,没必要散播焦虑,感觉年轻人有无限可能,大家多花点时间真正去做事情了,基本结果都不会差。

★ 可以感受一下面试官问问题的思路和感兴趣的角度。前两轮面试更加注重于专业知识,技术细节,了解你做的多深。后两面更注重了解你思考问题的方式以及想做的内容和团队是否match。

★ 字节跳动是一个很注重基础的公司,他不会要求你有竞赛有paper有多么强的工业界能力,但是基础一定要好,至少对于算法工程师来说现场手撕code的时候 bug free 是必须的,因为面试官不会留太长的时间给你debug,除非能够精准定位bug并快速解决,不然凉的几率很大。

★ 字节的面试是我面的最硬核的,就是会一直问到底,看你到底掌握到什么程度,如果掌握的不深刻很容易就被问出来了 。

★ 在面试时,针对项目,面试官会假设他不懂这个项目,将项目从头讲到尾

★ 春招的笔试也很难(不要以为实习的笔试就简单了)

★ 早点准备什么时候都不会错的(毕竟机会是留给有准备的人)

★ 发现形式不对,要快刀斩乱麻;今年算法岗从春招的形式就可以看到秋招的严峻了

★ 认清自己(这一点确实有点难),但这确实是重中之重

★ 好好刷题,不要抱着内推免笔试提起批免笔试的心态,即使免笔试,coding也是你没办法跳过的。

★ 投一个公司之前多问问自己为什么要投,目标一定要明确,不要学我做个无头苍蝇到处乱撞,然后撞的头破血流。

★ 虽然字节疯狂的招人,但是也请看好招人的部门,并不是每个部分都疯狂招人的,所以还得好好甄别,多看看,别头铁第一天出来就投,浪费机会。

★ 一面考核的是思想层面, 比如考核面对大数据如何增量训练, 面对多指标如何多任务学习, 从离线实验到部署上线的流程, 线上测试需要关注的信息, 模型选择的依据等。
二面考核的主要是宽度, 几乎都是横向的问, 很少纵向的深挖, 而我恰恰缺乏宽度的积累, 所以面试过程还是有点难受。
三面面试官的考核主要是深度, 一直深挖每一个细节, 基本上问到口述代码的程度.不过所有代码都是自己写的就问题不大。

2 字节跳动面经涉及基础知识点

在这里插入图片描述

2.1 图像处理基础

2.1.1 讲解相关原理

● 是否了解图像降噪的一些方法?

● 了解常用图像增强的一些方法吗?

● 是否了解各种边缘检测算子?
介绍下Sobel算子,sobel核的参数由-1->2,改变后会发生什么?
面试官的意思:比如实现不同的功能效果,高斯模糊、腐蚀、膨胀、锐化等

● 了解Hog吗?讲解下Hog特征的原理,步骤流程是什么?

● 知道图像里面的插值算法有哪些?(三次样条和线性插值),用过什么图像的库函数?

● 解释下Raw图像和rgb图像的区别?了解其他色彩空间格式吗?或者饱和度、亮度这些吗?

2.1.2 手写算法代码

● 手写马赛克算法

● 手写高斯滤波算法

● 手写均值滤波及优化

● 手写下中值滤波器

2.2 深度学习:CNN卷积神经网络方面

2.2.1 讲解相关原理

2.2.1.1 卷积方面

● depthwise 卷积

● 1*1的卷积核有什么用?

● 反卷积相比其他上采样层(pixelshuffle)的缺点,棋盘格现象怎么产生的?

● 3D卷积和2D卷积的区别,主要存在问题,如何加速运算,视频理解的sota方法,
还有什么方向可以改进?

● 卷积核大小如何选取

● 卷积层减少参数的方法?使用13,31代替3*3的原理是什么?

● 设计一个在CNN卷积核上做dropout的方式

● 反卷积/转置卷积的实现原理?

● Dropout的原理?

● 直接转置卷积和先上采样再卷积的区别?

2.2.1.2 池化方面

● maxPooling怎么传递导数?

● CNN里面池化的作用

● 反向传播的时候怎么传递pooling的导数

● 卷积神经网络在maxpooling处怎么反向传播误差

2.2.1.3 网络结构方面

● shufflenet的结构

● 深度网络Attention是怎么加?

● ResNet的结构特点以及解决的问题是什么?

● 图神经网络的理解,讲了发展史,应该从基于图谱和基于空间来讲

● unet结构,为什么要下采样,上采样?

● ResNet V1到V2的改进有了解吗?
那ResNet的下采样过程是怎么样的?
讲了res-block的跳跃连接,以及连接前后的shape保持(通过padding保持shape不变)

● fpn的结构

● roi pooling和roi align的区别

● Resnet的理解、和全连接相比有什么区别?

● 简单说一下Alexnet、Vgg、Resnet、Densenet、和GoogleNet,它们的特色是什么?

● 问了很多轻量级网络,mobileNet v1 v2,shuffleNet v2,Xception,denseNet等等

2.2.1.4 其他方面

● 有上过神经网络的课程吗,是自学的吗?了解感受野吗?怎么计算感受野?怎么增加感受野?(增加感受野和网络深度,压缩图像尺寸)

● 为什么卷积神经网络适用于图像和视频,还能用于其他领域吗?

● CNN反向传播细节,怎么过全连接层、池化层、卷积层?

● CNN里面能自然起到防止过拟合的办法

● CNN中感受野/权值共享是什么意思?

● BN层的作用,为什么有这个作用?测试和训练时有什么不同,在测试时怎么使
用?

● BN层做预测的时候,方差均值怎么算,online learning 的时候怎么算?

● BN机制,BN怎么训练;

● 发生梯度消失,梯度爆炸问题的原因?如果发生梯度爆炸、梯度消失,怎么解决?

● 若CNN网络很庞大,在手机上运行效率不高,对应模型压缩方法有了解吗?

2.2.2 数学计算

● 如何计算卷积的复杂度、卷积层的参数量

● 计算Feature Map的size

● 输入为LL,卷积核为kk,还有步长s和padding p,求输出尺寸?(L1 = (L-k+2p)/s + 1)
接上题,求操作的FLOPs?(FLOPS = k
kc1c2L1L1)

● 在同时考虑 pooling, stride, padding 的情况下,计算 depthwise conv 和 pointwise conv 过程中每一步的计算量和feature map的尺寸

● CNN中给定输入数据维度[c,w,h],卷积核[k,k],则输出维度,如何padding=p,输出维度是什么?

2.2.3 公式推导

● BP神经网络反向传播推导

● max pooling梯度求导?

2.2.4 手写算法代码

● 说一些卷积、用代码实现卷积,并再改成有通道的三维卷积

● 写一个单通道的图像卷积(带padding)

● 手写前向传播、反向传播代码

● 面试官轻描淡写地说,BP你会吧,写一下吧,正向传播、反向传播都推了一个遍,交给面试官看了一眼,说用代码实现一下吧,用 numpy 写了一个单层神经元的反向传播,给面试官看了,问他还用不用写完整的传播过程,他说不用了。

● 让写代码或者数学公式展示BN的内部实现,为什么要用GN,你知道GN,BN,LN和IN的区别吗?(这里BN内部实现回答错了,还好面试官非常nice,一直知指导,最后给我讲了BN的内部实现,豁然开朗,回来看了一下代码,有了进一步的认识)。

● 用代码展示shuffleNet v2的结构

● 实现一维数组的maxpool

2.2.5 激活函数类

● 说一下Softmax多分类器的作用?和二分类相比有什么特点?

● Softmax的计算公式写一下,并进行解释

● Softmax的Loss function、写一下损失函数

● 写一个 Softmax 实现,注意上下溢出问题

● Softmax在数值计算上可能会出现的上溢和下溢的问题

2.3 深度学习:RNN递归神经网络方面

2.3.1 讲解相关原理

● 讲一下隐马、CRF、RNN、LSTM的区别?

● RNN为什么会出现梯度消失?

● BPTT的推导?

● LSTM和GRU和传统RNN的对比?

● LSTM减弱梯度消失的原理,项目里用了LSTM,问了LSTM的结构,三个门的作用,每个门用什么激活函数?

● LSTM的输入,输出,遗忘门分别是做什么的,整个计算流程怎么样

● RNN梯度弥散和爆炸的原因,lstm为什么不会这样

● RNN/LSTM解释,你知道哪些时间序列预测,举一个例子,写出伪代码(写了HMM)。

● RNN如何防止梯度爆炸(LSTM原理)。

● LSTM和RNN的区别, 遗忘门的具体实现?

● BN和LN的区别,以及BN一般怎么用,LSTM中有没有用BN?

2.3.2 手绘网络原理

● 手画gru,并解释门的原理

● 写一下LSTM的公式?

2.4 深度学习:CNN&RNN通用知识点

2.4.1 基础知识点

● 详解梯度消失、爆炸原因及其解决方法

● 你用过dropout么?介绍一下 ,Dropout的作用 ?

● 梯度消失的表现是什么,该怎么处理

● 神经网络权重怎么初始化,说一下自己知道的方法

● dropout机制,为什么dropout能够抑制过拟合?

● 神经网络中网络权重W初始化为0有什么问题?为什么不能初始权重为0?

● 如何解决模型不收敛问题 以及如何加快模型的训练速度

● 你知道哪几种normlize的方法?请着重介绍一种(BatchNormalization).这个方法
在深度学习网络中有什么用?为什么可以加速模型收敛?

● Attention怎么做,self-attention怎么做?self-attention原理公式,为什么有效?

● Encoder-Decoder模型里,如果Decoder是基于Attention做的,该怎么做,是一个什么结构?

● attention机制是什么解释一下,啥是soft attention 和hard attention?

2.4.2 模型评价

● 有哪些评价指标?-比如ROC、AUC、F1-Score

● 解释下深度学习中的评价指标:Map、PR曲线、AUC、Recall?

● AUC怎么计算?它刻画的是什么?实现求AUC的过程?(输入就是instance的score和对应label)

● 给你M个正样本,N个负样本,以及他们的预测值P,求AUC。(写完之后接问:AUC究竟在衡量模型什么能力?如果现在所有预测值都*1.2,AUC是否会变化?)这一题印象深刻是因为平时在计算auc的时候,很多同学都知道是roc曲线的面积,但是对auc具体的含义了解不多。

● ROC曲线的含义和其他评价指标的区别?

● 分类问题的指标是什么?准确度、召回率、PR曲线

● 相关系数是怎么计算的?讲一下协方差和它的意义?

● 做视频用的是何种评价指标?

● 计算广告中CPM、CPC、ROI的含义,计算方式

2.5 传统机器学习方面

2.5.1 讲解相关原理

2.5.1.1 数据准备

● 采样一般有哪些方法?讲一下

● 解释下MCMC采样?

2.5.1.2 特征工程

① 特征降维

● 看项目中有数据降维的项目,讲一下PCA原理?PCA与SVD的联系与区别?SVD分解是怎么回事?

● PCA了解吗?怎么推导?SVD怎么求?

● 简单说一下LDA的思想?并说一下公式

● T-SNE算法了解吗?

② 特征选择

● 特征选择有哪些方法?什么是特征向量与特征值?怎么理解它们代表的意义。(介绍项目时涉及到特征相关性分析,所以问了这个)

● 介绍下特征选择的Lasso回归?

● 特征选择里提到的互信息选择,互信息的计算公式是什么?

● 树模型中分叉的判断有哪些:信息增益,信息增益比,Gini系数;他们有什么区别?

● 写出信息增益的表达式

● 在做特征工程时采用了哪些方法呢? 常见的筛选特征的方法有哪些?

2.5.1.3 有监督学习-分类和回归方面

① 分类回归树(集成学习)

● 机器学习的集成方法有哪些?

● Boosting与Bagging的原理以及异同点?为什么说bagging降低方差boosting降低偏差?
谁是更关注方差 ,谁是更关注偏差?

● bagging 中随机有放回采样,假如一共有N个样本 采样了N次,得到N个采样数据,去重后有X个数据 求E(X),我只列出了暴力计算的方法。

● 决策树,熵的公式、如何分裂,如何剪枝,回归树、分类树的做法

A.基于bagging:随机森林

● 随机森林的随机性怎么体现?

● 为什么bagging能降低方差?

B.基于boosting:Adaboost、GDBT、XGBoost

● xgboost与lgbm的原理讲一下?是如何进行调参的?

● xgboost和gbdt的优势?两者的区别?并行怎么做?他们的应用场景有哪些呢?其他模型的能说一下吗?

● Xgboost 和 GBDT的区别 以及如何改进和提升Xgboost模型

● Random Forest 和GDBT、 XGBoost 、LR有什么区别?

● GBDT的原理,怎么做多分类问题?

● gbdt的gb是什么意思,如何体现。gbdt里如何知道每个特征的重要性。

● 因为实习用到了xgb,让写一下 xgb的loss func?问xgb到底是怎么预测的?

● 问GBDT原理,然后具体问了下每个叶子节点是怎么分裂的,用什么标准决定最优特征,答曰和CART一样,用Gini指数,然后写了下Gini指数的公式。老板看起来不甚满意,估计他本来想让我写的是xgboost那种带正则项的节点分裂方式吧。

● CART了解吗?怎么做回归和分类的? 哈希表了解吗?有哪些解决冲突方法? 堆空间栈空间了解吗?

● CART树的原理,和ID3以及C4.5有什么区别,回归树与分类树有什么区别。

● GBDT中G是什么?怎么拟合树的?梯度拟合了怎么和原来的树合并的

● 为什么XGBOOST在大赛上表现很好/与GBDT相比优势

● lightgbm GBDT xgb,问的超级细,可能持续了7 8分钟,XGB残差怎么用一次和二次梯度求,分裂点怎么求,思想原理是什么。XGB实际使用中重要的超参数,你们比赛中用的目标函数是什么,为什么lightgbm速度更快,其并行计算如何实现?

● xgboost的特征重要性怎么计算的?设计能适应测试集里有缺失值的训练集没有的GBDT, 要求不能从填充数据的角度来做?

● LightGBM和xgboost的区别 ,LightGBM的直方图排序后会比xgboost的效果差吗,为什么?

● xgb怎么并行运算(除了自带的并行找特征分裂点,还说了一般模型的按数据和按特征并行) ,但是面试官一直追问详细的并行方法

● xgb与LR各自的优缺点,LR为什么更容易并行?

② 线性回归

● 能否详细的讲解一下,线性回归的原理?具体讲解一下线性回归的底层原理,比如说如何训练,如何得到参数,如何调整参数等?

● 线性回归R^2公式及意义

③ K近邻(KNN)

● knn算法了解吗,和传统的LR和SVM有什么区别?

● 怎么优化knn呢?

④ 逻辑回归LR

● LR为什么要用sigmoid?(经过面试官提示,是来自于最大熵模型,建议不明白的同学去查一下,下次面试给面试官露一手)

● 逻辑回归特征之间关联程度大会有什么问题?

● 讲解一下逻辑回归的原理?再详细的讲解一下朴素贝叶斯的底层原理,比如说,如何选参数,如何训练模型,如何做分类?

● 对于LR来说,LR如果多了一维冗余特征,其权重和AUC会怎样变化(权重变为1/2, AUC不会变化)

● 逻辑斯蒂回归里面,输出的那个0-1之间的值,是概率值吗?你看它又叫对数几率回归,怎么理解几率这个概念?

● 什么是线性模型?项目为什么使用LR,介绍LR?LR为什么是线性模型? 如何提升LR的模型性能?

● FM 与 LR对比一下,FM是否也能起到自动特征选择的作用,为什么?

● LR和FM的区别?

● LR的w可不可能是负的,正负样本10:1的情况下?

● LR一个特征重复会怎么样?

⑤ SVM(支持向量机)

● 为什么svm的loss不能直接用梯度下降要用对偶?说说你知道的优化算法。

● SVM原理,与感知机的区别?还问了SVM如果不用对偶怎么做?

● SVM对于异常值的处理,敏感程度?

● Svm和LR的区别和各自优缺点?

● SVM最后的形表达形式是什么?

● KKT条件是什么?在SVM中起到什么样的作用;

● SVM中SMO具体的操作以及原理。

● 熟悉什么机器学习算法(SVM),写损失函数(hinge+正则)

● SVM原理?为什么能转化为对偶问题?能不能推导

● SVM怎么解决不容易找到超平面的问题?

● SVM有哪些核函数?

⑥ 朴素贝叶斯(Naive Bayes)

● 贝叶斯模型知道吗?问贝叶斯网络的原理,贝叶斯估计和极大似然估计原理?朴素贝叶斯公式?

● 讲一下最大似然的原理?

● 朴素贝叶斯的算法实现?

⑦ 决策树(DT)

● 了解其他机器学习模型吗,说了决策树,为什么用信息熵?

● 决策树的ID3和C4.5介绍一下?决策树模型的类别?

● 决策树分裂节点的标准与对应的算法

● 代码写一个决策树,给定数据,启发函数是信息增益,假设所有特征的值都是数值类型的:定义节点类、构建节点、选取当前节点的最优划分特征(计算所有特征的信息增益)、数据划分、构建子节点、考虑停止划分的条件。花了好长时间写了个代码框架,然后和面试官讲了思路。

● 写的决策树是几叉树?暂时考虑的是有多少种不同的取值就有多少个分支,意识到这肯定是不对的,优化的话可以将所有取值进行划分,比如二划分就可以改成二叉树。

2.5.1.4 无监督学习-聚类方面

① Kmeans均值聚类

● KMeans和 GMM 联系与区别,kmeans原理,怎么做的,你是怎么并行的?

● kmeans原理,怎么做的,你是怎么并行的?k-means是否一定收敛?

② 高斯混合模型(GMM)

● 高斯混合模型和K-means的区别和联系

2.5.1.5 模型评价

● 信息检索中为什么使用Recall和Precision?

● 机器学习中一般怎么衡量模型效果?AUC值怎么理解?

● 怎么衡量两个分布的差异?KL散度和交叉熵损失有什么不同?关系是啥?

● 一些统计学的原理比如t-test, AUC curve的意义是啥,为什么要用AUC去衡量机器学习模型的好坏。

● 为什么召回的数量级小,排序模型的效果就好

● 交叉熵 和 相对熵(kl散度)的关系

2.5.2 手推算法及代码

2.5.2.1 手推公式

● LR推导,手写LR前向传播和反向传播

● 写出LR的损失函数(交叉熵损失函数)

● FM的推导?

● 上来就让手写个LogisticRegression 你了解元学习吗?说一下你的理解。 权值初
始化方式对LR的收敛有影响吗? 你对权值初始化有什么了解?怎样才算是好的初始化?

● 问了xgboost并且手推

● 问能推哪些算法的公式,只敢说LR,因为没准备SVM。然后就是推LR的梯度下降,接着让我写sigmoid函数,最后就是sigmoid求导。

● LR、SVM的公式推导

● 朴素贝叶斯写公式。

● 介绍一个熟悉的算法(LR),推导sigmoid求导过程

● 手写LR的实现过程,然后聊了聊L1以及L1的扩展

● 手推 LR 的损失函数、损失函数怎么来的、梯度如何计算,写成一个完整的类

2.5.2.2 手写代码

● 问了adaboost的原理,模型的权重以及数据的权重各自有什么意义,写出adaboost的伪代码。

● 手写kmeans聚类算法(代码)

2.6 深度学习&机器学习面经通用知识点

2.6.1 损失函数方面

● 交叉熵,相对熵

● 回归和分类的常用损失函数

● Logistic Regression损失函数,怎么来的?

● 常见损失函数有哪些

● 逻辑回归中损失函数的实际意义?

● Smooth l1 loss公式以及为什么是这样的?

● 为什么分类问题用交叉熵, 怎么来的?

2.6.2 激活函数方面

● 各种常用激活函数对比下?(sigmoid, tanh, relu, lrelu等)

● sigmoid的优缺点?

● sigmoid和relu的区别?

● 平时用什么用的多?为什么用relu多呢?

● 写逻辑回归的logloss损失函数

2.6.3 网络优化梯度下降方面

● SGD每步做什么,为什么能online learning

● l1是损失函数,有哪些优化方法,能用sgd么?为什么?

● Adam优化器的迭代公式

● 4adam用到二阶矩的原理是什么

● 几种梯度下降的方法和优缺点?

● 梯度下降系列算法有哪些,有点蒙住了,后来才想起来应该问问 momentum
adam 之类的算不算?

● 讲一下你熟悉的优化器,说一下区别或发展史

● 有哪些优化算法,Adam的默认参数有哪些?

● 介绍方向导数和梯度,方向导数和梯度的关系?为什么梯度在机器学习中的优化方法中有效?

● 神经网络权重初始化方法和优化方法

● 介绍一下你了解的优化器和各自的优缺点?

● Adam和Adagrad的区别?

2.6.4 正则化方面

● 正则化的本质?

● L1正则化和L2正则化的区别,从数学角度说

● L1有什么缺点?L2呢?平时用L1多还是用L2多?为什么正则化选L2呢?为什么不选L1?L1为什么产生稀疏解?

● L1、L2的区别, L1为什么图像是菱形

● L1范数和L2范数的区别,作用。为什么bias不正则

● 为什么要用正则化?解释了奥卡姆剃刀

● L1正则化与L2正则化的区别?解释了参数先验和拉格朗日乘子法

2.6.5 压缩&剪枝&量化&加速

● 了解模型蒸馏吗?

● 怎么做模型压缩?-使用知识蒸馏、设计小的网络,得到End-to-End模型。

● 介绍了量化(8bit,4bit,二值化)的项目?训练后量化和量化感知训练分别是怎么实现的?

2.6.6 过拟合&欠拟合方面

● 什么是过拟合,过拟合怎么解决?

● 深层网络容易过拟合还是浅层网络容易过拟合 ?

● 防止欠拟合的方法?

● 过拟合要怎么解决?(减少模型参数、早停、正则化、数据增强、GAN合成数据、dropout、few shot learning,等等等等)

● BN为什么防止过拟合呢?

2.6.7 其他方面

● 深度学习与机器学习的异同及联系?

● 数据不均衡的处理方法-过多数据欠采样,过少数据过采样,另外还有一些基于模型的方法比如SMOTE方法等。

● 样本不均衡怎么解决,我说人为对采样少的样本重复几次,然后他问这样auc会不会变并解释,我说不会变,解释的不太清楚但他好像听懂了

● 当模型的性能不好时,如何分析模型的瓶颈?

● 数据不均衡有什么解决方式,从数据,模型选择,以及损失函数选择角度?

在这里插入图片描述

这篇关于字节跳动算法岗武功秘籍(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/200920

相关文章

.NET利用C#字节流动态操作Excel文件

《.NET利用C#字节流动态操作Excel文件》在.NET开发中,通过字节流动态操作Excel文件提供了一种高效且灵活的方式处理数据,本文将演示如何在.NET平台使用C#通过字节流创建,读取,编辑及保... 目录用C#创建并保存Excel工作簿为字节流用C#通过字节流直接读取Excel文件数据用C#通过字节

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

dp算法练习题【8】

不同二叉搜索树 96. 不同的二叉搜索树 给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。 示例 1: 输入:n = 3输出:5 示例 2: 输入:n = 1输出:1 class Solution {public int numTrees(int n) {int[] dp = new int