摘要:今晚做完了网易互娱数据挖掘实习生的笔试题,虽然大部分的题目都不太记得了。采样分为上采样和下采样。上采样是把小众类复制多份下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。
今晚做完了网易互娱数据挖掘实习生的笔试题,虽然大部分的题目都不太记得了。但是还是有一些印象比较深的坑需要填一下。比起腾讯和字条跳动难度适中,不算很大,字节的笔试挂了。其实这次感觉自己做的也不是挺好哈哈哈。
1、题型笔试分为三部分:20道单选题 + 10道不定项选择 + 2道编程题2、题目 选择题
1. one-vs-rest
题目是让选择对用one-vs-rest思想进行n分类,需要几个分类器。
一开始还不知道原来one-vs-rest就是one-vs-all,但是后来排除了就剩下n个分类器这个答案了。
one-vs-all(one-vs-rest):利用n个二分类器完成n分类的任务。
2.sigmoid、TaNh、ReLU
题目是选择哪个函数有可能是输出为-0.01的神经网络的激励函数。
其实题目很简单利用函数的值域就能解出来,但是利用这个机会去理一理这三个函数的区别吧。
神经网络中的激活函数
3、bootstrap原理
题目是选择boostrap的原理。主要是要学会区别与其他集成学习算法的原理。
bootstrap: 集成学习中的一个算法,是一种估计统计量的重采样方法,从大小为n的原始训练数据集D中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复B次,然后用这B个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是n,所以这B个新的训练集中不可避免的会存在重复的样本。
4、正负样本不均衡的解决办法
题目是用采样方法去缓解正负样本不均衡的解决办法。
采样分为上采样(Oversampling)和下采样(Undersampling)。
上采样是把小众类复制多份;下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。
上采样会把小众样本复制多份,一个点会在高维空间中反复出现,这会导致一个问题,那就是运气好就能分对很多点,否则分错很多点。为了解决这一问题,可以在每次生成新数据点时加入轻微的随机扰动,经验表明这种做法非常有效。
因为下采样会丢失信息,如何减少信息的损失呢?
第一种方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。
第二种方法叫做BalanceCascade,利用增量训练的思想(Boosting):先通过一次下采样产生训练集,训练一个分类器,对于那些分类正确的大众样本不放回,然后对这个更小的大众样本下采样产生训练集,训练第二个分类器,以此类推,最终组合所有分类器的结果得到最终结果。
第三种方法是利用KNN试图挑选那些最具代表性的大众样本,叫做NearMiss。
5、至于剩下的题目也不太记得了,主要是一些关于p值还有零假设检验的合理性。看来还是需要补一补统计学的知识。编程题
数据挖掘考的大题是编程题,同学数据分析考的是sql题。还好看了点往年的题型最近练习的侧重点是编程,虽然说sql语句以后也会考到,找个时间猛补吧。
1、排序题
题目描述不大记得了,主要是:给出一组数字,让你从这组数中找出最长的递增数列长度。
比如:
输入:
10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18
输出:
6
提示:
1、该递增数列是 2, 3, 6, 7, 9, 101
2、该递增数列在原数列中不一定是连续的。
我的第一时间想法就是先去重排序(去重是因为相同的数字不算递增,所以重复的数字不影响),然后就得到了已经排序号的数列,但是这些数列是在原数列有排序的,所以只要判断去重排序中的元素在原数列中的索引是否递增就能找出答案。但是在实际通过样例只有83.3%,搞不懂是不是漏了一些条件,明天去班里问问ACM大神吧。
data = [10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18] sortData = sorted(list(set(data))) count = 0 for i in range(1, len(sortData)): if data.index(sortData[i]) > data.index(sortData[i-1]): count += 1 print(count)
上课的时候问了一下学过算法的同学,说我写的代码不对,只是凑巧达到了一些案例的标准。
这题用的方法是静态规划,目的是用dp[n]:以第n个数字结尾的上升序列的长度。
data = [10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18] dp = [1 for i in data] for i in range(1,len(data)): for j in range(i): if data[i] > data[j]: dp[i] = max(dp[i], dp[j]+1) dp[i] = max(dp[i], 1) print(max(dp))
第二题稍微忘了题目了,等拿到真题再完整的更新一次吧。
把每一次笔试都当作查漏补缺,加油。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/43526.html
摘要:春招结果五月份了,春招已经接近尾声,因为到了周五晚上刚好有空,所以简单地记录一下自己的春招过程。我的春招从二月初一直持续到四月底,截止今天,已经斩获唯品会电商前端研发部大数据与威胁分析事业部京东精锐暑假实习生的腾讯的是早上打过来的。 春招结果 五月份了,春招已经接近尾声,因为到了周五晚上刚好有空,所以简单地记录一下自己的春招过程。我的春招从二月初一直持续到四月底,截止今天,已经斩获唯品...
摘要:具体的时间线从月中旬,我开始关注牛客网的秋招内推信息。直至十月中下旬结束秋招。之前也写过自己在广州找实习的经历,那次把面试的过程都具体贴出来了。我今年就完美错过了春招实习经历。 前言 只有光头才能变强 离上次发文章已经快两个月时间了,最近一直忙着秋招的事。今天是2018年10月22日,对于互联网行业来说,秋招就基本结束了。我这边的流程也走完了(不再笔试/面试了),所以来写写我的秋招经历...
摘要:面经因为我完全没有面试经验,从来没有经历过面试,于是想着在去这类大公司面试之前先找成都的小公司练练手,积累点面试经验。于是三月份开始就有成都的小公司开始约我面试。 前序 从我高考成绩出来那一刻开始,从我在高考志愿上填上计算机科学与技术这几个当时在心中堪称神圣的几个字开始,我就已经把进入中国互联网最高殿堂BAT作为我整个大学奋斗的目标,哪怕我就读的是一所位于内陆的双非一本大学我也认为我能...
摘要:网易跨境电商考拉海购在线笔试现场技术面面。如何看待校招面试招聘,对公司而言,是寻找劳动力对员工而言,是寻找未来的同事。 如何准备校招技术面试 标签 : 面试 [TOC] 2017 年互联网校招已近尾声,作为一个非 CS 专业的应届生,零 ACM 经验、零期刊论文发表,我通过自己的努力和准备,从找实习到校招一路运气不错,面试全部通过,谨以此文记录我的校招感悟。 写在前面 写作动机 ...
摘要:拿到秋招的同学,如确定入职需与用人单位签署三方协议,以保证双方的利益不受损失。当然每个岗位所要求的侧重点不同,但却百变不离其宗。方法论要想达成某个目标都有其特定的方法论,学习技术也不例外,掌握适当的学习方法才能事半功倍。 写在前面的话 笔者从17年的2月份开始准备春招,其中遇到不少坑,也意识到自己走过的弯路。故写了这篇文章总结一番,本文适合主动学习的,对自己要学的课程不明确的,对面试有...
阅读 3069·2023-04-25 16:50
阅读 903·2021-11-25 09:43
阅读 3512·2021-09-26 10:11
阅读 2518·2019-08-26 13:28
阅读 2531·2019-08-26 13:23
阅读 2418·2019-08-26 11:53
阅读 3566·2019-08-23 18:19
阅读 2987·2019-08-23 16:27