摘要:词频逆向文件频率词频越大越重要越大,即出现词的文件数越少,越重要概述一般结构为卷积层一组平行的,之后经过激活函数如来决定该神经元是否被激活。一般都是,把行进行处理。
做ML最重要的是啥!!跟我念三遍!!LOOK INTO THE DATA! LOOK INTO THE DATA!! LOOK INTO THE DATA!!! 可以多使用visualization工具来帮助自己理解data。
Pandas
引入:import pandas as pd
常也需import numpy as np
create df:
df = pd.DataFrame(...)
selection:
选列:df["A"] 选行:df[0:3] 多维:df.loc[:, ["A", "B"]]或df.iloc[:, 0:2] 选值:df.at[2,"A"]或者df.iloc[2,0]
处理空值:df.dropna df.fillna
apply funcs:df.apply(lambda)
SQL-like join: pd.merge(A, B, on="...")
文件:df.to_csv("...") pd.read_csv("...")
filtering的pitfall:
用于filter training data的就不可以再作为feature, e.g.
如果用age < 18来filter了training set,那么age就不可以再作为feature,否则模型就会严重学习到age < 18这条手动规则
Ngrams:
一段text里相临近的n个单词,ngram feature每次就以n为窗口计算
ngram model一般是马尔科夫链算法,由前n-1个单词预测最后一个单词
feature engineering:
如何提出好的feature:1)凭直觉 e.g.头发长短用于判断性别; 2)用数据做correlation分析
ROC曲线:
横坐标FPR, 纵坐标TPR, 每个点上都有threshold,可以根据距离(0,1)点最近的曲线上点来选择threshold。(但一般都是0.5不用动。)
TFIDF:
TFIDF = TF(词频) * IDF(逆向文件频率)
词频越大越重要
idf越大,即出现词的文件数越少,越重要
CNN概述:
一般结构为
kernals(window) --> convolution layer --> pooling operation --> vectorization
卷积层:一组平行的feature map,之后经过激活函数(如sigmoid)来决定该神经元是否被激活。
池化层:downsampling,有助于减少param数量并避免overfit
常见池化方法:max,min,avg,l2等
Model deployment:
client request-->server-->(sharding service)-->fetch model from storage (e.g. HDFS, S3)-->load model
预处理
一般都要包括去重(!非常重要!否则会overfit和bias)和处理N/A值
train、test set split的pitfall:
注意不能有data leak!!!所以去重真的非常重要啊。
一般的ranking backend结构:
一般first stage做filter(这样结果才能变少啊),second stage做rank。
所以先filter model,然后再ranking models
如果应对position bias(e.g.排第一个的结果收到的点击最多):
predict as if they are all shown at position 0
include position feature
counterfactual evaluation
Training package:
训练代码一般都会打包成package通过command来跑。
一般都是batch training,把行进行batch处理。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/19933.html
摘要:谷歌云在其官方博客上公布,确认来自卡内基梅隆大学的计算机科学院院长教授将在年底接任李飞飞的谷歌云负责人职位,而李飞飞也将正式回归斯坦福大学当教授。两年前,李飞飞从斯坦福休假加入谷歌,成为谷歌云的负责人与首席科学家。今年7月的谷歌Next大会上,李飞飞宣布了两年前推进的Contact Center落地、AutoML推出自然语言和翻译服务、TPU 3.0进入谷歌云,这意味着谷歌云拥抱AI Fir...
MindsDB作为一个开源项目,它旨在将机器学习模型无缝集成到现有的数据库系统中,为用户提供实时的数据预测能力。这个项目的创新之处在于,它能够以简单、直观的方式让开发者和非技术人员都能够利用AI进行数据分析和预测。 它是根据企业数据库定制的AI平台,使用者可以根据数据库、矢量存储和应用程序数据实时创建、提供和微调模型。简介MindsDB 的核心理念是使数据库不仅能够存储和检索数据,还能基于这些数据...
摘要:在一个数据分析任务和任务混合的环境中,大数据分析任务也会消耗很多网络带宽如操作,网络延迟会更加严重。本地更新更新更新目前,我们已经复现中的实验结果,实现了多机并行的线性加速。 王佐,天数润科深度学习平台负责人,曾担任 Intel亚太研发中心Team Leader,万达人工智能研究院资深研究员,长期从事分布式计算系统研究,在大规模分布式机器学习系统架构、机器学习算法设计和应用方面有深厚积累。在...
阅读 3208·2023-04-26 02:27
阅读 2136·2021-11-22 14:44
阅读 4080·2021-10-22 09:54
阅读 3194·2021-10-14 09:43
阅读 746·2021-09-23 11:53
阅读 12673·2021-09-22 15:33
阅读 2703·2019-08-30 15:54
阅读 2680·2019-08-30 14:04