摘要:本节是通过函数,查看值包含了哪些字符串,有点像搜索关键词主要的函数是长度包含字符书中用到的是通过查找关键词,查看包含这些原料的菜谱有哪些。
本节是通过函数,查看值包含了哪些字符串,有点像搜索关键词
主要的函数是:
str.*()
str.len() 长度
str.contains() 包含**字符
书中用到的是通过查找关键词,查看包含这些原料的菜谱有哪些。 结合现在的,我觉得可以在处理推广数据时,通过设置好的参数来分析url中的用户来源。
查看了word列的字符串长度,平均搜索词的长度为8.8,75%是搜索词在10个以内,最长的有95个字符
df.word.str.len().describe() Out: count 2324.000000 mean 8.767642 std 4.695302 min 0.000000 25% 6.000000 50% 8.000000 75% 10.000000 max 95.000000 Name: word, dtype: float64
查看字符大于50个的数据,执行代码后只有2条数据。
df[df.word.str.len() > 50] # 如果想查看字符串长度大于30的数据有多少条,可以用 df[df.word.str.len() > 30].count() Out: date 15 id 15 word 15 rank1 15 number1 15 url 15 dtype: int64-- 查找是否包含某些字符
str.contains
#word列包含‘家’字的数据是什么 df[df.word.str.contains("家")]
还可以用input()的方法,来查找输入的字符是否在word列中
keyw = input() df[df.url.str.contains(keyw)
就这样,下节学习时间格式的处理,然后第3章就结束了,拜拜。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44995.html
摘要:贡献者飞龙版本最近总是有人问我,把这些资料看完一遍要用多长时间,如果你一本书一本书看的话,的确要用很长时间。为了方便大家,我就把每本书的章节拆开,再按照知识点合并,手动整理了这个知识树。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 贡献者:飞龙版...
摘要:时间序列,日期格式处理原以为本章是讲怎么用处理时间格式,比如提取年月之类的。新增一列日期,不要时分新增两列年,月,以便后续分析。这个方法太复杂,而且处理时间可能会更长,看下面的简单方法新增月份年。 时间序列,日期格式处理 原以为本章是讲怎么用python处理时间格式,比如提取年月之类的。 但本节写的是时间格式已经工整后的事,暂时不是我想学的,所以跳过,就没有写公式了。 下面的函数时之前...
摘要:由设计,作为编程语言的继承者,于年首次发布。表达式表达式是编程语言中的语法实体,可以对其进行评估以确定其值。它是编程语言解释和计算以产生值的常量变量函数和运算符的组合。它在年年年和年被评为年度编程语言,是唯一四次获得该奖项的语言。 ...
摘要:主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。相关系数系数为为为。从结果看,这个数据可能不太适合用来分析,因为降到维后的代笔性不足。 这两天用学了主成分分析,用的是PCA。主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。所以你想看具体哪个特征对结果的影响大,通过PC...
摘要:一周没写文了,之前干什么去了呢本周前半部分卡在画图了,然后的时间在处理数据,处理数据是我目前在画图和机器学习上一个重大的障碍,处理各种报错各种不适合,等我学会了和你再来堵我呀 一周没写文了,之前干什么去了呢?本周前半部分卡在画图了,然后1/3的时间在处理数据,处理数据是我目前在画图和机器学习上一个重大的障碍,python处理各种报错各种不适合,等我学会了kettle和spark你再来堵...
阅读 2950·2023-04-26 02:29
阅读 566·2019-08-30 15:54
阅读 1641·2019-08-29 13:13
阅读 536·2019-08-28 17:51
阅读 2700·2019-08-26 13:58
阅读 1515·2019-08-26 13:27
阅读 2805·2019-08-26 11:39
阅读 3423·2019-08-26 10:46