数据生成
生成随机数:生成20个0~100的随机数,并创建数据框
生成等差数:生成20个0~100的固定步长的数,并创建数据框
生成制定分布随机数:生成20个标准正态分布的随机数,并创建数据框
查看数据:查看df
中所有数据的最小值、最大值及百分位数
修改列名:修改df
中列名为col1
、col2
、col3
数据操作:提取在第1列和第2列中出现频率最高的3个数
数据计算:对第 2 列计算步长为 3 的移动平均值
数据操作:将第 1 列大于 50 的数修改为”高”,小于50的数修改为”低”
高级
数据读取:从 csv 文件中读取指定数据:读取前 10 行, positionName 和 salary 列
数据读取:从 csv 文件中读取数据,将薪资大于 10000 的改为 “高”
数据操作:从 df 中对薪资水平每隔 20 行进行抽样
数据连接:全连接:根据多列匹配合并数据,保留 df1 和 df2 的观测
数据连接:左连接:根据多列匹配合并数据,只保留df1的观测
数据操作:查找 secondType 与 thirdType 值相等的行号
数据操作:将上一题数据的 linestation 列按 _ 拆分
数据操作:提取 industryField 列以” 数据” 开头的行
数据分组汇总:以 salary score 和 positionID 做数据透视表
数据分组汇总:同时对 salary、 score 两列进行汇总计算
数据分组汇总:同时对不同列进行不同的汇总计算:对 salary 求平均,对 score 求和