Q-Logo 我的学习笔记分享

Entries for category "scientific-computing"

Pandas DataFrame的round函数详解及小坑

df.round(decimals=0, *args, **kwargs)

输入参数

decimals : int, dict, Series,每一列舍入到的小数位数。如果是整数,每一列都被舍入到这个位数;如果是字典或序列,各列舍入到指定的精度。列的名字应该作为decimals 字典的键,或者decimals 序列的index。未在decimals 中指定精度的列将保留原样。如果decimals 中有不是列名的键或index,会被忽略。

返回:

DataFrame: 舍入到指定精度的DataFrame。

decimals=0时,返回的是浮点数而非整数。

round 并非四舍五入,对浮点数执行round 须谨慎。

从Python 的round 函数的坑谈四舍五入

对浮点数执行 round ,返回的不是四舍五入的值,而是按以下规则确定的:

  1. 值会被舍入到距离 number 最接近的 10 的负 ndigits 次幂的倍数
  2. 如果 number 与两个倍数的距离正好相等,则选择偶数,即正好在中间时,向偶取整

我们输入和看到的浮点数,与计算机中存储和运算时使用的浮点数未必完全相同,多数时候后者只是前者的近似值。

round(2.675, 2) 返回2.67 而不是 2.68 ,并不是错误,也不是bug,而是使用计算机进行浮点运算必然会出现的现象。

除非对精确度要求比较底,否则尽量避免用round()函数处理浮点小数。

如果确实需要使用四舍五入的方式进行舍入,可以用 decimal 模块:

>>> import decimal

>>> D = decimal.Decimal

>>> decimal.getcontext().rounding = "ROUND_HALF_UP" # 设置舍入方式为四舍五入

>>> D('2.675').quantize(D('0.00'))

Decimal('2.68') # 四舍五入后的值

JavaScript 字符串split 方法用多个字符进行分割并去除空值

原始字符串并不规则(数据清理时常会遇到这种“脏”数据)可能既有逗号分隔符,又有分号分隔符,结尾处还有一个额外的分号

var mystring = "10,20;30,40,";

这种情况下,直接用mystring.split(",")得到的将不是想要的结果,"20;30"不会被分开,且数组中会有空值""

["10","20;30","40",""]

解决的办法就是,使用正则表达式指定多个分割符,再用filter 方法过滤去除数组中的空值:

var myarray = mystring.split(/[,;]/).filter(item => item !== '')

这样,得到的结果是

["10","20","30","40"]

Pandas数据整理实战 - 合并+填充+丢弃缺失

在进行数据处理时,有时会需要将这样的两个表整理成一个表,如下图所示

pandas-merge-fillna-dropna.jpg

第一个表中为每日测量值,第二个表中是标准生效日期,第一个表中每日的测量值,是依据当日之前最新的标准进行测量得到的值。按照这个规则可以整理得到第三个表,这个表综合显示每日测量值所依据的标准和标准生效日期。

使用pandas , 可以综合运用合并、填充和丢弃缺失等方法,来从表1和表2得到表3:

pdm = pd.merge(df1,df2,how='outer',left_on='date',right_on='effective date',sort=True).fillna(method='ffill').dropna()