numpy.ma
模块#
基本原理#
掩码数组是可以包含缺失或无效条目的数组。numpy.ma
模块提供了一个几乎与 numpy 完全相同的替代方案,支持带有掩码的数据数组。
什么是掩码数组?#
在许多情况下,数据集可能不完整或因无效数据的存在而受到影响。例如,传感器可能未能记录数据,或记录了无效值。numpy.ma
模块通过引入掩码数组提供了一种方便的方法来解决此问题。
掩码数组是标准numpy.ndarray
和掩码的组合。掩码要么是nomask
,表示相关数组的任何值均有效,要么是一个布尔值数组,用于确定相关数组的每个元素是否有效。当掩码的元素为False
时,相关数组的对应元素有效,并被称为未掩码。当掩码的元素为True
时,相关数组的对应元素被称为掩码(无效)。
该包确保在计算中不使用掩码条目。
举例说明,让我们考虑以下数据集
>>> import numpy as np >>> import numpy.ma as ma >>> x = np.array([1, 2, 3, -1, 5])我们希望将第四个条目标记为无效。最简单的方法是创建一个掩码数组
>>> mx = ma.masked_array(x, mask=[0, 0, 0, 1, 0])现在我们可以计算数据集的平均值,而不考虑无效数据。
>>> mx.mean() 2.75
numpy.ma
模块#
numpy.ma
模块的主要功能是MaskedArray
类,它是numpy.ndarray
的子类。该类、其属性和方法在MaskedArray 类部分中进行了更详细的描述。
>>> import numpy as np >>> import numpy.ma as ma要创建一个第二个元素无效的数组,我们可以这样做:
>>> y = ma.array([1, 2, 3], mask = [0, 1, 0])要创建一个掩码数组,其中所有接近 1.e20 的值都无效,我们可以这样做:
>>> z = ma.masked_values([1.0, 1.e20, 3.0, 4.0], 1.e20)
有关掩码数组创建方法的完整讨论,请参见构建掩码数组部分。
使用 numpy.ma#
构建掩码数组#
有多种方法可以构建掩码数组。
第一种方法是直接调用
MaskedArray
类。第二种方法是使用两个掩码数组构造函数,
array
和masked_array
。array
(data[, dtype, copy, order, mask, ...])一个可能包含掩码值的数组类。
MaskedArray
的别名第三种方法是获取现有数组的视图。在这种情况下,如果数组没有命名字段,则视图的掩码设置为
nomask
;否则,掩码为一个与数组结构相同的布尔值数组。>>> import numpy as np >>> x = np.array([1, 2, 3]) >>> x.view(ma.MaskedArray) masked_array(data=[1, 2, 3], mask=False, fill_value=999999) >>> x = np.array([(1, 1.), (2, 2.)], dtype=[('a',int), ('b', float)]) >>> x.view(ma.MaskedArray) masked_array(data=[(1, 1.0), (2, 2.0)], mask=[(False, False), (False, False)], fill_value=(999999, 1e+20), dtype=[('a', '<i8'), ('b', '<f8')])
另一种可能性是使用以下任何函数:
asarray
(a[, dtype, order])将输入转换为给定数据类型的掩码数组。
asanyarray
(a[, dtype])将输入转换为掩码数组,保留子类。
fix_invalid
(a[, mask, copy, fill_value])返回具有掩码无效数据并由填充值替换的输入。
masked_equal
(x, value[, copy])掩码等于给定值的数组。
masked_greater
(x, value[, copy])掩码大于给定值的数组。
masked_greater_equal
(x, value[, copy])掩码大于或等于给定值的数组。
masked_inside
(x, v1, v2[, copy])掩码给定区间内的数组。
masked_invalid
(a[, copy])掩码出现无效值(NaN 或 infs)的数组。
masked_less
(x, value[, copy])掩码小于给定值的数组。
masked_less_equal
(x, value[, copy])掩码小于或等于给定值的数组。
masked_not_equal
(x, value[, copy])掩码不等于给定值的数组。
masked_object
(x, value[, copy, shrink])掩码数据完全等于 value 的数组 x。
masked_outside
(x, v1, v2[, copy])掩码给定区间外的数组。
masked_values
(x, value[, rtol, atol, copy, ...])使用浮点相等性进行掩码。
masked_where
(condition, a[, copy])根据条件掩盖数组。
访问数据#
可以多种方式访问掩码数组的底层数据:
通过
data
属性。输出结果是数组的视图,其类型为numpy.ndarray
或其子类之一,具体取决于掩码数组创建时底层数据的类型。通过
__array__
方法。输出结果则为numpy.ndarray
。直接将掩码数组视为
numpy.ndarray
或其子类之一的视图(这实际上就是使用data
属性所做的)。使用
getdata
函数。
如果某些条目被标记为无效,则以上方法均不完全令人满意。一般来说,如果需要数组的表示形式不包含任何掩码条目,建议使用 filled
方法填充数组。
访问掩码#
可以通过其 mask
属性访问掩码数组的掩码。我们必须记住,掩码中的 True
条目表示数据无效。
另一种方法是使用 getmask
和 getmaskarray
函数。getmask(x)
如果 x
是掩码数组,则输出 x
的掩码;否则输出特殊值 nomask
。getmaskarray(x)
如果 x
是掩码数组,则输出 x
的掩码。如果 x
没有无效条目或不是掩码数组,则该函数输出一个布尔数组 False
,其元素个数与 x
相同。
仅访问有效条目#
要仅检索有效条目,我们可以使用掩码的反向作为索引。可以使用 numpy.logical_not
函数或简单的 ~
运算符计算掩码的反向。
>>> import numpy as np >>> x = ma.array([[1, 2], [3, 4]], mask=[[0, 1], [1, 0]]) >>> x[~x.mask] masked_array(data=[1, 4], mask=[False, False], fill_value=999999)检索有效数据的另一种方法是使用
compressed
方法,该方法返回一个一维ndarray
(或其子类之一,具体取决于baseclass
属性的值)。>>> x.compressed() array([1, 4])请注意,
compressed
的输出始终是一维的。
修改掩码#
掩盖条目#
标记掩码数组的一个或多个特定条目为无效的推荐方法是为其分配特殊值 masked
>>> x = ma.array([1, 2, 3])
>>> x[0] = ma.masked
>>> x
masked_array(data=[--, 2, 3],
mask=[ True, False, False],
fill_value=999999)
>>> y = ma.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
>>> y[(0, 1, 2), (1, 2, 0)] = ma.masked
>>> y
masked_array(
data=[[1, --, 3],
[4, 5, --],
[--, 8, 9]],
mask=[[False, True, False],
[False, False, True],
[ True, False, False]],
fill_value=999999)
>>> z = ma.array([1, 2, 3, 4])
>>> z[:-2] = ma.masked
>>> z
masked_array(data=[--, --, 3, 4],
mask=[ True, True, False, False],
fill_value=999999)
第二种方法是直接修改 mask
,但不推荐这种用法。
注意
创建具有简单非结构化数据类型的新掩码数组时,掩码最初设置为特殊值 nomask
,这大致相当于布尔值 False
。尝试设置 nomask
的元素将导致 TypeError
异常,因为布尔值不支持项目赋值。
可以通过将 True
赋值给掩码来一次性掩盖数组的所有条目。
>>> import numpy.ma as ma >>> x = ma.array([1, 2, 3], mask=[0, 0, 1]) >>> x.mask = True >>> x masked_array(data=[--, --, --], mask=[ True, True, True], fill_value=999999, dtype=int64)最后,可以通过为掩码分配布尔序列来掩盖和/或取消掩盖特定条目。
>>> x = ma.array([1, 2, 3]) >>> x.mask = [0, 1, 0] >>> x masked_array(data=[1, --, 3], mask=[False, True, False], fill_value=999999)
取消掩盖条目#
要取消掩盖一个或多个特定条目,我们可以为其分配一个或多个新的有效值。
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1])
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x[-1] = 5
>>> x
masked_array(data=[1, 2, 5],
mask=[False, False, False],
fill_value=999999)
注意
如果掩码数组具有硬掩码(由 hardmask
属性所示),则通过直接赋值取消掩盖条目将静默失败。此功能旨在防止覆盖掩码。要在数组具有硬掩码的情况下强制取消掩盖条目,必须首先使用 soften_mask
方法软化掩码,然后再进行分配。可以使用 harden_mask
重新硬化,如下所示:
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1], hard_mask=True)
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x[-1] = 5
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x.soften_mask()
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x[-1] = 5
>>> x
masked_array(data=[1, 2, 5],
mask=[False, False, False],
fill_value=999999)
>>> x.harden_mask()
masked_array(data=[1, 2, 5],
mask=[False, False, False],
fill_value=999999)
要取消掩码数组的所有掩码条目(前提是掩码不是硬掩码),最简单的解决方案是将常量 nomask
赋值给掩码。
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1])
>>> x
masked_array(data=[1, 2, --],
mask=[False, False, True],
fill_value=999999)
>>> x.mask = ma.nomask
>>> x
masked_array(data=[1, 2, 3],
mask=[False, False, False],
fill_value=999999)
索引和切片#
由于 MaskedArray
是 numpy.ndarray
的子类,因此它继承了其索引和切片机制。
当访问没有命名字段的掩码数组的单个条目时,输出结果要么是标量(如果掩码的对应条目为 False
),要么是特殊值 masked
(如果掩码的对应条目为 True
)。
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3], mask=[0, 0, 1])
>>> x[0]
1
>>> x[-1]
masked
>>> x[-1] is ma.masked
True
如果掩码数组具有命名字段,则访问单个条目将返回 numpy.void
对象(如果没有任何字段被掩盖),或者返回与初始数组具有相同 dtype 的 0d 掩码数组(如果至少有一个字段被掩盖)。
>>> import numpy.ma as ma
>>> y = ma.masked_array([(1,2), (3, 4)],
... mask=[(0, 0), (0, 1)],
... dtype=[('a', int), ('b', int)])
>>> y[0]
(1, 2)
>>> y[-1]
(3, --)
访问切片时,输出结果是一个掩码数组,其 data
属性是原始数据的视图,其掩码为 nomask
(如果原始数组中没有无效条目)或原始掩码的对应切片的视图。需要视图以确保任何掩码修改都传播到原始掩码。
>>> import numpy.ma as ma
>>> x = ma.array([1, 2, 3, 4, 5], mask=[0, 1, 0, 0, 1])
>>> mx = x[:3]
>>> mx
masked_array(data=[1, --, 3],
mask=[False, True, False],
fill_value=999999)
>>> mx[1] = -1
>>> mx
masked_array(data=[1, -1, 3],
mask=[False, False, False],
fill_value=999999)
>>> x.mask
array([False, False, False, False, True])
>>> x.data
array([ 1, -1, 3, 4, 5])
访问具有结构化数据类型的掩码数组的字段将返回 MaskedArray
。
掩码数组上的运算#
掩码数组支持算术和比较运算。尽可能不处理掩码数组的无效条目,这意味着运算前后对应的 data
条目应该相同。
警告
我们需要强调的是,这种行为可能并非系统性的,掩码数据在某些情况下可能会受到运算的影响,因此用户不应依赖这些数据保持不变。
numpy.ma
模块带有大多数 ufunc 的特定实现。具有有效性域(例如 log
或 divide
)的一元和二元函数,只要输入被掩盖或超出有效性域,就会返回 masked
常量。
>>> import numpy.ma as ma
>>> ma.log([-1, 0, 1, 2])
masked_array(data=[--, --, 0.0, 0.6931471805599453],
mask=[ True, True, False, False],
fill_value=1e+20)
掩码数组也支持标准的 NumPy 通用函数 (ufunc)。输出结果也是一个掩码数组。一元 ufunc 的结果在输入被掩码的地方也会被掩码。二元 ufunc 的结果在任何一个输入被掩码的地方都会被掩码。如果 ufunc 还返回可选的上下文输出(一个包含 ufunc 名称、其参数及其域的 3 元组),则会处理上下文,并在对应输入超出有效域的掩码数组输出条目处进行掩码。
>>> import numpy.ma as ma
>>> x = ma.array([-1, 1, 0, 2, 3], mask=[0, 0, 0, 0, 1])
>>> np.log(x)
masked_array(data=[--, 0.0, --, 0.6931471805599453, --],
mask=[ True, False, True, False, True],
fill_value=1e+20)
示例#
用给定值表示缺失数据#
让我们考虑一个元素列表 x
,其中 -9999 值代表缺失数据。我们希望计算数据的平均值和异常向量(与平均值的偏差)。
>>> import numpy.ma as ma
>>> x = [0.,1.,-9999.,3.,4.]
>>> mx = ma.masked_values (x, -9999.)
>>> print(mx.mean())
2.0
>>> print(mx - mx.mean())
[-2.0 -1.0 -- 1.0 2.0]
>>> print(mx.anom())
[-2.0 -1.0 -- 1.0 2.0]
填充缺失数据#
现在假设我们希望打印相同的数据,但用平均值替换缺失值。
>>> import numpy.ma as ma
>>> mx = ma.masked_values (x, -9999.)
>>> print(mx.filled(mx.mean()))
[0. 1. 2. 3. 4.]
数值运算#
可以轻松地执行数值运算,而无需担心缺失值、除以零、负数的平方根等问题。
>>> import numpy.ma as ma
>>> x = ma.array([1., -1., 3., 4., 5., 6.], mask=[0,0,0,0,1,0])
>>> y = ma.array([1., 2., 0., 4., 5., 6.], mask=[0,0,0,0,0,1])
>>> print(ma.sqrt(x/y))
[1.0 -- -- 1.0 -- --]
输出的四个值无效:第一个是由于对负数进行平方根运算,第二个是由于除以零,最后两个是由于输入被掩码。
忽略极值#
让我们考虑一个介于 0 和 1 之间的浮点数数组 d
。我们希望计算 d
的值的平均值,同时忽略范围 [0.2, 0.9]
外的任何数据。
>>> import numpy as np
>>> import numpy.ma as ma
>>> d = np.linspace(0, 1, 20)
>>> print(d.mean() - ma.masked_outside(d, 0.2, 0.9).mean())
-0.05263157894736836