掩码数组#
您将做什么#
使用 NumPy 的掩码数组模块分析 COVID-19 数据并处理缺失值。
您将学到什么#
您将了解什么是掩码数组以及如何创建它们
您将了解如何访问和修改掩码数组的数据
您将能够决定在某些应用程序中何时使用掩码数组是合适的
您需要什么#
熟悉 Python 基础知识。如果您想复习一下,请查看Python 教程。
熟悉 NumPy 基础知识
要在您的计算机上运行绘图,您需要matplotlib。
什么是掩码数组?#
考虑以下问题。您有一个包含缺失或无效条目的数据集。如果您对这些数据进行任何类型的处理,并且想要*跳过*或标记这些不需要的条目而不只是删除它们,您可能必须使用条件语句或以某种方式过滤您的数据。numpy.ma 模块提供了与NumPy ndarrays相同的功能,并增加了结构以确保在计算中不使用无效条目。
来自参考指南
掩码数组是标准numpy.ndarray和**掩码**的组合。掩码要么是
nomask
,表示关联数组的任何值都不无效,要么是一个布尔值数组,它决定关联数组的每个元素是否有效。当掩码的元素为False
时,关联数组的相应元素有效,并被称为未掩码。当掩码的元素为True
时,关联数组的相应元素被称为掩码(无效)。
我们可以将MaskedArray视为以下内容的组合:
数据,作为任何形状或数据类型的常规
numpy.ndarray
;与数据形状相同的布尔掩码;
fill_value
,一个可以用来替换无效条目以返回标准numpy.ndarray
的值。
它们什么时候有用?#
在某些情况下,掩码数组比仅仅消除数组的无效条目更有用:
当您想要保留已掩码的值以供以后处理,而无需复制数组时;
当您必须处理许多数组时,每个数组都有自己的掩码。如果掩码是数组的一部分,您可以避免错误,并且代码可能更紧凑;
当您对缺失或无效值有不同的标志,并且希望保留这些标志而不替换原始数据集中的这些标志,但将它们从计算中排除时;
如果您无法避免或消除缺失值,但不想在操作中处理NaN(非数字)值。
掩码数组也是一个好主意,因为numpy.ma
模块还带有一个大多数NumPy 通用函数 (ufuncs)的特定实现,这意味着您仍然可以对掩码数据应用快速向量化函数和操作。然后输出是一个掩码数组。我们将在下面的实践示例中看到这是如何工作的。
使用掩码数组查看 COVID-19 数据#
从Kaggle可以下载一个包含 2020 年初 COVID-19 爆发初期数据的数据集。我们将查看此数据的一个小子集,包含在文件who_covid_19_sit_rep_time_series.csv
中。(请注意,此文件在 2020 年年末已被替换为一个没有缺失数据的版本。)
import numpy as np
import os
# The os.getcwd() function returns the current folder; you can change
# the filepath variable to point to the folder where you saved the .csv file
filepath = os.getcwd()
filename = os.path.join(filepath, "who_covid_19_sit_rep_time_series.csv")
数据文件包含不同类型的数据,并按如下方式组织:
第一行是标题行,它(主要)描述了下面各行中每一列的数据,从第四列开始,标题是观察日期。
第二到第七行包含与我们即将检查的数据类型不同的汇总数据,因此我们需要将它从我们将要使用的数据中排除。
我们希望使用的数值数据从第 4 列、第 8 行开始,并从那里扩展到最右列和最下行。
让我们探索此文件中前 14 天记录的数据。为了从.csv
文件中收集数据,我们将使用numpy.genfromtxt函数,确保我们只选择包含实际数字的列,而不是包含位置数据的头四列。我们还跳过此文件的头 6 行,因为它们包含我们不感兴趣的其他数据。另外,我们将提取有关这些数据日期和位置的信息。
# Note we are using skip_header and usecols to read only portions of the
# data file into each variable.
# Read just the dates for columns 4-18 from the first row
dates = np.genfromtxt(
filename,
dtype=np.str_,
delimiter=",",
max_rows=1,
usecols=range(4, 18),
encoding="utf-8-sig",
)
# Read the names of the geographic locations from the first two
# columns, skipping the first six rows
locations = np.genfromtxt(
filename,
dtype=np.str_,
delimiter=",",
skip_header=6,
usecols=(0, 1),
encoding="utf-8-sig",
)
# Read the numeric data from just the first 14 days
nbcases = np.genfromtxt(
filename,
dtype=np.int_,
delimiter=",",
skip_header=6,
usecols=range(4, 18),
encoding="utf-8-sig",
)
在numpy.genfromtxt
函数调用中,我们为数据的每个子集选择了numpy.dtype(整数 - numpy.int_
- 或字符字符串 - numpy.str_
)。我们还使用了encoding
参数将utf-8-sig
选择为文件的编码(在官方 Python 文档中阅读有关编码的更多信息)。您可以从参考文档或基本 IO 教程中阅读有关numpy.genfromtxt
函数的更多信息。
探索数据#
首先,我们可以绘制我们拥有的整个数据集,看看它是什么样子。为了获得可读的绘图,我们只选择几个日期显示在我们的x 轴刻度中。还要注意,在我们的绘图命令中,我们使用nbcases.T
(nbcases
数组的转置),因为这意味着我们将绘制文件的每一行作为单独的一条线。我们选择绘制虚线(使用'--'
线型)。有关此方面的更多信息,请参阅matplotlib文档。
import matplotlib.pyplot as plt
selected_dates = [0, 3, 11, 13]
plt.plot(dates, nbcases.T, "--")
plt.xticks(selected_dates, dates[selected_dates])
plt.title("COVID-19 cumulative cases from Jan 21 to Feb 3 2020")
Text(0.5, 1.0, 'COVID-19 cumulative cases from Jan 21 to Feb 3 2020')
该图从 1 月 24 日到 2 月 1 日形状奇怪。了解这些数据来自哪里会很有趣。如果我们查看从.csv
文件中提取的locations
数组,我们可以看到我们有两列,第一列包含区域,第二列包含国家/地区的名称。但是,只有前几行包含第一列的数据(中国省份名称)。之后,我们只有国家/地区的名称。因此,将中国的所有数据组合到一行中是有意义的。为此,我们将从nbcases
数组中只选择locations
数组的第二项对应于中国的行。接下来,我们将使用numpy.sum函数将所有选定的行相加(axis=0
)。还要注意,第 35 行对应于每个日期整个国家的总计。由于我们想自己从省份数据中计算总和,因此我们必须首先从locations
和nbcases
中删除该行。
totals_row = 35
locations = np.delete(locations, (totals_row), axis=0)
nbcases = np.delete(nbcases, (totals_row), axis=0)
china_total = nbcases[locations[:, 1] == "China"].sum(axis=0)
china_total
array([ 247, 288, 556, 817, -22, -22, -15, -10, -9,
-7, -4, 11820, 14410, 17237])
这些数据有问题 - 我们不应该在累积数据集中有负值。这是怎么回事?
缺失数据#
查看数据后,我们发现:存在一段**缺失数据**
nbcases
array([[ 258, 270, 375, ..., 7153, 9074, 11177],
[ 14, 17, 26, ..., 520, 604, 683],
[ -1, 1, 1, ..., 422, 493, 566],
...,
[ -1, -1, -1, ..., -1, -1, -1],
[ -1, -1, -1, ..., -1, -1, -1],
[ -1, -1, -1, ..., -1, -1, -1]])
我们看到的全部-1
值都源于numpy.genfromtxt
尝试从原始.csv
文件中读取缺失数据。显然,我们不希望将缺失数据计算为-1
——我们只想跳过此值,以免它干扰我们的分析。导入numpy.ma
模块后,我们将创建一个新的数组,这次屏蔽无效值。
from numpy import ma
nbcases_ma = ma.masked_values(nbcases, -1)
如果我们查看nbcases_ma
掩码数组,我们会看到如下内容:
nbcases_ma
masked_array(
data=[[258, 270, 375, ..., 7153, 9074, 11177],
[14, 17, 26, ..., 520, 604, 683],
[--, 1, 1, ..., 422, 493, 566],
...,
[--, --, --, ..., --, --, --],
[--, --, --, ..., --, --, --],
[--, --, --, ..., --, --, --]],
mask=[[False, False, False, ..., False, False, False],
[False, False, False, ..., False, False, False],
[ True, False, False, ..., False, False, False],
...,
[ True, True, True, ..., True, True, True],
[ True, True, True, ..., True, True, True],
[ True, True, True, ..., True, True, True]],
fill_value=-1)
我们可以看到这是一种不同类型的数组。正如引言中提到的,它具有三个属性(data
、mask
和fill_value
)。请记住,mask
属性对于对应于**无效**数据的元素具有True
值(在data
属性中用两个短横线表示)。
让我们尝试查看一下排除第一行(中国湖北省的数据)后的数据是什么样的,以便我们可以更仔细地查看缺失数据。
plt.plot(dates, nbcases_ma[1:].T, "--")
plt.xticks(selected_dates, dates[selected_dates])
plt.title("COVID-19 cumulative cases from Jan 21 to Feb 3 2020")
Text(0.5, 1.0, 'COVID-19 cumulative cases from Jan 21 to Feb 3 2020')
现在我们的数据已被掩码,让我们尝试总结一下中国的所有病例。
china_masked = nbcases_ma[locations[:, 1] == "China"].sum(axis=0)
china_masked
masked_array(data=[278, 309, 574, 835, 10, 10, 17, 22, 23, 25, 28, 11821,
14411, 17238],
mask=[False, False, False, False, False, False, False, False,
False, False, False, False, False, False],
fill_value=999999)
请注意,china_masked
是一个掩码数组,因此它的数据结构与常规 NumPy 数组不同。现在,我们可以使用.data
属性直接访问其数据。
china_total = china_masked.data
china_total
array([ 278, 309, 574, 835, 10, 10, 17, 22, 23,
25, 28, 11821, 14411, 17238])
这样更好:没有负值了。但是,我们仍然可以看到,在某些日子里,累计病例数似乎下降了(例如,从 835 降至 10),这与“累计数据”的定义不符。如果我们更仔细地查看数据,我们可以看到在中国大陆数据缺失的时期,香港、台湾、澳门和中国“未指定”地区的数据是有效的。也许我们可以从中国病例总数中删除这些数据,以便更好地理解数据。
首先,我们将确定中国大陆地区位置的索引。
china_mask = (
(locations[:, 1] == "China")
& (locations[:, 0] != "Hong Kong")
& (locations[:, 0] != "Taiwan")
& (locations[:, 0] != "Macau")
& (locations[:, 0] != "Unspecified*")
)
现在,china_mask
是一个布尔值数组(True
或False
);我们可以使用掩码数组的ma.nonzero方法检查索引是否是我们想要的。
china_mask.nonzero()
(array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 20, 21, 22, 23, 25, 26, 27, 28, 29, 31, 33]),)
现在我们可以正确地对中国大陆的条目求和。
china_total = nbcases_ma[china_mask].sum(axis=0)
china_total
masked_array(data=[278, 308, 440, 446, --, --, --, --, --, --, --, 11791,
14380, 17205],
mask=[False, False, False, False, True, True, True, True,
True, True, True, False, False, False],
fill_value=999999)
我们可以用这些信息替换数据并绘制一个新图表,重点关注中国大陆。
plt.plot(dates, china_total.T, "--")
plt.xticks(selected_dates, dates[selected_dates])
plt.title("COVID-19 cumulative cases from Jan 21 to Feb 3 2020 - Mainland China")
Text(0.5, 1.0, 'COVID-19 cumulative cases from Jan 21 to Feb 3 2020 - Mainland China')
很明显,掩码数组在这里是正确的解决方案。如果没有误解曲线的演变,我们就无法表示缺失的数据。
数据拟合#
我们可以想到的一种可能性是对缺失数据进行插值,以估计 1 月下旬的病例数。请注意,我们可以使用.mask
属性选择掩码元素。
china_total.mask
invalid = china_total[china_total.mask]
invalid
masked_array(data=[--, --, --, --, --, --, --],
mask=[ True, True, True, True, True, True, True],
fill_value=999999,
dtype=int64)
我们还可以使用此掩码的逻辑否定来访问有效条目。
valid = china_total[~china_total.mask]
valid
masked_array(data=[278, 308, 440, 446, 11791, 14380, 17205],
mask=[False, False, False, False, False, False, False],
fill_value=999999)
现在,如果我们想为此数据创建一个非常简单的近似值,我们应该考虑无效条目周围的有效条目。所以首先让我们选择数据有效的时间。请注意,我们可以使用china_total
掩码数组的掩码来索引日期数组。
dates[~china_total.mask]
array(['1/21/20', '1/22/20', '1/23/20', '1/24/20', '2/1/20', '2/2/20',
'2/3/20'], dtype='<U7')
最后,我们可以使用numpy.polynomial 包的拟合功能来创建一个尽可能拟合数据的三次多项式模型。
t = np.arange(len(china_total))
model = np.polynomial.Polynomial.fit(t[~china_total.mask], valid, deg=3)
plt.plot(t, china_total)
plt.plot(t, model(t), "--")
[<matplotlib.lines.Line2D at 0x77d35cec04c0>]
这个图不太清晰,因为线条似乎重叠在一起,所以让我们在一个更详细的图中进行总结。在数据可用时,我们将绘制真实数据,并在数据不可用时显示三次拟合,并使用此拟合计算 2020 年 1 月 28 日(记录开始后 7 天)观察到的病例数的估计值。
plt.plot(t, china_total)
plt.plot(t[china_total.mask], model(t)[china_total.mask], "--", color="orange")
plt.plot(7, model(7), "r*")
plt.xticks([0, 7, 13], dates[[0, 7, 13]])
plt.yticks([0, model(7), 10000, 17500])
plt.legend(["Mainland China", "Cubic estimate", "7 days after start"])
plt.title(
"COVID-19 cumulative cases from Jan 21 to Feb 3 2020 - Mainland China\n"
"Cubic estimate for 7 days after start"
)
Text(0.5, 1.0, 'COVID-19 cumulative cases from Jan 21 to Feb 3 2020 - Mainland China\nCubic estimate for 7 days after start')
实践中#
将
-1
添加到缺失数据不是numpy.genfromtxt
的问题;在本例中,用0
替换缺失值可能就可以了,但我们稍后会看到,这远非一个通用的解决方案。此外,可以使用usemask
参数调用numpy.genfromtxt
函数。如果usemask=True
,numpy.genfromtxt
会自动返回一个掩码数组。
进一步阅读#
本教程中未涵盖的主题可以在文档中找到。
参考文献#
Ensheng Dong, Hongru Du, Lauren Gardner, *An interactive web-based dashboard to track COVID-19 in real time*, The Lancet Infectious Diseases, Volume 20, Issue 5, 2020, Pages 533-534, ISSN 1473-3099, https://doi.org/10.1016/S1473-3099(20)30120-1。