NEP 25 — 特殊数据类型支持 NA#

作者:: Nathaniel J. Smith <njs@pobox.com>
状态:: Deferred
类型:: 标准轨道
创建时间:: 2011-07-08

摘要#

背景：此 NEP 是 NEP 12 的一个额外替代方案（NEP 24 是另一个替代方案），在撰写本文时，其实现已合并到 NumPy 主分支。

为了在缺失值/掩码数组/… 辩论方面取得更多进展，似乎有必要对我们可以 *达成一致* 的部分进行更技术性的讨论。这是第二个，它试图确定如何使用特殊数据类型实现 NA 的细节。

理由#

普通值是诸如整数或浮点数之类的东西。缺失值是普通值的占位符，出于某种原因不可用。例如，在处理统计数据时，我们经常构建表，其中每一行代表一个项目，每一列代表该项目的属性。例如，我们可以选择一群人，并为每个人记录身高、年龄、教育程度和收入，然后将这些值放入表中。但后来我们发现，我们的研究助理搞砸了，忘记记录其中一个人的年龄。我们可以丢弃他们剩余的数据，但这很浪费；即使是这样不完整的行，对于某些分析来说仍然完全可用（例如，我们可以计算身高和收入之间的相关性）。处理此问题的传统方法是为缺失数据插入一个无意义的特定值，例如，将此人的年龄记录为 0。但这非常容易出错；我们可能在运行其他分析时忘记了这些特殊值，并惊讶地发现婴儿的收入高于青少年。（在这种情况下，解决方案是仅排除所有没有记录年龄的项目，但这并不是一个通用的解决方案；许多分析需要更巧妙的方法来处理缺失值。）因此，我们不使用 0 这样的普通值，而是定义一个特殊的“缺失”值，写为“NA”，意为“不可用”。

在内存中表示这种值有几种可能的方式。例如，我们可以保留一个特定的值（如 0、特定的 NaN 或最小的负整数），然后确保该值在我们的数组的所有算术和其他操作中都得到特殊处理。另一种选择是在主数组旁边添加一个额外的掩码数组，用它来指示哪些值应被视为 NA，然后扩展我们的数组操作，以便在执行计算时检查此掩码数组。每种实现方法都有其优点和缺点，但在这里我们仅专注于前者（基于值）的方法，而将后者（添加掩码数组）的可能性留给未来的讨论。这种方法的核心优势是（1）它不增加额外的内存开销，（2）使用现有的文件存储格式存储和检索此类数组到磁盘很简单，（3）它允许与包含 NA 值的 R 数组进行二进制兼容，（4）它与使用 NaN 来表示浮点数缺失值的常见做法兼容，（5）数据类型本身已经是“奇怪的事情会发生”的地方——存在各种各样不表现得像普通数字的数据类型（包括结构体、Python 对象、定长字符串等），因此接受任意 NumPy 数组的代码已经必须准备好处理这些（即使只是通过检查它们并引发错误）。因此，与更改 ndarray 对象本身相比，添加更多新数据类型对扩展作者的影响要小。

NA 值基本语义如下。与其他任何值一样，它们必须由数组的数据类型支持——你不能在 dtype=int32 的数组中存储浮点数，也不能存储 NA。你需要一个 dtype=NAint32 或类似的数据类型（具体语法待定）。否则，NA 值与其他任何值一样。特别是，你可以对它们应用算术函数等。默认情况下，任何接受 NA 作为参数的函数都会返回 NA，而不管其他参数的值是什么。这确保了如果我们尝试计算收入与年龄的相关性，我们会得到“NA”，表示“考虑到某些条目可能是任何值，答案也可能是任何值”。这提醒我们花点时间思考如何重新表述问题，使其更有意义。而且，对于那些你确实想知道已知年龄和收入之间相关性的情况，你可以通过向函数调用添加一个参数来启用此行为。

对于浮点计算，NA 和 NaN 的行为（几乎？）相同。但它们代表不同的东西——NaN 表示一个无效的计算，如 0/0，NA 表示一个不可用的值——区分这些东西很有用，因为在某些情况下它们应该被区别对待。（例如，插补程序应该用插补值替换 NA，但可能应该保持 NaN 不变。）而且，我们不能对整数、字符串或布尔值使用 NaN，所以我们无论如何都需要 NA，一旦我们对所有这些类型都支持 NA，我们也可以为浮点数提供支持，以保持一致性。

总体策略#

NumPy 已经有一个通用机制，用于定义新的数据类型并将它们插入到 ndarrays、转换机制、ufuncs 等中。原则上，我们可以仅使用这些现有接口来实现 NA-dtypes。但我们不想这样做，因为从头开始定义所有新的 ufunc 循环等将是一件非常麻烦的事情，尤其是因为基本功能在所有情况下都是相同的。所以我们需要一些通用的 NA 功能——但最好不要将其作为一组特殊的“NA 类型”固定下来，因为用户可能希望定义具有自己 NA 值的新自定义数据类型，并让它们与其余的 NA 机制良好集成。因此，我们的策略是避免 *中间层错误*，通过在不同情况下公开一些通用 NA 处理代码，数据类型可以有选择地使用或不使用它们。

一些示例用例

我们想定义一种数据类型，它的行为与 int32 完全相同，只是将最负的值视为 NA。
我们想定义一个参数化数据类型来表示分类数据，用于 NA 的位模式取决于定义的类别数量，因此我们的代码需要主动处理它，而不是简单地委托给标准机制。
我们想定义一种数据类型，它的行为像一个长度为 10 的字符串，并支持 NA。由于我们的字符串可能包含任意二进制值，我们想实际分配 11 个字节，其中第一个字节是一个标志，指示此字符串是否为 NA，其余部分包含字符串内容。
我们想定义一种数据类型，它允许多种不同类型的 NA 数据，这些数据打印不同，并且可以通过我们定义的新 ufunc is_na_of_type(...) 进行区分，但否则大多数操作都利用通用的 NA 机制。

dtype C 级 API 扩展#

PyArray_Descr 结构体增加了以下新字段

void * NA_value;
PyArray_Descr * NA_extends;
int NA_extends_offset;

定义了以下新标志值

NPY_NA_AUTO_ARRFUNCS
NPY_NA_AUTO_CAST
NPY_NA_AUTO_UFUNC
NPY_NA_AUTO_UFUNC_CHECKED
NPY_NA_AUTO_ALL /* the above flags OR'ed together */

PyArray_ArrFuncs 结构体增加了以下新字段

void (*isna)(void * src, void * dst, npy_intp n, void * arr);
void (*clearna)(void * data, npy_intp n, void * arr);

我们添加了至少一个新便利宏

#define NPY_NA_SUPPORTED(dtype) ((dtype)->f->isna != NULL)

总体的想法是，任何地方我们过去调用特定于数据类型的函数指针的地方，代码都将被修改为改为

检查相关 NPY_NA_AUTO_... 位是否已启用，NA_extends 字段是否非 NULL，以及我们想要调用的函数指针是否为 NULL。

如果满足这些条件，则使用 isna 来识别数组中的哪些条目是 NA，并进行适当处理。然后，使用此数据类型查找我们 *将要* 调用的函数，该函数位于 NA_extends 数据类型上，并使用它来处理非 NA 元素。

有关更多细节，请参阅以下章节。

请注意，如果 NA_extends 指向一个参数化数据类型，那么它指向的数据类型对象必须是完全指定的。例如，如果它是一个字符串数据类型，它必须有一个非零的 elsize 字段。

为了处理 NA 信息存储在“真实”数据旁边的数据字段中的情况，NA_extends_offset 字段设置为非零值；它必须指向该数据类型中每个元素的哪个位置，该位置包含 NA_extends 数据类型的数据。例如，如果我们存储 10 字节字符串，并在开头有一个 NA 指示字节，那么我们有

elsize == 11
NA_extends_offset == 1
NA_extends->elsize == 10

在委托给 NA_extends 数据类型时，我们将数据指针偏移 NA_extends_offset（同时保持我们的步幅不变），以便它看到一个预期类型的数据数组（加上一些多余的填充）。这基本上与记录数据类型使用相同的机制，如果我没记错的话，所以它应该经过充分的测试。

在委托给无法处理“行为不端”源数据的函数时（有关详细信息，请参阅 PyArray_ArrFuncs 文档），我们需要在委托之前检查对齐问题（尤其是在 NA_extends_offset 非零的情况下）。如果存在问题，当我们需要“清理”源数据时，使用处理未对齐数据的常规机制。（当然，我们通常应该设置我们的数据类型，以便没有对齐问题，但如果有人搞砸了，或者决定内存使用量比快速内循环更重要，那么我们仍然应该妥善处理，就像现在一样。）

NA_value 和 clearna 字段用于各种类型的转换。NA_value 是一个位模式，例如在从 np.NA 赋值时使用。clearna 可以是无操作，如果 elsize 和 NA_extends->elsize 相同，但如果不同，则它应该清除此数据类型使用的任何辅助 NA 存储，以便其中指定的数组元素都不是 NA。

核心 dtype 函数#

以下函数定义在 PyArray_ArrFuncs 中。此处描述的特殊行为由数据类型标志中的 NPY_NA_AUTO_ARRFUNCS 位启用，并且仅在给定函数字段 *未* 填充时启用。

getitem：调用 isna。如果 isna 返回 true，则返回 np.NA。否则，委托给 NA_extends 数据类型。

setitem：如果输入对象是 np.NA，则运行 memcpy(self->NA_value, data, arr->dtype->elsize);。否则，调用 clearna，然后委托给 NA_extends 数据类型。

copyswapn, copyswap：待办：不确定是否有任何特殊处理可用于这些？

compare：待办：此如何处理 NA？R 的 sort 函数 *丢弃* NA，这似乎不是一个好选项。

argmax：待办：这有什么用？如果它是 np.max 的底层实现，那么它确实需要某种方式来获取 skipna 参数。如果不是，那么适当的语义取决于它应该实现什么……

dotfunc：问题：实际上是否保证所有内容都具有相同的数据类型？待办：与 argmax 相同的问题。

scanfunc：这个很丑陋。我们可能不得不在我们所有的特殊数据类型中显式覆盖它，因为假设我们想要一个选项，例如，让标记“NA”代表文本文件中的 NA 值，我们需要一种方法在委托之前检查它是否存在。但 ungetc 只保证我们可以放回 1 个字符，而我们需要 2 个（或者也许 3 个，如果我们实际检查“NA “）。另一个选择是读取到下一个分隔符，检查我们是否是 NA，如果不是，则委托给 fromstr 而不是 scanfunc，但根据当前 API，每个数据类型原则上可以使用完全不同的规则来定义“下一个分隔符”。所以……有什么想法？（待办）

fromstr：简单——检查“NA “，如果存在则赋值 NA_value，否则调用 clearna 并委托。

nonzero：待办：这又有什么用？（它似乎与使用转换机制转换为 bool 冗余。）可能需要修改它，以便它可以返回 NA……

fill：使用 isna 检查前两个值中的任何一个是否为 NA。如果是，则用 NA_value 填充数组的其余部分。否则，调用 clearna，然后委托。

fillwithvalue：猜测这个可以直接委托？

sort, argsort：这些应该安排将 NA 排序到数组的特定位置（要么前面要么后面——有什么意见？）

scalarkind：待办：我不知道这有什么作用。

castdict, cancastscalarkindto, cancastto：参见下文转换部分。

转换#

待办：这真的需要 NumPy 转换规则专家的关注。但我找不到解释转换循环如何被查找和决定的文档（例如，如果你从数据类型 A 转换为数据类型 B，使用哪个数据类型的循环？），所以我无法详细说明。但这些细节很棘手，而且很重要……

但总体的想法是，如果你有一个设置了 NPY_NA_AUTO_CAST 的数据类型，那么以下转换是自动允许的

从底层类型转换为 NA 类型：这由

常规的 clearna + 可能有步幅的复制操作完成。此外，还调用 isna

来检查常规值是否无意中被转换

成 NA；如果是，则引发错误。

从 NA 类型转换为底层类型：原则上允许，但如果 isna 返回 true 对于任何将被转换的值，那么同样会引发错误。（如果你想绕过它，可以使用 np.view(array_with_NAs, dtype=float)。）

在不支持 NA 的 NA 类型与其他类型之间进行转换：如果底层类型允许转换为其他类型，则允许进行转换，并且通过将转换为底层类型或从底层类型转换（使用上述规则）与转换为其他类型或从其他类型转换（使用底层类型的规则）相结合来执行。

在支持 NA 的 NA 类型与其他类型之间进行转换：如果其他类型设置了 NPY_NA_AUTO_CAST，那么我们使用上述规则以及与 isna 的常规操作，其中一个正在转换为的数组中的 NA 被转换为另一个中的 NA_value 元素。如果只有一个数组设置了 NPY_NA_AUTO_CAST，那么就假定该数据类型知道自己在做什么，我们不做任何魔术。（但这是我不太确定是否有意义的事情之一，如我上面的警告所示。）

Ufuncs#

所有 ufuncs 都增加了一个额外的可选关键字参数 skipNA=，默认为 False。

如果 skipNA == True，那么 ufunc 机制将*无条件*调用 isna 来处理 NPY_NA_SUPPORTED(dtype) 为 true 的任何数据类型，然后将 isna 返回 true 的值视为在 where= 参数中被掩码掉了（请参阅 miniNEP 1 以了解 where= 的行为）。如果还提供了 where= 参数，则其行为就像 isna 值与 where= 掩码进行 AND 运算一样，尽管它实际上不会修改掩码。与下面的其他更改不同，这会*无条件*为定义了 isna 函数的任何数据类型执行；*不*检查 NPY_NA_AUTO_UFUNC 标志。

如果设置了 NPY_NA_AUTO_UFUNC，则 ufunc 循环查找会进行修改，以便每当它检查当前数据类型的循环是否存在而未找到时，它还会检查 NA_extends 数据类型的循环。如果找到该循环，则正常使用它，但有以下例外：（1）仅对根据 isna 不是 NA 的值调用它，（2）如果输出数组设置了 NPY_NA_AUTO_UFUNC，则在调用 ufunc 循环之前会对其调用 clearna，（3）在调用 ufunc 循环之前，指针偏移量会通过 NA_extends_offset 进行调整。此外，如果设置了 NPY_NA_AUTO_UFUNC_CHECK，则在评估 ufunc 循环后，我们会调用 isna 来检查*输出*数组，并且如果输出中有任何 NA 而输入中没有，则我们会引发错误。（此举的目的是捕获例如，我们将 NA 表示为最负整数，然后某人的算术溢出意外创建了这样一个值的情况。）

待办：我们应该在这里更详细地讨论当有多个输入数组时 NPY_NA_AUTO_UFUNC 的工作原理，其中可能有些设置了该标志，有些则没有。

打印#

待办：应该有一种机制可以让 NA 值自动表示为 NA，但我不太明白 NumPy 的打印是如何工作的，所以我让别人来填写这一节。

索引#

像 a[12] 这样的标量索引是通过 getitem 函数进行的，因此根据上述提案，如果数据类型委托 getitem，那么 NA 的标量索引将返回对象 np.NA。（如果它不委托 getitem，那么它可以返回任何它想要的东西。）

这似乎是最简单的方法，但另一种方法是为标量索引添加一个特殊情况，即如果设置了 NPY_NA_AUTO_INDEX 标志，它将调用 isna 来处理指定的元素。如果返回 false，它将像往常一样调用 getitem；否则，它将返回一个包含指定元素的 0-d 数组。问题在于它破坏了像 if a[i] is np.NA: ... 这样的表达式。（当然，对于 NaN 值，现在并没有什么像它一样方便，但是，NaN 值没有自己的全局单例。）所以目前我们坚持标量索引只返回 np.NA，但如果有人反对，可以重新考虑。

用于通用 NA 支持的 Python API#

NumPy 将获得一个名为 numpy.NA 的全局单例，类似于 None，但其语义反映了它作为缺失值的地位。特别是，试图将其视为布尔值将引发异常，并且与它进行比较将产生 numpy.NA 而不是 True 或 False。这些基本行为采纳自 R 项目中 NA 值。要更深入地了解这些想法，http://en.wikipedia.org/wiki/Ternary_logic#Kleene_logic 提供了一个起点。

大多数对 np.NA 的操作（例如，__add__, __mul__）都会被重写为无条件返回 np.NA。

用于表达式（如 np.asarray([1, 2, 3]), np.asarray([1.0, 2.0. 3.0])）的自动数据类型检测将被扩展，以识别 np.NA 值，并用它来自动切换到一个内置的启用 NA 的数据类型（具体是哪个数据类型取决于数组中的其他元素）。一个简单的 np.asarray([np.NA]) 将使用启用了 NA 的 float64 数据类型（这类似于从 np.asarray([]) 得到的结果）。请注意，这意味着像 np.log(np.NA) 这样的表达式将起作用：首先 np.NA 将被强制转换为一个 0-d NA-float 数组，然后 np.log 将被调用。

Python 级数据类型对象增加了以下新字段

NA_supported
NA_value

NA_supported 是一个布尔值，它简单地暴露 NPY_NA_SUPPORTED 标志的值；如果此数据类型支持 NA，则为 true，否则为 false。[待办：是否最好仅根据 isna 函数的存在来键控此项？即使数据类型决定自己实现所有其他 NA 处理，它仍然必须定义 isna 才能使 skipNA= 正确工作。]

NA_value 是一个给定数据类型的 0-d 数组，其唯一元素包含与数据类型的底层 NA_value 字段相同的位模式。这使得能够确定此类型 NA 值的默认位模式（例如，通过 np.view(mydtype.NA_value, dtype=int8)）。

我们*不*在 Python 级别公开 NA_extends 和 NA_extends_offset 值，至少目前如此；它们被视为实现细节（如果将来需要，公开它们比不需要时取消公开它们更容易）。

定义了两个新的 ufuncs：np.isNA 返回一个逻辑数组，其中 wherever 数据类型的 isna 函数返回 true。 np.isnumber 仅对数字数据类型定义，对于所有不是 NA 且 np.isfinite 会返回 True 的元素返回 True。

内置 NA 数据类型#

以上描述了数据类型中 NA 支持的通用机制。它足够灵活，可以处理各种情况，但我们也想定义一些默认可用的、通用的、有用的 NA 支持数据类型。

对于每个内置数据类型，我们定义了一个关联的、支持 NA 的数据类型，如下所示

浮点数：关联的数据类型使用特定的 NaN 位模式来指示 NA（选择用于 R 兼容性）
复数：我们做 R 做的事情（待办：查找一下——两个 NA 浮点数，可能？）
有符号整数：最负的有符号值用作 NA（选择用于 R 兼容性）
无符号整数：最正的值用作 NA（不支持 R 兼容性）。
字符串：第一个字节（或者，对于 unicode 字符串，是第一个 4 个字节）用作标志来指示 NA，其余数据给出实际字符串。（不支持 R 兼容性）
对象：两种选择（待办）：要么我们不包含一个有 NA 的版本，要么我们使用 np.NA 作为 NA 位模式。
布尔值：我们做 R 做的事情（待办：查找一下——0 == FALSE，1 == TRUE，2 == NA？）

这些数据类型中的每一个都使用上述机制轻松定义，并且是自动数据类型推断机制（对于 np.asarray([True, np.NA, False]) 等）自动使用的。

它们也可以通过新函数 np.withNA 访问，该函数接受一个常规数据类型（或可转换为数据类型的对象，如“float”），并返回上述数据类型之一。理想情况下 withNA 还应接受一些可选参数，允许您描述要将哪些值计为 NA 等，但我将把这些留给将来的草稿（待办）。

待办：如果 d 是上述数据类型之一，那么 d.type 应该返回什么？

NEP 还包含了一个关于使用领域特定语言（DSL）来描述 NA 数据类型的提案。我不确定这个想法有多好。（我个人不太喜欢将字符串用作数据结构，而且现有的字符串我已经觉得够令人困惑了——另外，Apparently，NEP 版本的 NumPy 在打印数据类型时使用像 ‘f8’ 这样的字符串，而我的 NumPy 使用像 ‘float64’ 这样的对象名称，所以我不太清楚那里到底是怎么回事。对我来说，withNA(float64, arg1=value1) 看起来比 “NA[f8,value1]” 更方便打印数据类型。）但如果大家想要，那也很棒。

类型层次结构#

FIXME：对于 NA 数据类型，我们应该如何进行子类型检查等？issubdtype(withNA(float), float) 会返回什么？issubdtype(withNA(float), np.floating) 呢？

序列化#

版权#

本文档已置于公共领域。