NpyString API#

2.0 版中的新增功能。

此 API 允许访问存储在 NumPy StringDType 数组中的 UTF-8 字符串数据。有关 StringDType 设计的更深入细节,请参见 NEP-55

示例#

加载字符串#

假设我们正在为 StringDType编写 ufunc 实现。如果我们得到指向 StringDType数组条目开头的 const char *buf 指针和指向数组描述符的 PyArray_Descr * 指针,则可以像这样访问底层字符串数据:

npy_string_allocator *allocator = NpyString_acquire_allocator(
        (PyArray_StringDTypeObject *)descr);

npy_static_string sdata = {0, NULL};
npy_packed_static_string *packed_string = (npy_packed_static_string *)buf;
int is_null = 0;

is_null = NpyString_load(allocator, packed_string, &sdata);

if (is_null == -1) {
    // failed to load string, set error
    return -1;
}
else if (is_null) {
    // handle missing string
    // sdata->buf is NULL
    // sdata->size is 0
}
else {
    // sdata->buf is a pointer to the beginning of a string
    // sdata->size is the size of the string
}
NpyString_release_allocator(allocator);

打包字符串#

此示例演示如何将新的字符串条目打包到数组中。

char *str = "Hello world";
size_t size = 11;
npy_packed_static_string *packed_string = (npy_packed_static_string *)buf;

npy_string_allocator *allocator = NpyString_acquire_allocator(
        (PyArray_StringDTypeObject *)descr);

// copy contents of str into packed_string
if (NpyString_pack(allocator, packed_string, str, size) == -1) {
    // string packing failed, set error
    return -1;
}

// packed_string contains a copy of "Hello world"

NpyString_release_allocator(allocator);

类型#

type npy_packed_static_string#

一个不透明结构体,表示“打包”的编码字符串。数组缓冲区中的各个条目都是此结构体的实例。对结构体中数据的直接访问未定义,库的未来版本可能会更改字符串的打包表示。

type npy_static_string#

一个解包的字符串,允许访问 UTF-8 字符串数据。

typedef struct npy_unpacked_static_string {
    size_t size;
    const char *buf;
} npy_static_string;
size_t size#

字符串的大小(以字节为单位)。

const char *buf#

字符串缓冲区。包含 UTF-8 编码的字节。当前不以空字符串结尾,但我们将来可能会决定添加空终止符,因此不要依赖于空终止符的存在或不存在。

请注意,这是一个 const 缓冲区。如果要更改数组中的条目,则应创建一个新字符串并将其打包到数组条目中。

type npy_string_allocator#

一个指向对象的非透明指针,该对象处理字符串分配。在使用分配器之前,必须获取分配器锁,并在完成与分配器管理的字符串交互后释放锁。

type PyArray_StringDTypeObject#

支持 Python 中 StringDType 实例的 C 结构体。属性存储对象创建时的设置、npy_string_allocator 的实例(管理与 DType 实例关联的数组的字符串分配)以及几个属性,这些属性缓存了在转换和 ufunc 循环实现中通常需要的缺失字符串对象的信息。

typedef struct {
    PyArray_Descr base;
    PyObject *na_object;
    char coerce;
    char has_nan_na;
    char has_string_na;
    char array_owned;
    npy_static_string default_string;
    npy_static_string na_name;
    npy_string_allocator *allocator;
} PyArray_StringDTypeObject;
PyArray_Descr base#

基本对象。使用此成员访问所有描述符对象共有的字段。

PyObject *na_object#

对表示空值的对象的引用。如果没有空值(默认值),则为 NULL。

char coerce#

如果启用字符串强制转换,则为 1;否则为 0。

char has_nan_na#

如果缺失的字符串对象(如果有)类似于 NaN,则为 1;否则为 0。

char has_string_na#

如果缺失的字符串对象(如果有)是字符串,则为 1;否则为 0。

char array_owned#

如果数组拥有 StringDType 实例,则为 1;否则为 0。

npy_static_string default_string#

在操作中使用的默认字符串。如果缺失的字符串对象是字符串,则它将包含缺失字符串的字符串数据。

npy_static_string na_name#

如果有的话,缺失字符串对象的名称。否则为空字符串。

npy_string_allocator allocator#

与拥有此描述符实例的数组关联的分配器实例。只有在获取 allocator_lock 后才能直接访问分配器,并且在不再需要分配器后应立即释放锁。

函数#

npy_string_allocator *NpyString_acquire_allocator(const PyArray_StringDTypeObject *descr)#

获取锁定附加到 descr 的分配器的互斥锁。NpyString_release_allocator 必须在此函数返回的分配器上恰好调用一次。请注意,在持有分配器互斥锁时,不应调用需要 GIL 的函数,因为这样做可能会导致死锁。

void NpyString_acquire_allocators(size_t n_descriptors, PyArray_Descr *const descrs[], npy_string_allocator *allocators[])#

同时获取锁定多个描述符附加的分配器的互斥锁。为数组中的每个StringDType描述符在allocators数组中写入指向关联分配器的指针。如果任何描述符不是StringDType实例,则为该条目写入NULL到allocators数组。

n_descriptors 是应该检查的descrs数组中描述符的数量。任何超过n_descriptors个元素的描述符都会被忽略。如果descrs数组不包含n_descriptors个元素,则会发生缓冲区溢出。

如果多次传递指向同一描述符的指针,则只获取一次分配器互斥锁,但会适当地设置相同的分配器指针。必须在此函数返回后释放分配器互斥锁,参见NpyString_release_allocators

请注意,在持有分配器互斥锁时,不应调用需要GIL的函数,因为这样做可能会导致死锁。

void NpyString_release_allocator(npy_string_allocator *allocator)#

释放锁定分配器的互斥锁。在获取分配器互斥锁并完成所有需要分配器的操作后,必须恰好调用一次此函数。

如果需要释放多个分配器,请参见NpyString_release_allocators,它可以在给出对同一分配器的多个引用时正确地处理一次释放分配器。

void NpyString_release_allocators(size_t length, npy_string_allocator *allocators[])#

释放锁定N个分配器的互斥锁。length是allocators数组的长度。NULL条目将被忽略。

如果多次传递指向同一分配器的指针,则只释放一次分配器互斥锁。

int NpyString_load(npy_string_allocator *allocator, const npy_packed_static_string *packed_string, npy_static_string *unpacked_string)#

packed_string的打包内容解压到unpacked_string中。

unpacked_string是对packed_string数据的只读视图,不应用于修改字符串数据。如果packed_string是空字符串,则将unpacked_string.buf设置为NULL指针。如果解压字符串失败,则返回-1;如果packed_string是空字符串,则返回1;否则返回0。

一个有用的模式是定义一个栈分配的npy_static_string实例,将其初始化为{0, NULL},并将指向栈分配的解压字符串的指针传递给此函数。此函数可用于同时解压字符串并确定它是否为空字符串。

int NpyString_pack_null(npy_string_allocator *allocator, npy_packed_static_string *packed_string)#

将空字符串打包到packed_string中。成功返回0,失败返回-1。

int NpyString_pack(npy_string_allocator *allocator, npy_packed_static_string *packed_string, const char *buf, size_t size)#

buf指向的缓冲区的前面size个条目复制并打包到packed_string中。成功返回0,失败返回-1。