numpy.memmap#

class numpy.memmap(filename, dtype=<class 'numpy.ubyte'>, mode='r+', offset=0, shape=None, order='C')[源代码]#

创建对存储在磁盘上的 *二进制* 文件中的数组的内存映射。

内存映射文件用于在不将整个文件读入内存的情况下访问磁盘上大文件的小片段。NumPy 的 memmap 是类似数组的对象。这与 Python 的 mmap 模块不同,后者使用类文件对象。

这个 ndarray 的子类与某些操作存在一些不愉快的交互,因为它不能很好地作为子类。使用此子类的替代方法是自己创建 mmap 对象,然后直接使用 ndarray.__new__ 创建一个 ndarray,并在其 'buffer=' 参数中传递创建的对象。

此类将来可能会变成一个工厂函数,该函数返回对 mmap 缓冲区的视图。

将 memmap 实例刷新到磁盘以写入更改。目前没有 API 来关闭底层的 mmap。确保资源实际关闭是棘手的,因为它可能在不同的 memmap 实例之间共享。

参数:
filenamestr、类文件对象或 pathlib.Path 实例

用作数组数据缓冲的文件名或文件对象。

dtype数据类型,可选

用于解释文件内容的 数据类型。默认为 uint8

mode{‘r+’, ‘r’, ‘w+’, ‘c’}, optional

文件以该模式打开

‘r’

仅以只读模式打开现有文件。

‘r+’

以读写模式打开现有文件。

‘w+’

创建或覆盖现有文件以进行读写。如果 mode == 'w+',则还必须指定 shape

‘c’

写时复制:赋值会影响内存中的数据,但更改不会保存到磁盘。磁盘上的文件是只读的。

默认为 ‘r+’。

offsetint, optional

在文件中,数组数据从该偏移量开始。由于 offset 以字节为单位,因此通常应该是 dtype 的字节大小的倍数。当 mode != 'r' 时,即使是超出文件末尾的负偏移量也是有效的;文件将被扩展以容纳额外数据。默认情况下,即使 filename 是文件指针 fpfp.tell() != 0memmap 也会从文件开头开始。

shapeint 或 int 序列,optional

数组的期望形状。如果 mode == 'r'offset 之后的剩余字节数不是 dtype 的字节大小的倍数,则必须指定 shape。默认情况下,返回的数组将是一维的,其元素数量由文件大小和数据类型决定。

版本 2.0 中已更改: shape 参数现在可以是任何整数序列类型,以前仅限于元组和 int。

order{‘C’, ‘F’}, optional

指定 ndarray 内存布局的顺序:行主序,C 风格或 列主序,Fortran 风格。仅当形状大于一维时才有效。默认顺序为 ‘C’。

另请参阅

lib.format.open_memmap

创建或加载内存映射的 .npy 文件。

备注

memmap 对象可以在接受 ndarray 的任何地方使用。给定一个 memmap fpisinstance(fp, numpy.ndarray) 返回 True

在 32 位系统上,内存映射文件不能大于 2GB。

当 memmap 导致文件被创建或扩展到超出其在文件系统中的当前大小时,新部分的内容是不确定的。在具有 POSIX 文件系统语义的系统上,扩展部分将用零字节填充。

示例

>>> import numpy as np
>>> data = np.arange(12, dtype='float32')
>>> data.resize((3,4))

此示例使用临时文件,以便 doctest 不会在您的目录中写入文件。您会使用一个“常规”文件名。

>>> from tempfile import mkdtemp
>>> import os.path as path
>>> filename = path.join(mkdtemp(), 'newfile.dat')

创建具有与我们的数据匹配的 dtype 和 shape 的 memmap

>>> fp = np.memmap(filename, dtype='float32', mode='w+', shape=(3,4))
>>> fp
memmap([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]], dtype=float32)

将数据写入 memmap 数组

>>> fp[:] = data[:]
>>> fp
memmap([[  0.,   1.,   2.,   3.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.]], dtype=float32)
>>> fp.filename == path.abspath(filename)
True

刷新内存更改到磁盘,以便读回它们

>>> fp.flush()

加载 memmap 并验证数据已被存储

>>> newfp = np.memmap(filename, dtype='float32', mode='r', shape=(3,4))
>>> newfp
memmap([[  0.,   1.,   2.,   3.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.]], dtype=float32)

只读 memmap

>>> fpr = np.memmap(filename, dtype='float32', mode='r', shape=(3,4))
>>> fpr.flags.writeable
False

写时复制 memmap

>>> fpc = np.memmap(filename, dtype='float32', mode='c', shape=(3,4))
>>> fpc.flags.writeable
True

可以为写时复制数组赋值,但值仅写入数组的内存副本,而不写入磁盘

>>> fpc
memmap([[  0.,   1.,   2.,   3.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.]], dtype=float32)
>>> fpc[0,:] = 0
>>> fpc
memmap([[  0.,   0.,   0.,   0.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.]], dtype=float32)

磁盘上的文件未更改

>>> fpr
memmap([[  0.,   1.,   2.,   3.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.]], dtype=float32)

memmap 中的偏移量

>>> fpo = np.memmap(filename, dtype='float32', mode='r', offset=16)
>>> fpo
memmap([  4.,   5.,   6.,   7.,   8.,   9.,  10.,  11.], dtype=float32)
属性:
filenamestr 或 pathlib.Path 实例

映射文件的路径。

offsetint

文件中的偏移量位置。

modestr

文件模式。

方法

flush()

将数组中的任何更改写入磁盘上的文件。