numpy.memmap#
- class numpy.memmap(filename, dtype=<class 'numpy.ubyte'>, mode='r+', offset=0, shape=None, order='C')[source]#
创建一个内存映射到磁盘上二进制文件中存储的数组。
内存映射文件用于访问磁盘上大型文件的小段,而无需将整个文件读入内存。NumPy 的 memmap 是类似数组的对象。这与 Python 的
mmap
模块不同,后者使用类似文件对象。ndarray 的这个子类与某些操作存在一些不利的交互,因为它并不完全适合作为子类。使用这个子类的另一种方法是自行创建
mmap
对象,然后使用 ndarray.__new__ 直接创建一个 ndarray,在它的 ‘buffer=’ 参数中传递创建的对象。这个类可能在某个时候变成一个工厂函数,它返回对 mmap 缓冲区的视图。
刷新 memmap 实例以将更改写入文件。目前没有 API 来关闭底层的
mmap
。要确保资源实际关闭很困难,因为它可能在不同的 memmap 实例之间共享。- 参数:
- filenamestr、文件类对象或 pathlib.Path 实例
用作数组数据缓冲区的文件名或文件对象。
- dtype数据类型,可选
用于解释文件内容的数据类型。默认值为
uint8
.- mode{‘r+’, ‘r’, ‘w+’, ‘c’},可选
文件以这种模式打开
‘r’
以只读方式打开现有文件。
‘r+’
以读写方式打开现有文件。
‘w+’
创建或覆盖现有文件以进行读写。如果
mode == 'w+'
,则还必须指定shape
.‘c’
写时复制:赋值会影响内存中的数据,但更改不会保存到磁盘。磁盘上的文件是只读的。
默认值为 ‘r+’。
- offsetint,可选
在文件中,数组数据从这个偏移量开始。由于偏移量以字节为单位,因此它通常应该是
dtype
的字节大小的倍数。当mode != 'r'
时,即使超过文件末尾的正偏移量也是有效的;文件将扩展以容纳额外的数据。默认情况下,即使filename
是一个文件指针fp
且fp.tell() != 0
,memmap
也会从文件开头开始。- shapeint 或 int 序列,可选
数组的期望形状。如果
mode == 'r'
并且在偏移量之后剩余的字节数不是dtype
的字节大小的倍数,则必须指定shape
。默认情况下,返回的数组将是一维的,元素数量由文件大小和数据类型决定。在版本 2.0 中更改: 形状参数现在可以是任何整数序列类型,以前类型仅限于元组和 int。
- order{‘C’, ‘F’},可选
指定 ndarray 内存布局的顺序:行优先,C 风格或 列优先,Fortran 风格。这只有在形状大于一维时才有效。默认顺序为 ‘C’。
另请参见
lib.format.open_memmap
创建或加载内存映射的
.npy
文件。
备注
memmap 对象可以在任何接受 ndarray 的地方使用。给定一个 memmap
fp
,isinstance(fp, numpy.ndarray)
返回True
。在 32 位系统上,内存映射文件的大小不能超过 2GB。
当 memmap 导致在文件系统中创建或扩展文件超过其当前大小时,新部分的内容是不确定的。在具有 POSIX 文件系统语义的系统上,扩展的部分将填充为零字节。
示例
>>> import numpy as np >>> data = np.arange(12, dtype='float32') >>> data.resize((3,4))
此示例使用临时文件,以便 doctest 不会将文件写入您的目录。您将使用 “正常” 文件名。
>>> from tempfile import mkdtemp >>> import os.path as path >>> filename = path.join(mkdtemp(), 'newfile.dat')
创建一个与我们的数据匹配的 dtype 和形状的 memmap
>>> fp = np.memmap(filename, dtype='float32', mode='w+', shape=(3,4)) >>> fp memmap([[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]], dtype=float32)
将数据写入 memmap 数组
>>> fp[:] = data[:] >>> fp memmap([[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.]], dtype=float32)
>>> fp.filename == path.abspath(filename) True
将内存更改刷新到磁盘以读取它们
>>> fp.flush()
加载 memmap 并验证数据是否已存储
>>> newfp = np.memmap(filename, dtype='float32', mode='r', shape=(3,4)) >>> newfp memmap([[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.]], dtype=float32)
只读 memmap
>>> fpr = np.memmap(filename, dtype='float32', mode='r', shape=(3,4)) >>> fpr.flags.writeable False
写时复制 memmap
>>> fpc = np.memmap(filename, dtype='float32', mode='c', shape=(3,4)) >>> fpc.flags.writeable True
可以为写时复制数组赋值,但值仅写入数组的内存副本,而不写入磁盘
>>> fpc memmap([[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.]], dtype=float32) >>> fpc[0,:] = 0 >>> fpc memmap([[ 0., 0., 0., 0.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.]], dtype=float32)
磁盘上的文件保持不变
>>> fpr memmap([[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.]], dtype=float32)
memmap 中的偏移量
>>> fpo = np.memmap(filename, dtype='float32', mode='r', offset=16) >>> fpo memmap([ 4., 5., 6., 7., 8., 9., 10., 11.], dtype=float32)
- 属性:
- filenamestr 或 pathlib.Path 实例
映射文件的路径。
- offsetint
文件中的偏移量位置。
- modestr
文件模式。
方法
flush
()将数组中的任何更改写入磁盘上的文件。