保存和分享你的NumPy数组#
你将学到什么#
你将把NumPy数组保存为压缩文件和人类可读的逗号分隔文件(即*.csv)。你还将学习如何将这两种文件类型加载回NumPy工作区。
你将做什么#
你将学习两种保存和读取文件的方式——压缩文件和文本文件——它们将满足你在NumPy中大部分的存储需求。
你将创建两个一维数组和一个二维数组
你将把这些数组保存到文件
你将从工作区中移除变量
你将从保存的文件中加载变量
你将比较压缩的二进制文件和人类可读的分隔文件
你将掌握保存、加载和分享NumPy数组的技能
你需要什么#
NumPy
对你的工作目录的读写权限
使用以下命令加载必要的函数。
import numpy as np
在本教程中,你将使用以下Python、IPython魔法命令和NumPy函数
创建你的数组#
在你导入NumPy库后,你可以创建几个数组;我们从两个一维数组x
和y
开始,其中y = x**2
。你将使用np.arange
把x
赋值为0到9的整数。
x = np.arange(10)
y = x ** 2
print(x)
print(y)
[0 1 2 3 4 5 6 7 8 9]
[ 0 1 4 9 16 25 36 49 64 81]
使用NumPy的savez
保存你的数组#
现在你的工作区中有两个数组,
x: [0 1 2 3 4 5 6 7 8 9]
y: [ 0 1 4 9 16 25 36 49 64 81]
你要做的第一件事是使用savez
将它们保存为压缩数组文件。你将使用两个选项来标记文件中的数组,
x_axis = x
:此选项将名称x_axis
分配给变量x
y_axis = y
:此选项将名称y_axis
分配给变量y
np.savez("x_y-squared.npz", x_axis=x, y_axis=y)
移除已保存的数组并使用NumPy的load
重新加载#
在你当前的工作目录中,应该有一个名为x_y-squared.npz
的新文件。此文件是x
和y
这两个数组的压缩二进制文件。让我们清除工作区并重新加载值。这个x_y-squared.npz
文件包含两个NPY format文件。NPY格式是一种原生二进制格式。你无法在标准文本编辑器或电子表格中读取这些数字。
要查看工作区中有哪些变量,请使用Jupyter/IPython“魔法”命令whos
。
del x, y
%whos
Variable Type Data/Info
------------------------------
np module <module 'numpy' from '/ho<...>kages/numpy/__init__.py'>
load_xy = np.load("x_y-squared.npz")
print(load_xy.files)
['x_axis', 'y_axis']
%whos
Variable Type Data/Info
-------------------------------
load_xy NpzFile NpzFile 'x_y-squared.npz'<...>with keys: x_axis, y_axis
np module <module 'numpy' from '/ho<...>kages/numpy/__init__.py'>
将NpzFile数组重新分配给x
和y
#
你现在已经创建了一个NpzFile
类型的字典。其中包含的文件是你在savez
命令中定义的x_axis
和y_axis
。你可以将x
和y
重新分配给load_xy
文件。
x = load_xy["x_axis"]
y = load_xy["y_axis"]
print(x)
print(y)
[0 1 2 3 4 5 6 7 8 9]
[ 0 1 4 9 16 25 36 49 64 81]
成功#
你已经使用savez
和load
创建、保存、删除并加载了变量x
和y
。干得好。
另一个选项:保存为人类可读的csv文件#
让我们考虑另一种情况,你希望与其他人或程序共享x
和y
。你可能需要一个更易于共享的人类可读文本文件。接下来,你将使用savetxt
把x
和y
保存到一个逗号分隔值文件x_y-squared.csv
中。生成的csv文件由ASCII字符组成。你可以将文件加载回NumPy或使用其他程序读取它。
将数据重新排列成单个二维数组#
首先,你必须从你的两个一维数组中创建一个单个的二维数组。csv文件类型是一种电子表格样式的数据集。csv将数字排列成行(由换行符分隔)和列(由逗号分隔)。如果数据更复杂,例如多个二维数组或更高维度的数组,最好使用savez
。在这里,你将使用两个NumPy函数来格式化数据
np.block
:此函数将数组连接成一个二维数组np.newaxis
:此函数将一维数组强制转换为一个具有10行1列的二维列向量。
array_out = np.block([x[:, np.newaxis], y[:, np.newaxis]])
print("the output array has shape ", array_out.shape, " with values:")
print(array_out)
the output array has shape (10, 2) with values:
[[ 0 0]
[ 1 1]
[ 2 4]
[ 3 9]
[ 4 16]
[ 5 25]
[ 6 36]
[ 7 49]
[ 8 64]
[ 9 81]]
使用savetxt
将数据保存到csv文件#
你使用savetxt
并带三个选项,使你的文件更易于读取
X = array_out
:此选项告诉savetxt
将你的二维数组array_out
保存到文件x_y-squared.csv
header = 'x, y'
:此选项在任何数据之前写入一个标题,用于标记csv的列delimiter = ','
:此选项告诉savetxt
在文件中的每列之间放置一个逗号
np.savetxt("x_y-squared.csv", X=array_out, header="x, y", delimiter=",")
打开文件x_y-squared.csv
,你将看到以下内容
!head x_y-squared.csv
# x, y
0.000000000000000000e+00,0.000000000000000000e+00
1.000000000000000000e+00,1.000000000000000000e+00
2.000000000000000000e+00,4.000000000000000000e+00
3.000000000000000000e+00,9.000000000000000000e+00
4.000000000000000000e+00,1.600000000000000000e+01
5.000000000000000000e+00,2.500000000000000000e+01
6.000000000000000000e+00,3.600000000000000000e+01
7.000000000000000000e+00,4.900000000000000000e+01
8.000000000000000000e+00,6.400000000000000000e+01
我们的数组作为csv文件#
这里有两个你应该注意的特性
NumPy在使用
loadtxt
时,使用#
来忽略标题。如果你使用loadtxt
处理其他csv文件,你可以通过skiprows = <number_of_header_lines>
来跳过标题行。整数以科学计数法写入。*你可以*使用
savetxt
选项fmt =
来指定文本格式,但它仍将以ASCII字符写入。通常,你无法保留ASCII数字的float
或int
类型。
现在,再次删除x
和y
,并将它们分配到x-y_squared.csv
中的列。
del x, y
load_xy = np.loadtxt("x_y-squared.csv", delimiter=",")
load_xy.shape
(10, 2)
x = load_xy[:, 0]
y = load_xy[:, 1]
print(x)
print(y)
[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
[ 0. 1. 4. 9. 16. 25. 36. 49. 64. 81.]
成功,但请记住你的类型#
当你将数组保存到csv文件时,你没有保留int
类型。当将数组加载回工作区时,默认过程是将csv文件加载为二维浮点数组,例如load_xy.dtype == 'float64'
和load_xy.shape == (10, 2)
。
总结#
总之,你可以在NumPy中创建、保存和加载数组。保存数组使你的工作共享和协作变得更加容易。Python还有其他保存数据到文件的方式,例如pickle,但savez
和savetxt
将分别满足你未来NumPy工作和与他人共享的大部分存储需求。
下一步:你可以从Importing with genfromtext导入带有缺失值的数据,或者通过Reading and Writing Files了解更多关于NumPy通用IO的信息。