numpy.loadtxt#

numpy.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding=None, max_rows=None, *, quotechar=None, like=None)[源代码]#

从文本文件加载数据。

参数:

fname文件, 字符串, pathlib.Path, 字符串列表, 生成器

要读取的文件、文件名、列表或生成器。如果文件名扩展名为 .gz 或 .bz2，则文件会先解压。请注意，生成器必须返回字节或字符串。列表中的字符串或由生成器生成的字符串被视为行。

dtype数据类型，可选

结果数组的数据类型；默认值：float。如果这是一个结构化数据类型，则结果数组将是1维的，并且每一行将被解释为数组的一个元素。在这种情况下，使用的列数必须与数据类型中的字段数匹配。

comments字符串或字符串序列或None, 可选

用于指示注释开始的字符或字符列表。None 表示没有注释。为了向后兼容，字节字符串将以“latin1”解码。默认值为“#”。

delimiter字符串, 可选

用于分隔值的字符。为了向后兼容，字节字符串将以“latin1”解码。默认值是空白字符。

版本 1.23.0 中已更改：只支持单字符分隔符。不能使用换行符作为分隔符。

converters字典或可调用对象, 可选

用于自定义值解析的转换器函数。如果 converters 是可调用对象，则该函数将应用于所有列，否则它必须是一个映射列号到解析函数的字典。有关详细信息，请参阅示例。默认值：None。

版本 1.23.0 中已更改：添加了将单个可调用对象传递以应用于所有列的功能。

skiprows整数, 可选

跳过前 skiprows 行，包括注释；默认值：0。

usecols整数或序列, 可选

要读取的列，0为第一列。例如，usecols = (1,4,5) 将提取第2、第5和第6列。默认值None表示读取所有列。

unpack布尔值, 可选

如果为True，则返回的数组将被转置，以便可以使用 x, y, z = loadtxt(...) 来解包参数。当与结构化数据类型一起使用时，将为每个字段返回数组。默认值为False。

ndminint, optional

返回的数组至少有 ndmin 个维度。否则，单维轴将被压缩。合法值：0（默认）、1或2。

encodingstr，可选

用于解码输入文件的编码。不适用于输入流。特殊值“bytes”启用向后兼容的解决方法，该方法可确保您尽可能以字节数组作为结果，并将“latin1”编码的字符串传递给转换器。覆盖此值以接收unicode数组并将字符串作为输入传递给转换器。如果设置为None，则使用系统默认值。默认值为None。

版本 2.0 中已更改：在NumPy 2之前，默认值为“bytes”，以兼容Python 2。现在默认值为 None。

max_rows整数, 可选

在跳过 skiprows 行后，读取 max_rows 行内容。默认值为读取所有行。请注意，不包含任何数据的空行（例如空行和注释行）不计入 max_rows，而这些行会计入 skiprows。

版本 1.23.0 中已更改：不包含任何数据的行，包括注释行（例如，以‘#’开头的行或通过 comments 指定的行），不计入 max_rows。

quotecharunicode字符或None, 可选

用于表示带引号项的开始和结束的字符。在由 quotechar 分隔的带引号项内，将忽略分隔符或注释字符的出现。默认值为 quotechar=None，这意味着禁用引号支持。

如果在带引号的字段中找到两个连续的 quotechar 实例，则第一个被视为转义字符。请参阅示例。

新版本 1.23.0。

likearray_like, optional

用于创建非 NumPy 数组的引荐对象。如果传入的 like 支持 __array_function__ 协议，则结果将由它定义。在这种情况下，它确保创建与通过此参数传入的数组兼容的数组对象。

版本 1.20.0 中新增。

返回:

outndarray: 从文本文件中读取的数据。

另请参阅

load, fromstring, fromregex
genfromtxt: 加载并处理缺失值。
scipy.io.loadmat: 读取MATLAB数据文件

备注

此函数旨在成为格式简单的文件的快速读取器。genfromtxt 函数提供了更复杂的处理，例如处理包含缺失值的行。

文本文件中的每一行都必须具有相同数量的值才能读取所有值。如果所有行具有不同数量的值，则可以通过指定 usecols 来读取最多n列（其中n是所有行中存在的最少值数）的子集。

Python float.hex 方法生成的字符串可以用作浮点数的输入。

示例

>>> import numpy as np
>>> from io import StringIO   # StringIO behaves like a file object
>>> c = StringIO("0 1\n2 3")
>>> np.loadtxt(c)
array([[0., 1.],
       [2., 3.]])

>>> d = StringIO("M 21 72\nF 35 58")
>>> np.loadtxt(d, dtype={'names': ('gender', 'age', 'weight'),
...                      'formats': ('S1', 'i4', 'f4')})
array([(b'M', 21, 72.), (b'F', 35, 58.)],
      dtype=[('gender', 'S1'), ('age', '<i4'), ('weight', '<f4')])

>>> c = StringIO("1,0,2\n3,0,4")
>>> x, y = np.loadtxt(c, delimiter=',', usecols=(0, 2), unpack=True)
>>> x
array([1., 3.])
>>> y
array([2., 4.])

converters 参数用于指定预处理文本的函数，然后再进行解析。converters 可以是一个字典，它将预处理函数映射到每一列

>>> s = StringIO("1.618, 2.296\n3.141, 4.669\n")
>>> conv = {
...     0: lambda x: np.floor(float(x)),  # conversion fn for column 0
...     1: lambda x: np.ceil(float(x)),  # conversion fn for column 1
... }
>>> np.loadtxt(s, delimiter=",", converters=conv)
array([[1., 3.],
       [3., 5.]])

converters 可以是可调用对象而不是字典，在这种情况下，它将应用于所有列

>>> s = StringIO("0xDE 0xAD\n0xC0 0xDE")
>>> import functools
>>> conv = functools.partial(int, base=16)
>>> np.loadtxt(s, converters=conv)
array([[222., 173.],
       [192., 222.]])

此示例展示了如何使用 converters 将带有尾随减号的字段转换为负数。

>>> s = StringIO("10.01 31.25-\n19.22 64.31\n17.57- 63.94")
>>> def conv(fld):
...     return -float(fld[:-1]) if fld.endswith("-") else float(fld)
...
>>> np.loadtxt(s, converters=conv)
array([[ 10.01, -31.25],
       [ 19.22,  64.31],
       [-17.57,  63.94]])

将可调用对象用作转换器对于处理具有不同格式的值特别有用，例如带有下划线的浮点数

>>> s = StringIO("1 2.7 100_000")
>>> np.loadtxt(s, converters=float)
array([1.e+00, 2.7e+00, 1.e+05])

这个想法可以扩展到自动处理以多种不同格式指定的值，例如十六进制值

>>> def conv(val):
...     try:
...         return float(val)
...     except ValueError:
...         return float.fromhex(val)
>>> s = StringIO("1, 2.5, 3_000, 0b4, 0x1.4000000000000p+2")
>>> np.loadtxt(s, delimiter=",", converters=conv)
array([1.0e+00, 2.5e+00, 3.0e+03, 1.8e+02, 5.0e+00])

或者一个格式是 - 符号出现在数字之后

>>> s = StringIO("10.01 31.25-\n19.22 64.31\n17.57- 63.94")
>>> conv = lambda x: -float(x[:-1]) if x.endswith("-") else float(x)
>>> np.loadtxt(s, converters=conv)
array([[ 10.01, -31.25],
       [ 19.22,  64.31],
       [-17.57,  63.94]])

通过 quotechar 参数启用对带引号字段的支持。当分隔符或注释字符出现在由 quotechar 分隔的带引号项内时，将忽略它们

>>> s = StringIO('"alpha, #42", 10.0\n"beta, #64", 2.0\n')
>>> dtype = np.dtype([("label", "U12"), ("value", float)])
>>> np.loadtxt(s, dtype=dtype, delimiter=",", quotechar='"')
array([('alpha, #42', 10.), ('beta, #64',  2.)],
      dtype=[('label', '<U12'), ('value', '<f8')])

带引号的字段可以用多个空格分隔

>>> s = StringIO('"alpha, #42"       10.0\n"beta, #64" 2.0\n')
>>> dtype = np.dtype([("label", "U12"), ("value", float)])
>>> np.loadtxt(s, dtype=dtype, delimiter=None, quotechar='"')
array([('alpha, #42', 10.), ('beta, #64',  2.)],
      dtype=[('label', '<U12'), ('value', '<f8')])

在带引号的字段中，两个连续的引号字符被视为一个转义字符

>>> s = StringIO('"Hello, my name is ""Monty""!"')
>>> np.loadtxt(s, dtype="U", delimiter=",", quotechar='"')
array('Hello, my name is "Monty"!', dtype='<U26')

当所有行的值数量不相等时，读取列的子集

>>> d = StringIO("1 2\n2 4\n3 9 12\n4 16 20")
>>> np.loadtxt(d, usecols=(0, 1))
array([[ 1.,  2.],
       [ 2.,  4.],
       [ 3.,  9.],
       [ 4., 16.]])