numpy.genfromtxt#

numpy.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=" !#$%&'()*+, -./:;<=>?@[\\]^{|}~", replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding=None, *, ndmin=0, like=None)[源代码]#

从文本文件加载数据，并按指定方式处理缺失值。

在跳过 skip_header 行后，每行将根据 delimiter 字符进行分割，并丢弃 comments 字符之后的所有内容。

参数:

fname文件、字符串、pathlib.Path、字符串列表、生成器: 要读取的文件、文件名、列表或生成器。如果文件名扩展名为 .gz 或 .bz2，则文件会先解压缩。请注意，生成器必须返回字节或字符串。列表中的字符串或生成器生成的字符串被视为行。
dtypedtype, optional: 结果数组的数据类型。如果为 None，则 dtype 将由每列的内容单独确定。
comments字符串，可选: 用于指示注释开始的字符。行中出现在注释字符之后的任何内容都将被丢弃。
delimiter字符串、整数或序列，可选: 用于分隔值的字符串。默认情况下，任何连续的空白字符都充当分隔符。也可以提供整数或整数序列作为每个字段的宽度。
skiprows整数，可选: skiprows 已在 numpy 1.10 中移除。请使用 skip_header 代替。
skip_header整数，可选: 要跳过的文件开头的行数。
skip_footer整数，可选: 要跳过的文件末尾的行数。
converters变量，可选: 将列数据转换为值的函数集合。转换器还可以用于为缺失数据提供默认值：converters = {3: lambda s: float(s or 0)}。
missing变量，可选: missing 已在 numpy 1.10 中移除。请使用 missing_values 代替。
missing_values变量，可选: 表示缺失数据的字符串集合。
filling_values变量，可选: 在数据缺失时用作默认值的取值集合。
usecols序列，可选: 要读取的列，0 表示第一列。例如，usecols = (1, 4, 5) 将提取第 2、5 和第 6 列。
names{None, True, str, sequence}，可选: 如果 names 为 True，则字段名从跳过 skip_header 行后的第一行读取。此行可以可选地 preceded by a comment delimiter。注释分隔符之前的所有内容都将被丢弃。如果 names 是一个序列或一个逗号分隔的名称字符串，这些名称将用于定义结构化 dtype 中的字段名。如果 names 为 None，则使用 dtype 字段的名称（如果存在）。
excludelist序列，可选: 要排除的名称列表。此列表将追加到默认列表 [‘return’,’file’,’print’] 之后。排除的名称会追加下划线：例如，file 将变为 file_。
deletechars字符串，可选: 一个组合了必须从名称中删除的无效字符的字符串。
defaultfmt字符串，可选: 用于定义默认字段名的格式，例如“f%i”或“f_%02i”。
autostrip布尔值，可选: 是否自动去除变量中的空格。
replace_space字符，可选: 用于替换变量名中空格的字符。默认情况下，使用“_”。
case_sensitive{True, False, ‘upper’, ‘lower’}，可选: 如果为 True，则字段名区分大小写。如果为 False 或 ‘upper’，则字段名转换为大写。如果为 ‘lower’，则字段名转换为小写。
unpack布尔值，可选: 如果为 True，则返回的数组会转置，以便可以使用 x, y, z = genfromtxt(...) 来解包参数。当与结构化数据类型一起使用时，将为每个字段返回数组。默认值为 False。
usemask布尔值，可选: 如果为 True，则返回一个掩码数组。如果为 False，则返回一个常规数组。
loose布尔值，可选: 如果为 True，则不对无效值引发错误。
invalid_raise布尔值，可选: 如果为 True，则在检测到列数不一致时会引发异常。如果为 False，则会发出警告并跳过有问题（不一致）的行。
max_rows整数，可选: 要读取的最大行数。不能与 skip_footer 同时使用。如果指定，则值必须至少为 1。默认是读取整个文件。
encodingstr，可选: 用于解码输入文件的编码。当 fname 是文件对象时，此参数不适用。特殊值 'bytes' 启用向后兼容的解决方法，以确保在可能的情况下接收字节数组，并将 latin1 编码的字符串传递给转换器。覆盖此值以接收 Unicode 数组并将字符串作为输入传递给转换器。如果设置为 None，则使用系统默认值。默认值为 'bytes'。

版本 2.0 已更改：在 NumPy 2 之前，Python 2 的默认值为 'bytes'。现在默认为 None。
ndminint, optional: 与 loadtxt 相同的参数

新版本 1.23.0。
likearray_like, optional: 用于创建非 NumPy 数组的引荐对象。如果传入的 like 支持 __array_function__ 协议，则结果将由它定义。在这种情况下，它确保创建与通过此参数传入的数组兼容的数组对象。

版本 1.20.0 中新增。

返回:

outndarray: 从文本文件中读取的数据。如果 usemask 为 True，则这是一个掩码数组。

另请参阅

numpy.loadtxt: 当没有缺失数据时的等效函数。

备注

当使用空格作为分隔符，或未提供分隔符时，两个字段之间不应有任何缺失数据。
当变量被命名时（通过灵活的 dtype 或 names 序列），文件中不应有任何标题（否则会引发 ValueError 异常）。
默认情况下，单个值不会去除空格。使用自定义转换器时，请确保函数确实会去除空格。
由于 dtype 发现，自定义转换器可能会收到意外的值。

参考

[1]

NumPy 用户指南，第 I/O with NumPy 部分。

示例

>>> from io import StringIO
>>> import numpy as np

逗号分隔的混合 dtype 文件

>>> s = StringIO("1,1.3,abcde")
>>> data = np.genfromtxt(s, dtype=[('myint','i8'),('myfloat','f8'),
... ('mystring','S5')], delimiter=",")
>>> data
array((1, 1.3, b'abcde'),
      dtype=[('myint', '<i8'), ('myfloat', '<f8'), ('mystring', 'S5')])

使用 dtype = None

>>> _ = s.seek(0) # needed for StringIO example only
>>> data = np.genfromtxt(s, dtype=None,
... names = ['myint','myfloat','mystring'], delimiter=",")
>>> data
array((1, 1.3, 'abcde'),
      dtype=[('myint', '<i8'), ('myfloat', '<f8'), ('mystring', '<U5')])

指定 dtype 和名称

>>> _ = s.seek(0)
>>> data = np.genfromtxt(s, dtype="i8,f8,S5",
... names=['myint','myfloat','mystring'], delimiter=",")
>>> data
array((1, 1.3, b'abcde'),
      dtype=[('myint', '<i8'), ('myfloat', '<f8'), ('mystring', 'S5')])

固定宽度列的示例

>>> s = StringIO("11.3abcde")
>>> data = np.genfromtxt(s, dtype=None, names=['intvar','fltvar','strvar'],
...     delimiter=[1,3,5])
>>> data
array((1, 1.3, 'abcde'),
      dtype=[('intvar', '<i8'), ('fltvar', '<f8'), ('strvar', '<U5')])

演示注释的示例

>>> f = StringIO('''
... text,# of chars
... hello world,11
... numpy,5''')
>>> np.genfromtxt(f, dtype='S12,S12', delimiter=',')
array([(b'text', b''), (b'hello world', b'11'), (b'numpy', b'5')],
  dtype=[('f0', 'S12'), ('f1', 'S12')])