什么是 NumPy？#

NumPy 是 Python 中进行科学计算的基础软件包。它是一个 Python 库，提供了多维数组对象、各种派生对象（如掩码数组和矩阵）以及用于数组快速操作的例程集合，包括数学运算、逻辑运算、形状操作、排序、选择、I/O、离散傅里叶变换、基本线性代数、基本统计操作、随机模拟等等。

NumPy 软件包的核心是 ndarray 对象。它封装了同构数据类型的 n 维数组，许多操作都在编译后的代码中执行以提高性能。NumPy 数组与标准 Python 序列之间存在几个重要的区别：

NumPy 数组在创建时具有固定大小，这与 Python 列表（可以动态增长）不同。更改 ndarray 的大小将创建一个新数组并删除原始数组。
NumPy 数组中的所有元素都必须是相同的数据类型，因此在内存中大小相同。例外情况是：可以创建（Python，包括 NumPy）对象的数组，从而允许包含不同大小元素的数组。
NumPy 数组有助于对大量数据执行高级数学和其他类型的操作。通常，与使用 Python 内置序列相比，此类操作的执行效率更高，代码量也更少。
越来越多的基于 Python 的科学和数学软件包正在使用 NumPy 数组；尽管这些软件包通常支持 Python 序列输入，但在处理之前会将此类输入转换为 NumPy 数组，并且它们通常输出 NumPy 数组。换句话说，为了高效地使用当今许多（甚至可能是大多数）基于 Python 的科学/数学软件，仅仅了解如何使用 Python 的内置序列类型是不够的——还需要知道如何使用 NumPy 数组。

关于序列大小和速度的观点在科学计算中尤为重要。举一个简单的例子，考虑将一维序列中的每个元素与其相同长度的另一个序列中的对应元素相乘的情况。如果数据存储在两个 Python 列表 a 和 b 中，我们可以遍历每个元素

c = []
for i in range(len(a)):
    c.append(a[i]*b[i])

这会得到正确答案，但如果 a 和 b 各自包含数百万个数字，我们将为 Python 中循环的低效率付出代价。我们可以通过编写 C 代码更快地完成相同的任务（为清晰起见，我们省略了变量声明和初始化、内存分配等）：

for (i = 0; i < rows; i++) {
  c[i] = a[i]*b[i];
}

这节省了解释 Python 代码和操作 Python 对象所涉及的所有开销，但却牺牲了在 Python 中编码所带来的好处。此外，所需的编码工作量会随着数据维度的增加而增加。例如，对于一个二维数组，C 代码（如前所述的缩写形式）将扩展为：

for (i = 0; i < rows; i++) {
  for (j = 0; j < columns; j++) {
    c[i][j] = a[i][j]*b[i][j];
  }
}

NumPy 让我们两全其美：当涉及到 ndarray 时，逐元素操作是“默认模式”，但逐元素操作由预编译的 C 代码快速执行。在 NumPy 中，

c = a * b

执行与前面例子相同的操作，速度接近 C 语言，但具有我们期望的基于 Python 的代码简洁性。实际上，NumPy 的表达方式甚至更简单！最后一个例子说明了 NumPy 的两个核心特性，它们是其强大功能的基础：向量化（vectorization）和广播（broadcasting）。

为什么 NumPy 很快？#

向量化描述了代码中没有显式循环、索引等——当然，这些操作只是在优化的预编译 C 代码中“幕后”进行。向量化代码具有许多优点，其中包括：

向量化代码更简洁、更易读
代码行数越少通常意味着 bug 越少
代码更接近标准数学符号（通常更容易正确编写数学结构）
向量化会产生更“Pythonic”的代码。如果没有向量化，我们的代码将充斥着低效且难以阅读的 for 循环。

广播（Broadcasting）是用于描述操作隐式逐元素行为的术语；一般来说，在 NumPy 中，所有操作，不仅是算术操作，还包括逻辑、按位、函数等操作，都以这种隐式的逐元素方式行为，即它们都会进行广播。此外，在上面的例子中，a 和 b 可以是相同形状的多维数组，或者是一个标量和一个数组，甚至可以是两个不同形状的数组，前提是较小的数组可以“扩展”到较大数组的形状，从而使广播结果明确。有关广播的详细“规则”，请参阅广播。

还有谁在使用 NumPy？#

NumPy 完全支持面向对象的方法，再次以 ndarray 为起点。例如，ndarray 是一个类，拥有众多方法和属性。它的许多方法都在最外层的 NumPy 命名空间中有对应的函数，允许程序员选择他们喜欢的编程范式。这种灵活性使得 NumPy 数组方言和 NumPy ndarray 类成为 Python 中用于多维数据交换的事实标准语言。