numpy.histogram#
- numpy.histogram(a, bins=10, range=None, density=None, weights=None)[source]#
计算数据集的直方图。
- 参数:
- aarray_like
输入数据。直方图是在扁平化的数组上计算的。
- binsint 或标量序列或 str,可选
如果bins 是一个整数,它定义了给定范围内的等宽 bin 的数量(默认为 10)。如果bins 是一个序列,它定义了一个单调递增的 bin 边界数组,包括最右边的边界,允许非均匀的 bin 宽度。
如果bins 是一个字符串,它定义了用于计算最佳 bin 宽度的方法,由
histogram_bin_edges
定义。- range(float, float),可选
bin 的下限和上限。如果没有提供,范围只是
(a.min(), a.max())
。范围之外的值将被忽略。范围的第一个元素必须小于或等于第二个元素。range 也影响自动 bin 计算。虽然 bin 宽度是根据range 内的实际数据计算出的最佳值,但 bin 计数将填充整个范围,包括不包含数据的部分。- weightsarray_like,可选
一个权重数组,形状与a 相同。a 中的每个值只对其相关的权重对 bin 计数做出贡献(而不是 1)。如果density 为 True,则权重被归一化,使得密度在范围内的积分仍然为 1。请注意,weights 的
dtype
也将成为返回的累加器 (hist) 的dtype
,因此它必须足够大以容纳累积的值。- densitybool,可选
如果为
False
,结果将包含每个 bin 中的样本数。如果为True
,结果是 bin 处概率 *密度* 函数的值,经过归一化处理,使得在该范围内的 *积分* 为 1。请注意,除非选择单位宽度 bin,否则直方图值的总和不等于 1;它不是概率 *质量* 函数。
- 返回:
- histarray
直方图的值。有关可能的语义描述,请参见density 和weights。如果给出了weights,则
hist.dtype
将取自weights。- bin_edgesdtype 为 float 的数组
返回 bin 边界
(length(hist)+1)
。
注释
除了最后一个(最右边的)bin 之外,所有 bin 都是半开的。换句话说,如果bins 是
[1, 2, 3, 4]
那么第一个 bin 是
[1, 2)
(包含 1,但不包含 2),第二个是[2, 3)
。但是,最后一个 bin 是[3, 4]
,它*包含* 4。示例
>>> import numpy as np >>> np.histogram([1, 2, 1], bins=[0, 1, 2, 3]) (array([0, 2, 1]), array([0, 1, 2, 3])) >>> np.histogram(np.arange(4), bins=np.arange(5), density=True) (array([0.25, 0.25, 0.25, 0.25]), array([0, 1, 2, 3, 4])) >>> np.histogram([[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]) (array([1, 4, 1]), array([0, 1, 2, 3]))
>>> a = np.arange(5) >>> hist, bin_edges = np.histogram(a, density=True) >>> hist array([0.5, 0. , 0.5, 0. , 0. , 0.5, 0. , 0.5, 0. , 0.5]) >>> hist.sum() 2.4999999999999996 >>> np.sum(hist * np.diff(bin_edges)) 1.0
使用 2000 个点的 2 个峰值随机数据,举例说明自动 Bin 选择方法。
import matplotlib.pyplot as plt import numpy as np rng = np.random.RandomState(10) # deterministic random data a = np.hstack((rng.normal(size=1000), rng.normal(loc=5, scale=2, size=1000))) plt.hist(a, bins='auto') # arguments are passed to np.histogram plt.title("Histogram with 'auto' bins") plt.show()