SWEBOK软件工程知识体系 - 15.工程基础( 二 ) _变量

人口。所有被调查者或被调查项目（可能的抽样单位）的集合构成了总体。作为一个例子，考虑研究软件产品的可感知可用性的案例。在本例中，所有可能用户的集合构成了总体。
在定义人群时，必须注意了解研究和目标人群。在某些情况下，所研究的总体和所概括结果的总体可能是不同的。例如，当研究人群仅由过去的观察结果组成，并且需要对未来进行概括时，研究人群和目标人群可能不相同。
样品。样本是总体的一个子集。选择样本最关键的问题是样本的代表性，包括样本的大小。样本的抽取方式必须确保抽取是独立的，抽取样本的规则必须预先确定，以便预先知道选择特定抽样单位的概率。这种选择样本的方法称为概率抽样。
随机变量。在统计学术语中，对所研究的抽样单位进行观察或测量的过程称为进行实验。例如，如果实验是将一枚硬币掷10次，然后计算硬币落在头上的次数，那么每掷10次硬币就是一个采样单位，给定样本的头数就是实验的观察值或结果。实验结果是用实数表示的，并定义了所研究的随机变量。因此，在实验结果中被测量的项目的属性代表被研究的随机变量；从特定采样单元获得的观察值是随机变量的特定实现。在掷硬币的例子中，随机变量是每个实验中观察到的人头数。在统计学研究中，人们试图在样本的基础上理解人口特征。
随机变量的可能值集可以是有限的或无限的，但可以计数（例如，所有整数集或所有奇数集）。在这种情况下，随机变量称为离散随机变量。在其他情况下，随机变量是连续的，称为连续随机变量。
事件。随机变量可能值的子集称为事件。假设X表示某个随机变量，例如，我们可以定义不同的事件，如X3X或X
随机变量的分布。随机变量的变化范围和模式由其分布给出。当一个随机变量的分布已知时，就可以计算出任何事件发生的几率。一些分布被发现是普遍存在的，并被用来模拟许多随机变量发生在实践中的工程背景。下面给出了一些更常见的分布。
参数的概念。统计分布的特征是一些参数。例如，在任何给定的试验中成功的比例是表征二项分布的唯一参数。类似地，泊松分布的特征是发生率。正态分布有两个参数：均值和标准差。
一旦参数值已知，就可以完全知道随机变量的分布，并且可以计算出任何事件的概率。离散随机变量的概率可以通过称为pmf的概率质量函数来计算。pmf在离散点处定义，并给出点质量，即随机变量取该特定值的概率。同样，对于连续随机变量，我们有概率密度函数，称为pdf 。pdf非常类似于密度，需要在一定范围内进行积分，以获得连续随机变量位于特定值之间的概率。因此，如果pdf或pmf已知，则可以从理论上计算随机变量取某组值的机会。
估算概念[2*，c6s2，c7s1，c7s3] 。分布参数的真值通常是未知的，需要从样本观测中估计出来。估计值是样本值的函数，称为统计量。例如，样本平均数是一个统计量，可以用来估计总体平均数。类似地，从样本估计的缺陷发生率（每行代码的缺陷率）是一个统计数据，并用作每行代码的缺陷率总体率的估计。用来估计某些总体参数的统计量通常被称为参数的估计量。
需要注意的一个非常重要的一点是，估计量本身的结果是随机的。如果我们选取不同的样本，我们很可能得到不同的总体参数估计。在估计理论中，我们需要特别了解估计量的不同性质，估计量在样本间的变化程度，以及如何选择不同的方法来获得估计。例如，如果我们希望估计总体的平均数，我们可以使用样本平均数、样本中位数、样本模式或样本的中位数作为估计量。每种估计量都有不同的统计特性，这些特性可能会影响估计的标准误差。