SWEBOK软件工程知识体系 - 15.工程基础( 二 )


人口 。所有被调查者或被调查项目(可能的抽样单位)的集合构成了总体 。作为一个例子,考虑研究软件产品的可感知可用性的案例 。在本例中,所有可能用户的集合构成了总体 。
在定义人群时,必须注意了解研究和目标人群 。在某些情况下,所研究的总体和所概括结果的总体可能是不同的 。例如,当研究人群仅由过去的观察结果组成,并且需要对未来进行概括时,研究人群和目标人群可能不相同 。
样品 。样本是总体的一个子集 。选择样本最关键的问题是样本的代表性,包括样本的大小 。样本的抽取方式必须确保抽取是独立的,抽取样本的规则必须预先确定,以便预先知道选择特定抽样单位的概率 。这种选择样本的方法称为概率抽样 。
随机变量 。在统计学术语中,对所研究的抽样单位进行观察或测量的过程称为进行实验 。例如,如果实验是将一枚硬币掷10次,然后计算硬币落在头上的次数,那么每掷10次硬币就是一个采样单位,给定样本的头数就是实验的观察值或结果 。实验结果是用实数表示的,并定义了所研究的随机变量 。因此,在实验结果中被测量的项目的属性代表被研究的随机变量;从特定采样单元获得的观察值是随机变量的特定实现 。在掷硬币的例子中,随机变量是每个实验中观察到的人头数 。在统计学研究中,人们试图在样本的基础上理解人口特征 。
随机变量的可能值集可以是有限的或无限的,但可以计数(例如,所有整数集或所有奇数集) 。在这种情况下,随机变量称为离散随机变量 。在其他情况下,随机变量是连续的,称为连续随机变量 。
事件 。随机变量可能值的子集称为事件 。假设X表示某个随机变量,例如,我们可以定义不同的事件,如X3X或X
随机变量的分布 。随机变量的变化范围和模式由其分布给出 。当一个随机变量的分布已知时,就可以计算出任何事件发生的几率 。一些分布被发现是普遍存在的,并被用来模拟许多随机变量发生在实践中的工程背景 。下面给出了一些更常见的分布 。
参数的概念 。统计分布的特征是一些参数 。例如,在任何给定的试验中成功的比例是表征二项分布的唯一参数 。类似地,泊松分布的特征是发生率 。正态分布有两个参数:均值和标准差 。
一旦参数值已知,就可以完全知道随机变量的分布,并且可以计算出任何事件的概率 。离散随机变量的概率可以通过称为pmf的概率质量函数来计算 。pmf在离散点处定义,并给出点质量,即随机变量取该特定值的概率 。同样,对于连续随机变量,我们有概率密度函数,称为pdf 。pdf非常类似于密度,需要在一定范围内进行积分,以获得连续随机变量位于特定值之间的概率 。因此,如果pdf或pmf已知,则可以从理论上计算随机变量取某组值的机会 。
估算概念[2*,c6s2,c7s1,c7s3] 。分布参数的真值通常是未知的,需要从样本观测中估计出来 。估计值是样本值的函数,称为统计量 。例如,样本平均数是一个统计量,可以用来估计总体平均数 。类似地,从样本估计的缺陷发生率(每行代码的缺陷率)是一个统计数据,并用作每行代码的缺陷率总体率的估计 。用来估计某些总体参数的统计量通常被称为参数的估计量 。
需要注意的一个非常重要的一点是,估计量本身的结果是随机的 。如果我们选取不同的样本,我们很可能得到不同的总体参数估计 。在估计理论中,我们需要特别了解估计量的不同性质,估计量在样本间的变化程度,以及如何选择不同的方法来获得估计 。例如,如果我们希望估计总体的平均数,我们可以使用样本平均数、样本中位数、样本模式或样本的中位数作为估计量 。每种估计量都有不同的统计特性,这些特性可能会影响估计的标准误差 。