机器学习之数据分布的含义理解 _大数据

很多时候，我们都会去聊，数据分布的一致性，于是，数据分布成为一个类似“皇帝的新装”的名词，大家理解都比较模糊但是都在聊，那么，数据分布在我的理解是什么样的，这里来聊一下。
分布的理解
分布本身是一个非常统计学的概念，相信大家都学了概率论与数理统计，有听说过分布函数，其实这里的分布和这个很相似，用通俗的话说，模糊的说，其实就是说特定的各种情况在某个场景下的占比。
举个例子，同样一个query，“周杰伦”，相信在音乐软件内的搜索，占比会比较高，至少相比开放域的搜索，例如百度，占比会高很多，而与之相对，“入门教程”之类的query，就几乎不会在音乐软件内出现，而在百度这种开放域搜索里其实还是会出现的，此时我们会说两个搜索内的query分布差异比较大。
数据分布一致性的要求
回到问题，很多时候我们都要求数据分布一致性，那么这个一致性是怎么要求的，为什么要这么要求，底层的机理是什么样的，这点继续聊。
测试集和现实情况分布的一致性
当我们要评估一个算法在现实情况下的效果，我们并不能用所有的数据都评估一次，更多的做法就是抽样，从小到大的数学中其实都有强调，抽样的一个核心要求是随机，因为我们要求评估的是现实情况的效果，那我们的评测集就应该和现实情况分布一致，只有这样，从评测集评估出来的准招，才能和现实的准招很接近。
训练集和测试集分布的一致性
很多刚入职的新手，尤其是实验落地比较少的新人，很容易直接从训练集分一部分出来作为测试集，然后评估算法的效果。这种在算法实验中用来评估算法学习能力的目标下，这个方案是完全合适的，但是在显示落地，这个方法却并不合适。
正确做法是，测试集应该服从于预期使用的场景，而训练集，则应该是为效果服务，即使是要拉上训练集和测试集之间的关系，也应该是训练集迁就测试集，而不是与之相反，这个才是正确的逻辑关系。
小结
【机器学习之数据分布的含义理解】这篇文章不是很长，主要是相对这个基础的概念进行一个澄清，这个澄清能让大家在数据集构造的过程能有一个明确的把握。