vod指的是什么模电 vod指的是什么( 六 )


因为我们的观看时间事件数据会在许多方面出现偏离或不平衡的情况 , 所以我们对我们所关注的维度进行了数据清洗、转换、桶化和加权采样 。
此外 , 由于新上传的视频没有可供参考的观看时间轨迹 , 我们决定建立两种模型 , 一种用于处理上传时间请求 , 另一种用于处理观看时间请求 。视图 - 时间模型使用了上面提到的三组功能 。上传时间模型可以看到内容创作者上传的其他视频的表现 , 并用过去的观看时间轨迹代替 。当一段视频在 Facebook 上停留了足够长的时间 , 并且有了一些过去的轨迹 , 我们就把它转换成使用视图 - 时间模型 。
在模型开发过程中 , 我们通过研究均方根误差(Root Mean Square Error , RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error , MAPE)来选择最佳发布候选者 。由于 RMSE 对异常值敏感 , 而 MAPE 对小值敏感 , 所以我们使用了这两种指标 。观看时间标签具有较高的方差 , 所以我们使用 MAPE 评估流行和中度流行的视频的表现 , 而使用 RMSE 评估较少观看的视频 。同时 , 我们也关注与不同视频类型、年龄和受欢迎程度上的泛化能力 。因此 , 我们的评估也总是包含了每一类别的指标 。
MAPE 和 RMSE 是很好的模型选择总结指标 , 但不一定能直接反映产品的改进 。有时候 , 当两个模型的 RMSE 和 MAPE 相似时 , 我们也会将评估转化为分类问题 , 以了解其权衡 。例如 , 如果一个视频获得了 1000 分钟的观看时间 , 但模型 A 预测的是 10 分钟 , 那么模型 A 的 MAPE 是 99% 。如果模型 B 预测的是 1990 分钟的观看时间 , 那么模型 B 的 MAPE 将与模型 A 的相同(即 99%) , 但是模型 B 的预测将会使视频更有可能具有高质量的编码 。
同时 , 我们也对视频分类进行了评估 , 因为我们希望在过度频繁地使用高级编码和失去使用这些编码的好处之间找到一个平衡点 。举例来说 , 在 10 秒的阈值下 , 为了计算模型的假阳性和假阴性率 , 我们计算出实际视频观看时间少于 10 秒且预测时间也少于 10 秒的视频数量 , 反之亦然 。我们对多个阈值进行了同样的计算 。这一评估方法使我们能够深入研究该模型在不同受欢迎程度的视频中的表现 , 以及它是倾向于推荐过多的编码工作还是错失了一些机会 。
新视频编码模型的影响这一新模型不仅提高了用户对新上传视频的体验 , 而且能够识别 Facebook 上应该使用更高级编码的老视频 , 并为它们分配更多计算资源 。这会把大部分看问题的时间转移到高级编码上 , 从而减少缓冲时间 , 而无需额外的计算资源 。经过改良的压缩技术还可以让 Facebook 上那些流量有限的用户 , 如新兴市场用户 , 观看更多质量更高的视频 。
更重要的是 , 当我们引入新的编码菜谱时 , 我们不再需要花费很多时间去评估在优先级范围中将它们分配在哪个位置 。相反 , 该模型根据菜谱的效益和成本值自动分配优先级 , 从而最大化整体效益吞吐量 。举例来说 , 我们可以引入一种计算密集型的方法 , 这种方法只适用于一些极受欢迎的视频 , 并且模型能够识别这种视频 。总而言之 , 这使得我们能够继续投资更新、更高级的编*** , 为 Facebook 上的用户提供最好的视频体验 。
作者介绍:
Taein Kim , Facebook 软件工程师;Ploy Temiyasathit , Facebook 数据科学家;Haixiong Wang , Facebook 软件工程师 。
原文链接:
https://engineering.fb.com/2021/04/05/video-engineering/how-facebook-encodes-your-videos/