fbpx
维基百科

平均意见分数

平均意见分数(MOS)是在体验质量和通信工程领域中使用的衡量标准,代表刺激或系统的整体质量。它是所有受试者“在一个预先定义的范围内,一个受试者分配给他对系统质量表现的意见”的算术平均数

MOS 是一种常用的视频、音频和视听质量评估方法。 ITU-T (页面存档备份,存于互联网档案馆)在建议 P.800.1 中定义了几种引用MOS的方式,区别于分数是从视听、会话、听、说还是视频质量测试中获得的。

评分量表和数学定义 编辑

MOS 由一个有理数表示,通常范围在1–5之间,其中1表示最低感知质量,5表示最高感知质量。MOS 的范围取决于在基础测试中使用的评级量表。

绝对类别评分英语Absolute Category Rating标准非常常用,它将坏的优秀之间的评分映射为1到5之间的数字,如下表所示。

评分 标签
5 优秀
4 良好
3 一般
2 较差
1 坏的

ITU-T建议中存在其他标准化质量评级量表(例如P.800 (页面存档备份,存于互联网档案馆)或P.910 (页面存档备份,存于互联网档案馆) )。例如,可以使用 1-100 之间的连续刻度。使用哪种量表取决于测试的目的。在某些情况下,使用不同的量表对相同刺激评价,获得的评分没有统计学上的显着差异。 [1]

MOS 的计算方法是人类受试者在主观质量评估测试英语Subjective video quality中对给定刺激进行的单个评分的算术平均值。因此:

 

公式中   是受试者对给定刺激的评分,  是受试者的数量。

MOS的属性 编辑

MOS 受制于某些数学性质和偏差。MOS 用一个标量值去量化体验质量的做法是否有用,存在持续的争论。 [2]

当使用分类评级量表获得 MOS 时,它基于 - 类似于李克特量表的 - 序数量表。在这种情况下,评级中的选项的顺序是已知的,但选项之间的间隔是未知的。因此,为了获得中心趋势而计算个人评分的平均值在数学上是不正确的;应该使用中位数。 [3]但是,在实践中以及在 MOS 的定义中,计算算术平均值被认为是可以接受的。

存在研究表明,对于分类评分量表(例如 ACR),受试者会认为量表中的选项是不等距的。例如,良好一般之间的“差距”可能比 良好优秀之间的“差距”更大。感知距离也可能取决于翻译量表的语言。 [4]然而,研究表明无法证明量表翻译对所得结果存在显著影响。 [5]

通常获取 MOS 分数的测试方法中还存在另外几个偏差。 [6]除了上面提到的非线性感知的量表问题之外,还有一个所谓的“范围均衡偏差”:在主观实验过程中,受试者倾向于给出的分数横跨整个评分量表。如果两个主观测试提供的样本质量范围不同,就不能比较这两个主观测试。换句话说,MOS 并不是质量的绝对量度,MOS 是相对于获得它的测试的。

由于上述原因 - 以及由于其他几个影响主观测试中感知质量的上下文因素 - 只有在已知并报告了收集值的上下文时才应该报告 MOS 值。因此,不应直接比较从不同环境和测试设计中收集的 MOS 值。 ITU-T P.800.2 (页面存档备份,存于互联网档案馆)建议书规定了如何报告 MOS 值。具体来说,P.800.2 中写道:

直接比较不同实验产生的 MOS 值是没有意义的,除非这些实验被明确设计用于比较,即使这样,也应该对数据进行统计分析以确保这种比较是有效的。

用于语音和音频质量估计的 MOS 编辑

MOS 历史上源于主观测量,听众会坐在“安静的房间”中,并根据他们的感知对电话通话质量进行评分。这种测试方法已在电话行业使用了数十年,并在ITU-T建议P.800 (页面存档备份,存于互联网档案馆)中标准化。它规定“讲话者应坐在安静的房间内,音量在 30 到 120 立方米之间,混响时间小于 500 毫秒(最好在 200 到 300 毫秒范围内)。室内噪音水平必须低于 30 dBA,并且频谱中没有主峰。”稍后在国际电联的建议中类似地规定了对其他模式的要求。

使用质量模型的 MOS 估计 编辑

获得 MOS 评级可能既耗时又昂贵,因为它需要招聘人工评估员。对于各种用例,例如编解码器开发或服务质量监控目的——应该重复和自动估计质量——也可以通过客观质量模型来预测 MOS 分数,这些模型通常是使用人类 MOS 评级开发和训练的。使用此类模型产生的一个问题是产生的 MOS 差异是否对用户来说是显而易见的。例如,当以五点 MOS 等级对图像进行评分时,MOS 等于 5 的图像的质量预计会明显优于 MOS 等于 1 的图像。与此相反,MOS 等于 3.8 的图像的质量是否明显优于 MOS 等于 3.6 的图像尚不清楚。为确定用户对数码照片可感知的最小 MOS 差异进行的研究表明,为了使 75% 的用户能够检测到更高质量的图像,需要大约 0.46 的 MOS 差异。 [7]然而,图像质量期望,因此 MOS,随着用户期望的变化而随着时间的推移而变化。[7]分析方法确定的最小显着 MOS 差异可能会随时间而变化。

参见 编辑

  • 绝对类别评级英语Absolute Category Rating
  • 李克特量表
  • MUSHRA英语MUSHRA (ITU-R BS.1534 建议书)
  • 客观的视频质量
  • 主观视频质量英语Subjective video quality

参考文献 编辑

 

  1. ^ Huynh-Thu, Q.; Garcia, M. N.; Speranza, F.; Corriveau, P.; Raake, A. Study of Rating Scales for Subjective Quality Assessment of High-Definition Video. IEEE Transactions on Broadcasting. 2011-03-01, 57 (1): 1–14. ISSN 0018-9316. doi:10.1109/TBC.2010.2086750. 
  2. ^ Hoßfeld, Tobias; Heegaard, Poul E.; Varela, Martín; Möller, Sebastian. QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS. Quality and User Experience. 2016-12-01, 1 (1): 2. ISSN 2366-0139. arXiv:1607.00321 . doi:10.1007/s41233-016-0002-1 (英语). 
  3. ^ Jamieson, Susan. "Likert scales: how to (ab) use them." Medical education 38.12 (2004): 1217-1218.
  4. ^ Streijl, Robert C., Stefan Winkler, and David S. Hands. "Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives." Multimedia Systems 22.2 (2016): 213-227.
  5. ^ Pinson, M. H.; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study (PDF). IEEE Journal of Selected Topics in Signal Processing. October 2012, 6 (6): 640–651 [2022-01-24]. ISSN 1932-4553. doi:10.1109/jstsp.2012.2215306. (原始内容 (PDF)于2022-01-24). 
  6. ^ Zielinski, Slawomir, Francis Rumsey, and Søren Bech. "On some biases encountered in modern audio quality listening tests-a review." Journal of the Audio Engineering Society 56.6 (2008): 427-451.
  7. ^ 7.0 7.1 Katsigiannis, S.; Scovell, J. N.; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality. Quality and User Experience. 2018-05-02, 3 (1): 6. ISSN 2366-0139. doi:10.1007/s41233-018-0019-8. 

平均意见分数, 是在体验质量和通信工程领域中使用的衡量标准, 代表刺激或系统的整体质量, 它是所有受试者, 在一个预先定义的范围内, 一个受试者分配给他对系统质量表现的意见, 的算术平均数, 是一种常用的视频, 音频和视听质量评估方法, 页面存档备份, 存于互联网档案馆, 在建议, 中定义了几种引用mos的方式, 区别于分数是从视听, 会话, 说还是视频质量测试中获得的, 目录, 评分量表和数学定义, mos的属性, 用于语音和音频质量估计的, 使用质量模型的, 估计, 参见, 参考文献评分量表和数学定义, 编辑m. 平均意见分数 MOS 是在体验质量和通信工程领域中使用的衡量标准 代表刺激或系统的整体质量 它是所有受试者 在一个预先定义的范围内 一个受试者分配给他对系统质量表现的意见 的算术平均数 MOS 是一种常用的视频 音频和视听质量评估方法 ITU T 页面存档备份 存于互联网档案馆 在建议 P 800 1 中定义了几种引用MOS的方式 区别于分数是从视听 会话 听 说还是视频质量测试中获得的 目录 1 评分量表和数学定义 2 MOS的属性 3 用于语音和音频质量估计的 MOS 4 使用质量模型的 MOS 估计 5 参见 6 参考文献评分量表和数学定义 编辑MOS 由一个有理数表示 通常范围在1 5之间 其中1表示最低感知质量 5表示最高感知质量 MOS 的范围取决于在基础测试中使用的评级量表 绝对类别评分 英语 Absolute Category Rating 标准非常常用 它将坏的和优秀之间的评分映射为1到5之间的数字 如下表所示 评分 标签5 优秀4 良好3 一般2 较差1 坏的ITU T建议中存在其他标准化质量评级量表 例如P 800 页面存档备份 存于互联网档案馆 或P 910 页面存档备份 存于互联网档案馆 例如 可以使用 1 100 之间的连续刻度 使用哪种量表取决于测试的目的 在某些情况下 使用不同的量表对相同刺激评价 获得的评分没有统计学上的显着差异 1 MOS 的计算方法是人类受试者在主观质量评估测试 英语 Subjective video quality 中对给定刺激进行的单个评分的算术平均值 因此 MOS n 1 N R n N displaystyle text MOS frac sum n 1 N R n N nbsp 公式中 R n displaystyle R n nbsp 是受试者对给定刺激的评分 N displaystyle N nbsp 是受试者的数量 MOS的属性 编辑MOS 受制于某些数学性质和偏差 MOS 用一个标量值去量化体验质量的做法是否有用 存在持续的争论 2 当使用分类评级量表获得 MOS 时 它基于 类似于李克特量表的 序数量表 在这种情况下 评级中的选项的顺序是已知的 但选项之间的间隔是未知的 因此 为了获得中心趋势而计算个人评分的平均值在数学上是不正确的 应该使用中位数 3 但是 在实践中以及在 MOS 的定义中 计算算术平均值被认为是可以接受的 存在研究表明 对于分类评分量表 例如 ACR 受试者会认为量表中的选项是不等距的 例如 良好和一般之间的 差距 可能比良好和优秀之间的 差距 更大 感知距离也可能取决于翻译量表的语言 4 然而 研究表明无法证明量表翻译对所得结果存在显著影响 5 通常获取 MOS 分数的测试方法中还存在另外几个偏差 6 除了上面提到的非线性感知的量表问题之外 还有一个所谓的 范围均衡偏差 在主观实验过程中 受试者倾向于给出的分数横跨整个评分量表 如果两个主观测试提供的样本质量范围不同 就不能比较这两个主观测试 换句话说 MOS 并不是质量的绝对量度 MOS 是相对于获得它的测试的 由于上述原因 以及由于其他几个影响主观测试中感知质量的上下文因素 只有在已知并报告了收集值的上下文时才应该报告 MOS 值 因此 不应直接比较从不同环境和测试设计中收集的 MOS 值 ITU T P 800 2 页面存档备份 存于互联网档案馆 建议书规定了如何报告 MOS 值 具体来说 P 800 2 中写道 直接比较不同实验产生的 MOS 值是没有意义的 除非这些实验被明确设计用于比较 即使这样 也应该对数据进行统计分析以确保这种比较是有效的 用于语音和音频质量估计的 MOS 编辑MOS 历史上源于主观测量 听众会坐在 安静的房间 中 并根据他们的感知对电话通话质量进行评分 这种测试方法已在电话行业使用了数十年 并在ITU T建议P 800 页面存档备份 存于互联网档案馆 中标准化 它规定 讲话者应坐在安静的房间内 音量在 30 到 120 立方米之间 混响时间小于 500 毫秒 最好在 200 到 300 毫秒范围内 室内噪音水平必须低于 30 dBA 并且频谱中没有主峰 稍后在国际电联的建议中类似地规定了对其他模式的要求 使用质量模型的 MOS 估计 编辑获得 MOS 评级可能既耗时又昂贵 因为它需要招聘人工评估员 对于各种用例 例如编解码器开发或服务质量监控目的 应该重复和自动估计质量 也可以通过客观质量模型来预测 MOS 分数 这些模型通常是使用人类 MOS 评级开发和训练的 使用此类模型产生的一个问题是产生的 MOS 差异是否对用户来说是显而易见的 例如 当以五点 MOS 等级对图像进行评分时 MOS 等于 5 的图像的质量预计会明显优于 MOS 等于 1 的图像 与此相反 MOS 等于 3 8 的图像的质量是否明显优于 MOS 等于 3 6 的图像尚不清楚 为确定用户对数码照片可感知的最小 MOS 差异进行的研究表明 为了使 75 的用户能够检测到更高质量的图像 需要大约 0 46 的 MOS 差异 7 然而 图像质量期望 因此 MOS 随着用户期望的变化而随着时间的推移而变化 7 分析方法确定的最小显着 MOS 差异可能会随时间而变化 参见 编辑绝对类别评级 英语 Absolute Category Rating 李克特量表 MUSHRA 英语 MUSHRA ITU R BS 1534 建议书 客观的视频质量 主观视频质量 英语 Subjective video quality 参考文献 编辑 Huynh Thu Q Garcia M N Speranza F Corriveau P Raake A Study of Rating Scales for Subjective Quality Assessment of High Definition Video IEEE Transactions on Broadcasting 2011 03 01 57 1 1 14 ISSN 0018 9316 doi 10 1109 TBC 2010 2086750 Hossfeld Tobias Heegaard Poul E Varela Martin Moller Sebastian QoE beyond the MOS an in depth look at QoE via better metrics and their relation to MOS Quality and User Experience 2016 12 01 1 1 2 ISSN 2366 0139 arXiv 1607 00321 nbsp doi 10 1007 s41233 016 0002 1 英语 Jamieson Susan Likert scales how to ab use them Medical education 38 12 2004 1217 1218 Streijl Robert C Stefan Winkler and David S Hands Mean opinion score MOS revisited methods and applications limitations and alternatives Multimedia Systems 22 2 2016 213 227 Pinson M H Janowski L Pepion R Huynh Thu Q Schmidmer C Corriveau P Younkin A Callet P Le Barkowsky M The Influence of Subjects and Environment on Audiovisual Subjective Tests An International Study PDF IEEE Journal of Selected Topics in Signal Processing October 2012 6 6 640 651 2022 01 24 ISSN 1932 4553 doi 10 1109 jstsp 2012 2215306 原始内容存档 PDF 于2022 01 24 Zielinski Slawomir Francis Rumsey and Soren Bech On some biases encountered in modern audio quality listening tests a review Journal of the Audio Engineering Society 56 6 2008 427 451 7 0 7 1 Katsigiannis S Scovell J N Ramzan N Janowski L Corriveau P Saad M Van Wallendael G Interpreting MOS scores when can users see a difference Understanding user experience differences for photo quality Quality and User Experience 2018 05 02 3 1 6 ISSN 2366 0139 doi 10 1007 s41233 018 0019 8 取自 https zh wikipedia org w index php title 平均意见分数 amp oldid 69938727, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。