口味测试中,如何准确测算品牌和产品配方各自的影响力?
大多数口味测试的首要目标是确定每种产品相对吸引力。
为此,标准口味测试会展示两种去除了所有品牌标识的产品,并通过循环提供样品顺序来控制顺序效应。
如果评估品牌的影响也是目的之一,则会要求受访者对两种产品进行第二次的比较,并只在这一次测试的产品上打上品牌标签。
毫无疑问,这种设计是可行的,但我们也可以做一些事情来优化它:
1.我们可以提高测试设计的能力,也就是差异存在时检验出具有统计学意义上显著性差异的能力。
当提高了测试设计的能力,我们还能相当精确地确认两种被测产品之间的差异有多显著。
差异越不显著,品牌因素就越有可能驱动产品偏好。
差异越显著,非品牌因素就越有可能驱动产品偏好。
2.我们可以使用一种解释框架。这种框架由品牌的影响力(即品牌因素决定产品偏好的程度)和配方的影响力(即非品牌因素驱动产品偏好的程度))来定义。
因为对于任何一种产品来说,影响力都是一个“零和命题”,产品的品牌影响力及其配方影响力是密切相关的,是一个整体中相互关联的两个部分。
也就是说,在两种产品的直接比较中,产品品牌的影响力越大,其配方的影响力就越小。
反之,产品配方的影响力越大,其品牌的影响力就越小。
由品牌影响力和配方影响力定义的解释框架提供了观察和思考问题的视角或方式,并由此产生有价值的洞察。
例如,在配方保持不变的情况下,这一框架可对每种品牌的影响力进行苛刻的测试(见下文)。
当两种产品进行比较时,每种产品的品牌影响力和每种产品的配方影响力都是这一特定比较的结果,当这些产品中的任何一个与另一种产品进行比较时,可能会有很大的不同。
尽管如此,在与主要竞争对手的产品进行比较时,了解产品的品牌影响力和配方影响力可以为了解产品表现的原因提供新洞察,而这些洞察也同样为产品的营销效果产生影响。
01 三组测试
Three trials
让我们来看一个假设的例子。
假设我们想了解百事可乐与可口可乐的竞争情况。
我们先让受访者进行三组测试,在这三组测试中,受访者得到的样品都没有品牌标识。我们只是告诉他们,在每次测试中,他们将品尝两种可乐。
在第一组测试中,受访者要么先品尝百事可乐后品尝可口可乐,要么先品尝可口可乐后品尝百事可乐。
在第二组测试中,两种产品的提供顺序与第一组测试的相反。
在第三组测试中,50%受访者两次都品尝百事可乐,50%受访者两次都品尝可口可乐。
在第四组测试中,受访者在品牌明示的情况下品尝比较百事可乐和可口可乐。所有受访者要么先品尝百事可乐后品尝可口可乐,要么先品尝可乐后品尝百事可乐。
在每组测试的最后,受访者需选出他们更偏好第一个还是第二个样品,或无偏好。
他们基于品牌和配方的某种组合的选择,为配方的影响力提供了基准,在一定程度上也为品牌的影响力提供了基准。
02 样品顺序
Order of presentation
前面的测试设计使我们能够识别出哪些受访者的偏好受样品提供顺序的影响,以及/或哪些受访者在正确答案为“无偏好”时表达了偏好。
因此,我们可以将这些受访者排除在分析之外,这样可以提高我们使用的统计分析发现差异的能力,从而增强测试设计的影响。
让我来解释一下。
标准设计的缺陷是会产生大量“噪音”。
当存在显著差异时,噪声数据会使检测这些差异变得更加困难。
在标准设计中,噪音有两个来源:
1.基于样本提供顺序而非产品之间的差异做出选择的受访者,即在前两次测试中偏好不同产品的受访者。
2.在第三组测验中品尝两种相同的产品样品时,表达了偏好的受访者。
标准设计无法区分基于产品本身的偏好和基于产品提供顺序的偏好,因此通过循环展示顺序来控制其影响。
遗憾的是,循环展示顺序并不能消除分析中的任何噪音。
相反,它给每种情况(“偏好产品 A”和“偏好产品 B”)分配了大致相等的数量,这使得即使存在统计意义上的显著差异,也很难发现。
当被测试的两种产品之间的差异很大时,噪音的数量大概可以忽略不计或根本不存在。
但是,当两种被测产品之间的差异较小时,噪音的数量可能会相当大。
更糟糕的是,标准设计无法识别那些在获得两种相同产品样本时表达了偏好的受访者(噪音),因此也无从处理。这些受访者的偏好被当作是由于产品之间的差异而产生。其结果则是产生了更多的噪音。
为了说明建议设计(proposed design,或译为新设计)所能带来的不同,我们来看看两种情景 (下表)。
在每种情况下,70% 的受访者的偏好是受两种被测产品之间的差异所驱动的。另外20% 的受访者会根据产品提供顺序做出选择,10% 的受访者会在得到两个相同产品样品时做出有所偏好的选择——该现象两个品牌出现的概率相同(虽然我们希望这些选择能够平均分配,但情况并非总是如此。这种情况下,就会错误地增加缩小或扩大被测产品之间的误差)。
在受访者中,有 60% 的人的偏好取决于两种被测产品之间的差异,他们更倾向于选择 A 品牌。
在第一种情景中,使用的是标准设计;在第二种情景中,我们使用的是建议设计(新设计)。
让我们来看看这些数字。
新设计能够识别并从分析中剔除由产品提供顺序驱动决策的受访者,以及在提供两种相同产品样本时表达了偏好的受访者。
最终,观察到的偏好水平分别为60% 和40%——差值为 20%。
相比之下,标准设计无法剔除这两个来源产生的噪音,这使得更难发现存在统计学意义上的显著差异,由此观察到的偏好品牌 A 的占比与观察到的偏好品牌 B 的占比之间的差异缩小到了 14%。
然而,新设计在分析中排除噪音的同时也付出了一些代价,即样本量缩小了。
例如,如果两种设计都基于 200 名受访者开始,标准设计将使用全部(200个)样本来确定 57% 和 43% 之间的差异是否显著。
相比之下,新设计将以140个样本为基础,对其 60% 和 40% 进行比较。
由于测试设计的能力在某种程度上与样本量相关,因此该设计会降低能力。
事实上,研究开始时的样本量越少,被排除在分析之外的受访者占比越大,新设计的能力就越小。
如果有相当大比重的受访者被排除在分析之外,比如 60%以上,那么无论采用哪种设计,两种产品之间的差异可能会由于过小而无法得出可靠的检测结果——这是很有价值的信息,这就是为什么说能测量噪音量是新设计的一个重要优点的原因。
由于能够识别产生的噪音的程度,新设计能够相当精确地告诉我们两种被测产品之间的差异有多显著。以下四个百分比的总和越大,差异就越不显著:
-
当两个样本相同时,偏好受样品顺序的影响,但最终没有表达偏好的受访者占比。
-
当两个样本相同时,偏好不受样品顺序的影响,但最终表达了偏好的受访者占比。
-
当两个样本相同时,偏好受样品顺序的影响,但最终表达了偏好的受访者占比。
-
无偏好的受访者占比。
回到我们假设的例子。
当受访者在第四组测试中对标注品牌百事可乐和标注品牌可口可乐的样品分别进行品尝时,假设45%的受访者偏好百事可乐,45%的受访者偏好可口可乐,10%的受访者没有偏好。
当这些饮料没有标注品牌时,假设50%的受访者偏好百事可乐,30%的受访者偏好可口可乐,10%的受访者没有偏好,10%的受访者的偏好基于样品顺序和/或在两个样品相同时表达了偏好。
如果我们在分析中排除这10%以及没有偏好的10%,我们会发现63%偏好百事可乐,38%偏好可口可乐。
在直接比较中,这些结果告诉我们关于可口可乐和百事可乐的几个重要信息:
-
百事可乐的配方比可口可乐的配方更有影响力。
-
百事可乐的配方比其品牌更有影响力。
-
可乐品牌比可乐配方更有影响力。
如上所述,被排除在分析之外的受访者比例越大,两种产品之间的差异就可能越不明显。因此,两种产品配方的影响力也会越低。
在我们的例子中,20%的受访者被排除在分析之外。如果这个比例是80%,我们将不得不得出结论:
当比较百事可乐品牌与可口可乐品牌时,大多数受访者所表达的偏好都是由品牌的力量所驱动的。
至此,我们对配方的影响力已经了如指掌。
不过,我们可以通过对新的受访者样本进行另一次测试,进一步了解每个品牌的影响力。
03 配方保持不变
Formula constant
这项测试是通过保持配方不变而改变品牌来进行的,这样我们就能在配方之间没有差异的情况下确定每个品牌的影响力。
共有四组测试,每个受访者被随机分配到其中一组测试中,并只参加该次组测试:
1.在第一组测试中,受访者两次都品尝百事可乐,但被告知第一次品尝的是百事可乐,第二次品尝的是可口可乐。
2.在第二组测试中,受访者两次都品尝百事可乐,但被告知第一次品尝的是可口可乐,第二次品尝的是百事可乐。
3.在第三组测试中,受访者两次都品尝可口可乐,但被告知第一次品尝的是百事可乐,第二次品尝的是可口可乐。
4.在第四组测试中,受访者两次都品尝可口可乐,但被告知第一次品尝的是可口可乐,第二次品尝的是百事可乐。
与这些偏好进行比较的基准是0%。
我们使用0%,是因为每个品牌都必须克服配方之间不存在差异的问题,这使得测试要求异常苛刻。
这个范围的上限是受访者在品尝标签为百事可乐以及标签为可口可乐时,对每个品牌的偏好的比例。
通过这一测试,对某一产品的偏好越接近这一上限,该产品的品牌影响力就越大。