当前位置:首页 > 网络安全 > 正文内容

短视频运营课程哪个好,小白短视频怎么做落地课

访客3年前 (2022-02-02)网络安全1043

  随着“成长黑客”概念的盛行,甲乙

  

  

  测试作为“数据驱动增长”的最佳实践,受到国内外众多公司的青睐。很多童鞋想了解A/B测试,但不知道从何下手。基于A/B测试的六个环节,本文作者分享了A/B测试入门指南。推荐对此感兴趣的童鞋阅读分享~

  

  

  

  

  

  随着“增长黑客”概念的盛行,A/B测试作为“数据驱动增长”的最佳实践,受到国内外众多公司的青睐。

  

  

  A/B测试的目的是通过科学的测试设计和高效准确的流分割算法获得具有代表性的测试结论,并将结论扩展到所有流。目前,甲乙

  

  

  测试已广泛应用于产品交互设计、推荐算法、运营策略制定等方面,为公司在最优方案判断和决策过程中提供了有力的数据支持。

  

  

  由于关于A/B测试的市场信息比较零散,没有系统梳理,也缺乏标准化的A/B测试工具,所以我们结合了上百个A/B测试。

  

  

  测试服务和交付经验,总结沉淀了六个环节,即建立假设、确定评价指标、设计测试、运行测试和获取数据、结果分析和最终决策,帮助企业成功登陆A/B。

  

  

  测试,为客户带来价值。

  

  

  

  

  

  # 1.建立假设

  

  

  甲乙

  

  

  检验的核心原则是假设检验。先假设,再检验结果实验组和对照组根据数据辅助决策。一般来说,假设是成对出现的。如果我们认为实验组和对照组之间没有显著差异,就可以称之为零假设(H0)。相反,它被称为替代假说(H1)。

  

  

  在实验之前,我们需要确定我们想要达到的目标。比如我们希望通过优化注册流程来提高用户的注册转化率。对于这种场景,零假设意味着优化过程(实验组)和预优化过程(对照组)的用户注册转化率没有显著差异,而替代假设是两组结果有显著差异。

  

  

  另外,在建立假设的过程中,要注意两点:一是A/B检验本身属于因果推断,所以要先确定因果;第二,假设必须是可测量的。

  

  

  是的,需要有相应的评价指标来检验假设是否成立。

  

  

  # 2.确定评价指标

  

  

  配准过程优化的实验目的是提高配准转化率,因此配准转化率可以作为检验假设是否成立的评价指标。同时,评价指标也需要分级,确定唯一的核心指标,辅助多个观察指标,尽可能多角度评价测试结果。

  

  

  评价指标主要分为三类:核心指标、行车指标和护栏指标。

  

  

  ## 1\.核心指标

  

  

  通常只有一个核心数据指标,或者是极少数指标的集合,往往是一个公司或组织的核心。

  

  

  KPI,可以驱动核心业务价值,比如注册转化率(衡量注册流程优化测试的效果)和活动按钮点击率(评估某个推广活动测试的CTR)

  

  

  效果)、人均使用时间(评价一个推荐算法对用户粘性的改善效果)等。

  

  

  在确定核心指标时,需要满足两个关键原则:一是简单易懂,能够在公司/团队内部被广泛接受;二是相对稳定,不需要为一个新功能频繁更新核心指标。

  

  

  除了测量测试的效果,核心指标还可以用来计算测试所需的样本量(这将在后面详细描述)。可见,核心指标直接关系到测试的成败,需要重点关注。

  

  

  ## 2\.驾驶指示器

  

  

  驱动指标一般比核心指标短,变化更快、更灵敏,有助于我们更快、更全面地观察业务变化。我们可以通过两个案例了解更多信息:

  

  

  在产品促销实验中,核心指标是订单转化率和运营成本

  

  

  在视频推荐列表实验中,核心指标是人均播放视频数,驱动指标是人均完成率和观看时间。通过核心指标和多个驱动指标的协同来评价推荐算法的效果。

  

  

  从以上可以看出,驱动指标可以帮助我们从越来越全面的角度观察测试对业务的影响,尤其是发现问题时,可以帮助我们及时分析原因、调整策略,从而通过不断优化达到最终的测试目的。

  

  

  在确定驱动指标时,需要满足三个原则:一是驱动指标与核心指标的目标一致,能够直接反映业务变化;二是当指标发生变化时,有既定的优化指标的方式方法,具有可操作性和业务相关性;第三,驱动指标是核心指标的先行指标,需要足够敏感才能快速衡量大多数实验的效果。

  

  

  ## 3\.护栏指数

  

  

  护栏指数可以理解为保护商业的指数。在实际应用过程中,护栏指标的异常可以有效反映试验设计、基础设施、数据处理环节是否正常,可以帮助我们在评价试验效果时做出正确的取舍,避免短期指标优化对长期指标的影响,从而获得值得信赖的试验结果。

  

  

  例如,在实验中,我们为用户设置了一定的百分比来命中测试组(通常建议每组流量

  

平均分配),实际运行中如果发现样本量和构建时的预期不一致,那么可以猜测是否是分流服务出了问题,导致可信度降低。

  

# 三、设计试验

  

在确定试验评价指标之后,我们就可以开始进行试验设计,主要分为四个阶段:

  

## 1\. 选择正确的试验主体

  

试验主体是试验中进行分流的随机化单元,在试验时需确保分流主体与评价指标分析主体相同。 用户(通常为 user_id

  

)是当前主流的随机化单元。如果分流主体是用户,那指标分析主体也应该是用户,例如人均会话数、人均点击量、人均支付金额等。

  

在实际业务场景中,可能使用其他分流主体,比如设备主体(device_id),按照设备进行随机化,意味着每台设备产生的指标数据是独立的,比如在点餐机或者自动售卖机(一般为

  

Android

  

系统)的试验场景中,不需要用户进行登录即可下单购买,那么此时试验的分流主体和分析主体就是这个独立设备,可以用每台设备的平均下单时长(完成下单的总时长/独立设备数)作为评价指标,用来衡量下单页优化效果。

  

除了以上两个常用的试验主体外,也会存在其他主体,例如在推荐算法试验中,可以用推荐的页面(或推荐的商品)作为试验主体单位等,在评估选择使用哪种随机化单元(分流主体)时,需要结合具体试验场景来考虑,可以重点从用户体验一致性、分流主体和评价指标主体一致性两个角度综合评估。

  

## 2\. 确定试验目标受众

  

当我们假设了一个试验并选定试验主体时,需要进一步明确试验的受众范围,也就是说需要明确哪些用户参与到试验中。通常有完全随机和定向筛选两种方式:

  

* 完全随机,是指不做任何干预,所有的线上用户都是目标受众。

  

* 定向筛选,是以特定的用户群体为目标。比如,某在线教育 App 的会员活动试验中,想要通过不同活动来探索和提升用户的购买转化,便将新用户设定为目标群体。

  

需要注意的是,当使用定向筛选圈定受众意味着当前的试验效果只对这部分用户有效,并不能代表线上全量用户应用后都具备相同显著的效果。因此,在实验结束将新

  

Feature 固化到线上时,需要考虑有针对性的发布策略。

  

## 3\. 确定试验样本量

  

(1)样本量并非越多越好

  

我们都知道试验的样本量大小对结果的精确度有直接影响,从统计学理论来讲,越大的样本量意味着有更大的几率检测出很小的变化,得出的结论信度就越高。

  

但在实际业务场景中,当我们回收到优胜方案时应尽快发布给全量用户,这样才能扩大试验效果、实现业务的全面增长。另一方面,虽然 A/B

  

测试的目标是验证某个优化方案能够提升收入指标、改善用户体验,但试验总会伴随着未知、未被考虑到的风险,就有可能出现与假设截然相反的结果。因此,快速分析定位原因,及时调整试验就显得尤为重要,“快”是A/B

  

测试的重要优势,能够快速应用、扩大收益;快速得出结论驱动决策等。

  

在进行试验设计时,我们需要在实际业务场景和统计理论中做到平衡:既要保证足够的样本量,又要把试验控制在尽可能短的时间内。

  

(2)如何确定试验所需的最小样本量

  

样本量并不是越多越好,那么该如何确定样本的数量呢?这里我们需要了解一下中心极限定理,通俗地理解为:只要样本量足够大,无论是什么指标,无论对应的指标是如何分布的,样本的均值分布都会趋于正态分布。基于正态分布,我们才能计算出相应的样本量,作出假设与检验。

  

样本量计算背后的统计学逻辑较为复杂,计算公式如下:

  

  

从公式中我们可以看出,样本量主要由 α、Power、△ 和 σ^2

  

四个因素决定,当确定了这几个变量,也就确定了试验所需的样本量。相关统计原理详见文末「补充阅读」。[1]

  

目前市面上有很多样本量计算工具,其背后的统计逻辑基本一致,这里需要提醒大家的是,大部分工具都只能计算比率类指标,而均值类(绝对值类)指标的计算需要用到历史数据,通常只能利用公式来进行计算。

  

  

## 4\. 确定试验运行时长

  

只要试验结果显著,并且符合最小样本量,是否就可以停止试验了呢?答案是否定的。除了最小样本量之外,我们还需要考虑试验指标的周期性波动以及新奇效应影响。

  

(1)周期性

  

在实际业务运行过程中,往往需要考虑周期性带来的指标变化。比如,旅游行业在周末的用户访问量明显高于工作日;而办公软件的各项指标都证明在节假日的使用频率远低于工作日。因此,当需要考察的指标自身带有周期性特征时,那么在试验中就必须要考虑到周期性影响,不能单纯地根据结果显著性来做决策。我们通常会建议客户在合理的试验时间内至少包含一个完整的数据波动周期。

  

(2)新奇效应

  

在试验的初始阶段,可能会产生一些明显的效应,并在接下来的一段时间内趋于稳定。原因在于刚上线新策略时用户的兴趣值较高,从而引发新奇效应;随着时间推进,用户的新奇感会逐渐消失。所以,在做

  

A/B 测试时,我们需要评估引入的新策略能否引发新奇效应,从而判断当获得显著结果时,是否需要延长试验周期以得到稳定的结果。

  

# 四、运行试验并获取数据

  

虽然试验上线前我们已经做了充分的测试工作,但仍需要验证试验是否按照预期的设定正常运行。其中以下两项工作需要重点验证:

  

* 分流验证:分流比例和预期设定是否一致,不同分组策略是否正常展示,用户有无跳版本等。

  

* 数据验证:缺少有效、准备好的评估数据,再多的试验也是徒劳。

  

在确保试验正常运行的情况下,我们还需要对不同分组的数据进行观察分析,避免因为设计缺陷或者引入功能 bug,造成重大业务损失。

  

# 五、结果分析

  

A/B 测试能够高效驱动决策。在统计学中,会采用 P 值法和置信区间法评估结果显著性,这里我们详细介绍一下使用频率较高的置信区间法。

  

置信区间是一个范围,最常见的是 95% 的置信区间。如何理解呢?对于一个随机变量来说,95% 的概率包含总体均值的范围,就叫做 95%

  

的置信区间。也可以简单理解为总体数据有 95% 的可能性在这个范围内。

  

在 A/B 测试中,我们会计算两组指标的差异值,如果计算得出的差异值置信区间不含

  

0,那么就可以拒绝零假设,认为两组结果差异显著;反之则接受零假设,认为两组结果差异不显著。

  

  

# 六、数据驱动决策

  

运行 A/B 测试的终极目的为了提升业务指标。那么在收集试验数据到最终决策的过程中需要考虑哪些因素呢?

  

* 试验结果差异是否真实可信,是否具备统计显著性?

  

* 统计功效是否充足(通常根据是否大于 80% 来判定)?

  

* 试验放量之后会带来哪些风险,风险处理的预备方案是什么?

  

显著结果往往比较容易判断,可以通过增加统计功效来提升真实显著的几率。但对于一些差异不显著的试验,就需要在试验方案中做出取舍,我们需要明确决策对未来可能产生的影响,并让影响尽量控制在可预测的范围内,而非局限于根据某个单一指标来进行决策。

  

以上是一个完整 A/B 测试流程,后续我们将结合具体业务案例,深入探索试验各个环节,敬请期待!

  

补充阅读:

  

[1]

  

试验样本预估指南:https://manual.sensorsdata.cn/abtesting/latest/abtesting_SampleSize-58327106.html

  

作者:李世强,神策数据产品经理

  

本文由 @神策数据 原创发布于人人都是产品经理。未经许可,禁止转载。

  

题图来自Unsplash,基于CC0协议。

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:https://therlest.com/14774.html

分享给朋友:

“短视频运营课程哪个好,小白短视频怎么做落地课” 的相关文章

【紧急+重要】勒索病毒解决方案!附:MS17-010补丁下载

  滚动更新:2017年5月13日16:57:22   游侠安全网(良心网站,站长先贴上注意事项和解决方法!防止你看本文的时候就被加密了!   1、本次共计是自动化攻击,利用了Windows的MS17-010。但苹果的MacOS用户不用得意,因为在昨晚之前,我这里得到的好几起勒索攻击案例都是针对...

干洗对衣物有害吗

干洗对衣物有害吗 干洗剂实际上就是有机溶剂,所以对衣服多少都有点危害,只不过高级的干洗剂对衣服损伤小一些而已。 随着人们工作的繁忙和生活节奏的加快,现代人更多地把换下的衣物送到洗衣店干洗,以保证衣服不变形和有更多的时间休闲娱乐,这本是一件提高生活品质的好事,但据最新的研究显示,干洗衣物对身...

Webshell安全检测篇(1)-根据流量的检测方法

一、概述 笔者一直在重视webshell的安全剖析,最近就这段时刻的心得体会和咱们做个共享。 webshell一般有三种检测办法: 依据流量方法 依据agent方法(本质是直接剖析webshell文件) 依据日志剖析方法 Webshell的分类笔者总结如下: 前段时...

纯钛多少钱一斤,钛合金回收多少钱一斤

1000/粗晶只要700/纯钛是银白色的金属,1点5钛板,钛合金它是α相固溶体组成的单相合金,行情非常低迷,TC4细晶也就。 金属钛回收价格随着钛的市场价变化而变化,楼上的价格是从哪儿来的。不同型号,各类价格如何?请高手相助!至于合金钛,不同地区价格也不一样,52000一吨遵义的海绵钛。 元-30元...

记一次阿里云主机accesskey泄露到图形化工具开发

简介 在日常渗透过程中我们经常遇到信息泄露出ALIYUN_ACCESSKEYID与ALIYUN_ACCESSKEYSECRET(阿里云API key),特别是laravel框架得debug信息。APP中也会泄露这些信息。 !!!下载链接在文末!!! 概述 我们说下阿里API有什么用吧,以下是...

找网上黑客盗QQ号被骗,黑客找到微信好友,黑客破解密码的例子

Cortex-R:面向实时运用的高功能内核,Cortex-R系列是衍出产品中体积最小的ARM处理器。 Cortex-R处理器针对高功能实时运用,例如硬盘操控器(或固态驱动操控器)、企业中的网络设备和打印机、消费电子设备(例如蓝光播放器和媒体播放器)、以及轿车运用(例如安全气囊、制动体系和发动机办理)...

评论列表

森槿债姬
2年前 (2022-06-10)

论驱动决策等。  在进行试验设计时,我们需要在实际业务场景和统计理论中做到平衡:既要保证足够的样本量,又要把试验控制在尽可能短的时间内。  (2)如何确定试验所需的最小样本量  

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。