bwin足球下载继续这个博客系列,bwin足球下载相信会让您清楚地了解Aarki是如何找到充分理解的方法的, 测验, 优化创意广告,确保目标用户看到最好的广告形式. 阅读下文,了解有关上下文创造性选择足球网.
将创造性的A/B测试(以及任何类型的A/B测试)作为一个框架是非常有用的 multi-armed强盗 问题. 在“naïve”公式中, bwin足球下载的目标是学习和探索多种创造性变体的奖励分配 V1, V2, ... VK,同时优化总奖励——通常是广告商的KPI.
经典的贝塔-伯努利强盗公式做了一个相当强的假设- i的奖励概率th 变体,θi,不依赖于上下文. 在现实中, 特别是在bwin足球下载方面, 不同的用户对不同的创意变体有不同的反应. 也, the reward distribution of a particular creative variant may change with time; for example, 季节性创意可能会失去相关性.
bwin足球下载将探索Beta-Bernoulli强盗的一个简单扩展,以合并一个通用的特征向量 x 进入奖励分配. 这可以是上下文、时间和行为特征的结合.
配方
回想一下,在经典的贝叶斯贝塔-伯努利强盗公式中,bwin足球下载假设
θ ~ β (1 + P, 1 + N - P)
因为bwin足球下载使用的是二元奖励, 很自然地,每个强盗的奖励分配都是贝叶斯逻辑回归问题. 给定一个 d-维特征向量 x,
w ~ Nd(0, λ-1 Id)
θ = σ(x · w)
简要地总结一下bwin足球下载在过去的文章中概述的贝叶斯逻辑回归的后验推理方法, bwin足球下载用梯度下降法来求 mMAP, 回归系数的后验模态, 然后使用拉普拉斯近似来学习后验精度 q. 这给出了系数后验分布的高斯近似,
w* ~ Nd(mMAP, q)
策略
有了这个后验分布, bwin足球下载有几个与“非上下文”Beta-Bernoulli强盗探索策略类似的上下文策略. bwin足球下载总结如下.
- ε贪婪. bwin足球下载随机选择有创意的变体来收集一个训练集(一个“磨合”期). 在磨合期之后, we r而且omly choose a variant for a fraction ε of traffic; for the remaining traffic, bwin足球下载计算奖励概率θ = σ(x · mMAP),并根据上下文选择奖励概率最高的变量 x.
- 上置信界(UCB). bwin足球下载选择系数 w联合银行(90) 使用90th 后验分布的分位数 w*. 然后bwin足球下载计算奖励概率θ = σ(x · w联合银行(90)),按上述步骤进行.
- 汤普森抽样. 类似于吉布斯抽样,bwin足球下载从后验分布中抽样 w*. bwin足球下载用这些样本计算奖励概率θ, 从θ上的后验分布中有效地产生样本,然后像上面那样进行.
挑战
拟合在线贝叶斯逻辑回归模型所需的数据量与数据集的维数成正比. 在创造性测试的早期阶段, 上下文强盗可能表现出较差的预测性能(有效地, 冷启动问题). 缓解这个问题的一些可能的解决方案是
- 使用积极的特征选择和降维技术. 这在某种程度上是适得其反的, 强盗模型的目标之一是有效地挖掘新的库存.
- 使用杂交技术, 随着变量收集更多的训练数据,从Beta-Bernoulli匪类逐步过渡到高维逻辑回归匪类.
留意bwin足球下载的 足球网 而且 联系bwin足球下载 现在学习更多关于编程和人工智能如何提供结果的知识.