Skip to content

Instantly share code, notes, and snippets.

  1. 高并发投送系统
  2. 受众定向平台(hadoop)
  3. 数据高速公路
  4. 流式计算平台(反作弊,计价)
  1. 担保式投送

  2. 广告投放机

    三个基础的功能,点击率预测,流量预测,受众定向

二部图匹配问题,受限优化问题

display ad problem

adwords problem

其他问题,Maximally Representative allocation

拉格朗日法,将问题转为对偶问题

常用统计模型

  1. 指数族分布(高斯分布,multinomial,最大熵),最大似然估计可通过充分统计量链接到数据。跟参数维度有关,跟数据量无关。 map阶段,收集充分统计量,reduce更新模型 在mapper中仅仅生成比较紧凑的统计量,其大小正比于模型参数量,与数据量无关

  2. 指数族混合分布(高斯混合模型,隐马尔科夫,PLSI),ML估计通过EM算法迭代。

  3. 梯度分布(原始的方法)

  1. 为AUC打标签的过程 上下文标签可以认为是即时受众标签
  2. 标签的两大作用 建立面向广告主的流量售卖体系 为各估计模块提供原始特征
  3. 常见受众定向方式 重定向f(a, u),明确解释推荐原因,符合用户兴趣,广告在用户理解的范围内--最有效 人口属性--不是很有效 地域 上下文f(c)
1. 对用户历史行为打标签
按兴趣强烈程度
交易,购物前的行为,搜索广告的点击,普通广告的点击,搜索点击,搜索,分享,页面浏览,广告浏览
每一种行为通过tagger打一个标签,计算标签强度(简单来家同一个标签出现的次数)
tagger是一个ML的问题。强度越强的数量越少
  1. cache: url -> 特征表

  2. 话题模型 PLSI,LDA,GaP 经验贝叶斯

    LDA可以视为PLSI的经验贝叶斯版本

    PLSI不是指数族分布,不能使用EM算法

可用变分近似,叫做VBEM简单,但无法保证收敛到局部最优

精准广告的误区

  1. 越精准的广告,给市场黛拉的价值越大
  2. 媒体利益与广告主利益是相博弈的关系
  3. 精准投放加上大数据可以显著提高营收
  4. 人群覆盖率较低的数据来源是不需要的
  5. 不同的广告产品应该采用不同的投放机

用户标示,cookie,ID, 用户行为,9种,去除热点话题带来的偏差

竞价系统理论

  1. 位置拍卖
  2. 对称纳什均衡
  3. 定价机制,VCG--对象的首位应等于给他人带来的价值损害,广义第二高价--会收取广告主更多的费用
  1. 淡化广告位概念
  2. 最合适的计价方式是CPC
  3. 不易支持定制化的用户划分