Skip to content

Instantly share code, notes, and snippets.

  1. 布尔表达式搜索
  2. 长Query情况下的相关性检索 切掉理论上不再需要考虑的文档,当相关性函数为线性时,存在有效的剪枝算法 WAND检索算法
  1. 淡化广告位概念
  2. 最合适的计价方式是CPC
  3. 不易支持定制化的用户划分

竞价系统理论

  1. 位置拍卖
  2. 对称纳什均衡
  3. 定价机制,VCG--对象的首位应等于给他人带来的价值损害,广义第二高价--会收取广告主更多的费用

精准广告的误区

  1. 越精准的广告,给市场黛拉的价值越大
  2. 媒体利益与广告主利益是相博弈的关系
  3. 精准投放加上大数据可以显著提高营收
  4. 人群覆盖率较低的数据来源是不需要的
  5. 不同的广告产品应该采用不同的投放机

用户标示,cookie,ID, 用户行为,9种,去除热点话题带来的偏差

  1. cache: url -> 特征表

  2. 话题模型 PLSI,LDA,GaP 经验贝叶斯

    LDA可以视为PLSI的经验贝叶斯版本

    PLSI不是指数族分布,不能使用EM算法

可用变分近似,叫做VBEM简单,但无法保证收敛到局部最优

1. 对用户历史行为打标签
按兴趣强烈程度
交易,购物前的行为,搜索广告的点击,普通广告的点击,搜索点击,搜索,分享,页面浏览,广告浏览
每一种行为通过tagger打一个标签,计算标签强度(简单来家同一个标签出现的次数)
tagger是一个ML的问题。强度越强的数量越少
  1. 为AUC打标签的过程 上下文标签可以认为是即时受众标签
  2. 标签的两大作用 建立面向广告主的流量售卖体系 为各估计模块提供原始特征
  3. 常见受众定向方式 重定向f(a, u),明确解释推荐原因,符合用户兴趣,广告在用户理解的范围内--最有效 人口属性--不是很有效 地域 上下文f(c)

常用统计模型

  1. 指数族分布(高斯分布,multinomial,最大熵),最大似然估计可通过充分统计量链接到数据。跟参数维度有关,跟数据量无关。 map阶段,收集充分统计量,reduce更新模型 在mapper中仅仅生成比较紧凑的统计量,其大小正比于模型参数量,与数据量无关

  2. 指数族混合分布(高斯混合模型,隐马尔科夫,PLSI),ML估计通过EM算法迭代。

  3. 梯度分布(原始的方法)

二部图匹配问题,受限优化问题

display ad problem

adwords problem

其他问题,Maximally Representative allocation

拉格朗日法,将问题转为对偶问题

  1. 担保式投送

  2. 广告投放机

    三个基础的功能,点击率预测,流量预测,受众定向