Skip to content

Instantly share code, notes, and snippets.

  1. 布尔表达式搜索
  2. 长Query情况下的相关性检索 切掉理论上不再需要考虑的文档,当相关性函数为线性时,存在有效的剪枝算法 WAND检索算法

可以视为query为a,对(u,c)进行检索,由于(u,c)联合空间过大,可以单独对u,c检索

paxos算法

  1. p(click | a,u,c)
  2. 回归(Regression)比排序(Ranking)更合适
  3. cold-start,利用广告层级结构(creative,solution,campaign,advertiser),以及广告标签对新广告点击率做预测
  4. 捕获点击率的动态特性,快速调整特征,快速调整模型

视角1,逻辑回归是广义线性模型在Binomial error情形的特例

视角2,最大熵模型在类数目等于2的情形特例

  1. L-BFGS,Quasi-Newton方法的一种,Hession阵要正定 将n x n的矩阵用另外一种方法近似

  2. ADMM,减少迭代,拉格朗日的解法(augmented lagrangian)

  1. 长尾的(a,u,c)组合

  2. Multi-arm Bandit问题

有限个arms,代表每一个a,每一个有有限的确定收益

目的是在每个时刻t,我们必须从arms中选择一个,最终目标是优化整体收益

  1. 挑战 海量空间需要被探索,每个arm期望收益是动态变化的

广告网络的特殊形式

  1. 用户定向标签f(u):远远弱于上下文影响,一般可以忽略
  2. Sessin内的短期用户行为很重要

查询词扩展

  1. 基于推荐的方法
  2. 基于语义的方法

Trading Desk

  1. 非RTB流量的ROI优化

  2. 目标 给定总预算,再多广告网络中采买并优化ROI

  3. 若干关键问题

    在合适的流量segment上投放广告

Ad Exchange

  1. 目的,
  2. 关键特征,用实时竞价的方式链接广告和上下文,用户
  3. 按照展示收取费用
  4. cookie mapping 三个核心问题,谁发起?在哪发起?谁存mapping表?
@magigo
magigo / spark_test.py
Created March 24, 2015 10:26
Spark 1.3.0 PyCharm 本地开发环境例程
import os
import sys
import traceback
import json
# Path for spark source folder
os.environ['SPARK_HOME']="/Users/jilu/Downloads/spark-1.3.0-bin-hadoop2.4"
# Append pyspark to Python Path