博客首页|TW首页| 同事录|业界社区
2017-04-26

在DMP中,对大数据的各种维度分析、分类、打标签,通过机器学习挖掘出数据中蕴藏的宝藏,是十分有技术含量的技术活儿。下面简单介绍一些常用的,对数据样本进行学习训练及回归验证的分析算法及、常规做法及核心流程。

样本训练

对原始样本数据训练可选择的算法有很多,常见的有:逻辑回归算法(logistic regression)、决策树算法(decision tree)、支持向量机算法(support vector machine)、神经网络算法(neural network)、朴素贝叶斯(Naïve Bayes,NB)分类算法等等。(实操中往往数据比算法更重要,解决问题的算法有很多,只要收集的数据质量较好,那么利用恰当的算法,往往比复杂算法对于质量较差的数据时能取得的效果更好。通常情况下数据比算法要重要。)

  • 逻辑回归算法:

逻辑回归是比较常用的机器学习方法,是一种分类学习方法。使用场景大概有两个:第一用来预测,第二用来寻找feature(特征值)变量对target(目标值)变量的影响因素。通过历史数据的表现,对未来结果发生的概率进行预测。例如,我们可以将某用户购买某商品的可能性,以及某广告被用户点击的可能性的概率设置为target(目标值)变量,将用户的特征属性,例如性别,年龄,地域、时间、广告请求各种维度的数据等等等,设置为feature(特征值)变量。并根据这些历史feature属性对target(目标值)变量的影响程度,及之间的关系,以此来预测某类feature(特征值)变量出现时,target(目标值)变量出现的概率。其中target变量是我们希望获得的结果,feature变量是影响结果的潜在因素,feature变量可以有一个,也可以有多个。一个feature变量的叫做一元回归(如图9-2所示),超过一个feature变量的叫做多元回归。

图9‑2逻辑回归算法示例

逻辑回归的适用性:

1) 可用于概率预测,也可用于分类。并不是所有的机器学习方法都可以做可能性概率预测。可能性预测的好处是结果有可对比性:比如我们得到不同广告被点击的可能性后,就可以列出点击可能性最大的N个。这样一来,哪怕得到的可能性都很高,或者可能性都很低,我们都能取出最优的topN。当用于分类问题时,仅需要设定一个阈值即可,可能性高于阈值是一类,低于阈值是另一类。

2) 仅能用于线性问题:只有在feature(特征值)和target(目标值)是线性关系时,才能用逻辑回归。这有两点指导意义,一方面当预先知道模型非线性时,果断不使用逻辑回归;另一方面,在使用逻辑回归时,注意选择同target(目标值)呈线性关系的feature(特征值)。

3) 各feature(特征值)之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。逻辑回归不像朴素贝叶斯那样,需要满足条件独立假设(因为它没有求后验概率)。但每个feature的贡献是独立计算的,所以逻辑回归是不能自动组合聚类出不同的features而产生新feature的。

  • 决策树算法:

决策树算法是借助于树的分支结构来实现分类的。树的内部结点表示对某个属性的判断,该结点的分支是对应的判断结果;叶子结点代表一个类标。决策树算法借助于树的分支结构实现分类。

如图9-3所示,是一个决策树的示例:一个预测某人是否会购买电脑的决策树,利用这棵决策树,可以对数据进行分类,从根节点(年龄)开始,若某人的年龄为中年,就直接判断这个人会买电脑,若是青少年,则需要进一步判断是否是学生;若是老年则需要进一步判断其信用等级,直到叶子结点可以判定记录的类别。

图9‑3决策树示例

决策树算法有一个好处,那就是它可以产生人能直接理解的规则,这是贝叶斯、神经网络等算法没有的特性;决策树的准确率也比较高,而且不需要了解背景知识就可以进行分类了,是一个非常有效的算法。决策树算法有很多变种,包括ID3、C4.5、C5.0、CART等,但其基础都是类似的。

  • 支持向量机算法:

支持向量机(SupportVector Machine,SVM)是一种常见的半监督式学习算法。支持向量机是Corinna Cortes和Vapnik等,于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出很多特有的优势,并推广应用到函数拟合等等其他机器学习的领域。通过寻求结构化风险最小,来提高机器学习能力。实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,也能获得良好统计规律的目的。通俗讲就是,她是一种二类分类器,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略就是间隔最大化,最终可转化为一个凸二次规划问题的求解。

具体原理:

1) 在n维空间中找到一个分类超平面,将空间上的点分类。如图9-4所示为线性分类的例子。

图9‑4线性分类示例

2) 一般而言,一个点距离超平面的远近,可以表示为分类预测的确信或准确程度。SVM就是要最大化这个间隔值。而在虚线上的点便叫做支持向量Supprot Verctor。如图9-5所示为SVM分类的示例。

图9‑5 SVM分类示例

3) 实际中,我们会经常遇到线性不可分的样例,此时,我们的常规做法是,把样例特征映射到高维空间中去,如图9-6所示。

图9‑6高维空间映射示例

4) 线性不可分映射到高维空间,可能会导致维度高的十分严重(甚至无穷维的例子),导致计算复杂。这个时候,常常会使用核函数,核函数的价值在于她虽然也是将特征进行从低维到高维的转换,但核函数事先在低维上进行计算,而将实质上的分类效果表现在高维上,避免了直接在高维空间中的复杂计算。

5) 很多时候,会使用松弛变量来应对数据噪音。

SVM的优点:

1) SVM学习问题可表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。

2) 举个例子:假设现在你是一个农场主,圈养了一批羊,但为预防狼群袭击羊群,你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢?你很可能需要依据牛群和狼群的位置建立一个“分类器”,如图9-7所示,比较图中这几种(SVM、逻辑回归、决策树)不同的分类器,我们可以看到SVM提供了一个很好的解决方案。这个例子从侧面简单说明了SVM使用非线性分类器的优势。

图9‑7 SVM、逻辑回归、决策树分类结果对比示意

  • BP神经网络算法:

BP(Back Propagation)神经网络是一种按“误差逆传播算法训练”的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP神经网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。她的学习规则是使用梯度下降法,通过反向传播(就是一层一层往前传)来不断调整网络的权值和阈值,使网络的误差平方和最小。如图9-8所示,BP神经网络模型拓扑结构包括输入层(input)、隐层(hidden layer)和输出层(output layer)。利用输出后的误差来估计输出层前一层的误差,再用这层误差来估计更前一层误差,如此获取所有各层误差估计。这里的误差估计可以理解为某种偏导数,我们就是根据这种偏导数来调整各层的连接权值,再用调整后的连接权值重新计算输出误差。直到输出的误差达到符合的要求,或者迭代次数溢出设定值(有监督学习)。BP的传播对象就是“误差”,传播目的就是得到所有层的估计误差。她的学习本质就是:对各连接权值的动态调整。

图9‑8 BP神经网络模型拓扑结构示意

  • 贝叶斯算法:

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题是缺少足够的信息,来构造100%正确的映射规则的,而是通过对经验数据的学习,从而实现一定概率意义上正确的分类,因此所训练出的分类器,并不一定能将每个待分类项,准确映射到其分类中,分类器的质量与分类器构造方法、待分类数据的特性、以及训练样本数量等等诸多因素有关。

  • 贝叶斯定理

贝叶斯分类的基础:贝叶斯定理,这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:

P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式详细见公式9-1:

公式9‑1求解公式

贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通了从P(A|B)获得P(B|A)的道路。贝叶斯定理见公式9-2:

公式9‑2贝叶斯定理

  • 朴素贝叶斯分类

朴素贝叶斯分类是一种十分简单的分类算法,朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。打个比方,如果你在街上看到一个黑人,让你猜他哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。整个朴素贝叶斯分类分为三个阶段:

(一)第一阶段:准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当的划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

(二)第二阶段:分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率,及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性计算阶段,可由程序自动计算完成。

(三)第三阶段:应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,可由程序完成。

下篇我们将继续介绍:回归验证

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-18

摘要:无意中翻出10年前对互联网产品创新可能的变量的梳理,以及社区类产品的梳理。以及分析梳理概念的方法论。发出来一起共勉及纪念一下。

互联网需求,产品设计变化的变量:

社区模型:

SNS的兴起:

产品梳理:

1.以SNS为核心的社区应用服务平台。包含BBS、Blog、CMS、SNS等4个产品。

BBS:定位于话题讨论;(用户产生内容)

Blog:定位于个人(团体)信息发布; (用户产生内容)

CMS:定位于网站内容采、编、发;(网站推送内容)

会员中心:定位于会员互动中心,在各产品间起到会员粘合、信息贯通的作用。

2. 产品理念

使用户能够:随时随地地发现、分享、交流、互动、展示,并从中得到收益。使网站能够:

  • 增强会员互动,提升网站粘性。
  • 促进网站内容传播,提升网站PV。
  • 激发用户产生内容,提升网站价值。
  • 聚合用户需求,有效定向营销。

3. 产品功能构成

3.1 各产品重点-BBS(以内容为中心,突出交流)

3.2 各产品重点-Blog(以人为中心,突出展示、分享、交流)

3.3 各产品重点-会员互动中心(以人为中心,突出发现、分享、互动)

分析方法论:

什么是领域(概念)模型?

从不同视角,不同用途对实际业务场景进行归纳总结,并将总结出的概念组织起来解释这些实际业务

针对专一业务领域归纳总结出的这些概念及由这些概念组织起来的体系称之为概念模型

必要条件:

1.这些概念必须自成体系,能够自圆其说。

2.组织起来能完全解释实际业务

怎么找出领域模型?

分析方法:主谓宾定状补,名词法动词法,关系实体法,状态机法

寻找数学模型(穷举,抽象)

软件设计模型介绍(软件全命周期介绍):

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-17

5月28日15点机械工业出版社3号楼10层会议室流水课通知“大数据基础(下)”

4月15日,程序化广告流水课第8期刚刚举办完毕,吴俊老师给我们来了一场营销大数据的知识盛宴,内容覆盖DMP、cookiemapping等内容。虽然活动从下午3点持续到5点半,但关于大数据的内容还没有讲完,所以在5月28日这期活动中继续讲解大数据,内容包含线上线下数据的打通、DMP案例等相关内容。

另外,每次活动结束后,我们都会征询同学们的建议,以此来优化我们的活动。在此次活动中,有些同学提供了宝贵的建议,比如商汤科技的张帆提出来,可以在分享之前找一位同学分享在工作中遇到的问题,这样就可以在吴俊老师的分享中有的放矢的解决这些实战问题,又比如时趣互动的文静提出来可以把产品相关的知识讲的更深入,这样对于她作为一个产品经理来说更有针对性,另外还有恒益九州的周刚、亿利集团的朱楠、力美的赵荣等等同学提出了宝贵建议。我们程序化广告这个平台会认真听取每位同学的心声。所以,也许在以后的活动中,会有一些新的好玩的内容或形式,加入到活动中。让我们拭目以待吧!

以下为5月份的活动安排,我们不见不散:

活动时间:2017年5月28日 周六下午 15:00——17:00

活动详细安排:

14:50-15:00  签到与自我介绍

15:00-16:30  吴俊老师分享

16:30-17:00  全体同学自由social时间

在讲解过程中,如果你有任何问题,可随时提问。

活动地点:北京 西城区 百万庄大街22号机械工业出版社3号楼10层会议室

乘车路线:地铁6号线 车公庄西站 D西南口出。

报名方式:

第一步:添加微信号:13121124046(伍刀刀);

第二步:填写报名表,并缴纳200元报名费(单次体验票¥200,欢迎大家选购超实惠的¥1920年包套餐、或¥4188VIP年包套餐);

第三步:活动当天来到活动现场签到参与。

另外,为了满足无法亲临现场同学的需求,此次活动我们增加了线上同步直播及视频回看。

如何参加线上直播及视频回看?

第一步:添加微信号:13121124046(伍刀刀);

第二步:填写报名表,并缴纳200元报名费;(单次体验票¥200,欢迎大家选购超实惠的¥1920年包套餐、或¥4188VIP年包套餐);

移动端、PC直播地址:

 http://mudu.tv/watch/772943

第三步:我们会将以您手机号作为唯一识别码加入直播间,给您可以在线直播互动及视频回看的课程地址参与活动。

直播将以视频形式进行,而且能够进行互动,我们将回答您在直播间提出的每个有价值的问题。而且若您时间上冲突,依然可以等有空的时候回看即可。

如您在报名中遇到任何问题,请拨打电话或添加微信:13121124046(伍刀刀)随时联系我们。

吴俊老师简介:

吴俊老师是中国广告PDB(Programmatic Direct Buy 私有程序化购买)第一人。现任掌慧纵盈高级产品总监,专注于线下数据线上打通营销解决方案,推动数字营销新升级。

更多朋友们对于吴俊老师的了解来自于他此前在品友的工作经历。吴俊老师是原品友负责PDB/移动/流量的产品总监,拥有16年以上IT/互联网行业从业经验和超过5年的程序化广告工作经验。他在2014年负责推动了中国首个PDB广告投放项目(2014中国国际广告节长城奖金奖上海通用汽车私有程序化广告投放案例),通过PDB帮助广告主管理了数亿广告预算投放,在广告主包段的门户及垂直媒体PC和移动端黄金广告位以及视频媒体贴片黄金资源,实现了广告投放的跨媒体联合频控、千人千面;最终有效提升了广告主广告预算的ROI:CPUV降低至少30%以上(即相同的预算覆盖更多的受众);平均CPL降低20%以上(降低销售线索的获得成本,同时广告主反馈后续CPQL验证及后续转化效果也比较好)。

2014年底2015年初在市场反馈十分巨大的视频广告PDB领域持续发力,推动行业内视频广告PDB业务大规模迅速发展,目前市场上已有上海通用汽车、玛氏、欧莱雅、人头马、Burberry、高露洁、黑人、雅士利等等等等不同行业,近百广告主近千视频OTV项目通过PDB方式进行了投放。无论是对效果营销客户还是品牌营销客户,吴老师都有极为广博的经验。

以下为本两次活动——《大数据基础》讲解提纲:

——160页ppt

授课时间:分为2次课,分别放在4月份1次课、5月份一次课。

主要内容:

DMP价值意义

什么是DMP

Data类型

DataManagement 流程

DMP的系统构成

数据互通的核心 –ID mapping

————以上为415课程已讲内容

———–如下为528的课程内容:

移动设备ID专题

Cookie原理

什么是cookie

种cookie的流程

种cookie的指令

跨域名cookie不可被获取

CookieMapping的重要性

Cookiemapping率的重要性 –mapping率越高数据利用率越高

cookiemapping原理

单向cookie mapping

双向cookie mapping

cookie mapping发起方及时机点

DMP对程序化广告的指导

线下DMP

线下数据采集

消费者洞察

渠道效率分析

数字营销指导

Datahub

data交易市场

市面上常见的第三方数据供应商,及其特点

DMP系统案例分享

Trading Desk & DMP & PDB(PMP)案例:某知名乳品大数据驱动数字营销管理系统

线下DMP系统案例分享

某大型国际知名车企全国4S线下到店大数据管理系统

专有线下DMP+DSP案例

锋暴研习社:由国内知名营销人士吴俊、宋星等人发起,致力于打造一个营销界内的学习社群,开设极具价值的营销系统课程,持续不断的输出原创营销干货,定期举办线下讲座、沙龙活动,使圈内的每个营销人得到快速成长与提升。

(转载请注明出处:微信订阅号:ad_automation)

2017-04-11

《大数据基础》《受众数据》之后,我们继续DMP相关的内容:

数据管理平台

数据要想发挥出价值,就需要一个集中采集、存储、处理、分析、输出运用的系统平台。下面我们就数据管理平台的定义、构成及价值意义展开介绍。

1 什么是DMP

DMP(Data Management Platform)即:大数据管理平台。

需要一个大数据平台将线下、线上、内部、外部的海量数据管理起来,并分析处理,为实际业务运用做储备。

2 Data Management 流程

不论是第一方、第二方、第三方大数据管理数据处理流程都是一致的,尤其重要的是运用价值,无运用价值的Data是无用的Data,切不可为了“Big Data”而“Big Data”。大数据处理流程示意图如下:

3 DMP的系统构成

大数据管理平台是完整的,对大数据进行管理的软件系统,其中会包含各种基于大数据的软件功能。

不论是第一方、第二方、第三方大数据管理平台的内部整体架构,及数据处理流程都是一致的。都是需要基础的数据采集、清洗、分析、运用的功能。没有运用价值的DMP是无用的DMP,切不可为了“DMP”而“DMP”。

区分不同DMP平台最大的差别在于:

1)       采集的数据不同差异性

2)       运用方向上功能的差异性

DMP系统从底层数据采集,到上层可视化输出的架构层次,参见如下“DMP架构示意图”:

4 DMP价值意义

几年前,大数据的概念就炒的很火,但当时在广告主实际业务中,并没有能够实现落地。因为当时基础设施还不完善、行业上下游的认知还不一致、大家还没有能力打通数据资产。现在有很多广告主开始做大数据,是因为基础设施已经基本成熟了,接下来就是如何在各个行业中开花结果啦。大数据在营销领域主要可以从这么几个方向上创造巨大价值(但不局限于这些方向)。

  • 消费者洞察、产品建议;
  • 媒介渠道效率分析;
  • DMP对程序化广告的指导;
  • 对管理、战略等业务决策的数据支持。

等等

5 线下DMP

相对线上用户数据而言,线下用户行为数据更加可靠。比如用户去机场,出行意图非常明显。所以如果我们能掌握精准的线下用户数据,并进一步能打通线上和线下用户数据,这样的价值和意义就十分巨大啦。

5.1 线下数据采集

随着线下数据采集技术、各种智能硬件的发展,WIFI、Beacon、摄像头、RFID、NFC等等,新的线下数据采集手段也日新月异。物联网将成为未来工业界升级的关键。而大数据的处理方法、流程不变,变的是“数据采集”的对象和内容:线下用户行为。

5.2 线下行为特点

线下行为相对线上行为,还是有一些比较有意思的特点的:

1)       成本

线上行为更多的是用户动动鼠标或者手指。而线下行为,用户是要出行到店铺现场的。相对来说出行成本大于指间运动成本的,所以相对来说,用户目的性会更强一些。比如用户在网上看车的,同直接去4S店看车的行为做比较,去4S店的,购车意愿和目的性会相对强烈一些。

2)       群体

线上的行为因电脑、手机屏幕的局限性,大多还是以个体交互的居多。而线下购物、逛街等等,很多时候都是几个人一起的。这是线下行为有意思的差异点。所以我们在线下数据分析的时候,也需要多多留意。4S店线下客户分组分析的示例截图如下:

3)       现实

互联网对很多用户而言,毕竟还是个虚拟的世界,很多人会关注一些现实世界中不怎么关注的内容。举个例子:在搜索引擎中搜索奶粉的不一定是妈妈,很有可能是爸爸。所以线下的数据相对而言,更加真实,更贴近现实社会的经济活动。

5.3 消费者洞察

基于线下数据的消费者洞察,相对线上更贴近现实,更代表消费意图,是十分典型的目标受众分析样本。所以对这些典型用户进行调研问卷、线上行为数据采集、线下行为数据采集。然后得出这些典型用户的人口属性、兴趣特征的洞察,对调整产品的定位,以及功能特性,意义巨大。线下店面人群画像示例截图如下:

5.4 渠道效率分析

只要掌握了线下的用户数据,并打通线上数据的设备ID,就能十分轻松地比对线上广告投放,对线下引流到店的贡献。通过这样的线下线上的闭环,大大提升了媒介效率。线下线上闭环分析流程示意图如下:

其实线下的用户数据分析,还能分析各种不同线下渠道的效率。线下经销商客流关联分析示例截图如下:

5.5 数字营销指导

线下到店的人群往往都是产品的重度用户,基于这些用户作为样本,进行行为学习,来寻找更多具备类似特征的潜在客户。并通过程序化广告的手段来进行广告投放。这将使得精准营销的方向更落地,也更实效。线下用户行为指导线上数字营销示意图如下:

6 Data Hub

随着第三方数据供给方的丰富。广告主对这些数据的兴趣和运用的渴望日益强烈。所以很多DMP、DSP、TradingDesk也纷纷提出了“数据集线器”,“数据融合”的概念。

7 Data交易市场

在国外,有些ADX会为DSP提供(可直接技术手段对接使用的)Data交易市场。各DMP供给方,可根据自身的数据特点,在Data交易市场中售卖数据。

国内虽然也出现了一些数据交易市场,但都是为“线下数据买卖”提供的交易场所。并不是通过技术手段对接的数据服务交易市场。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-10

上篇《大数据基础》我们重点是围绕数据核心“人的唯一性标识”进行的阐述。下面我们将从受众的大数据处理流程及运用层面展开。

1.线上数据、线下数据

用户会在线上、线下产生大量的不同特点的行为数据。

线上数据大体有:

  • 用户浏览网络的行为:指记录用户在PC + Mobile上浏览网络的行为数据。这类数据的主要有:描述哪个用户在哪个时间点、哪个地方,以哪种方式完成了哪类行为,从而了解受众行为偏好。包括:用户ID、用户行为、用户设备、IP、URL、地理位置等等数据。
  • 站内与销售数据:指用户在广告主官网、EDM、电商网站或APP中产生的行为数据,往往对应着非常明确的目标用户及其兴趣。例如:站内流量、搜索、浏览、比价、加入购物车、购买、页面停留时间、注册情况、留言等等数据。
  • 社交数据:指用户在微信、微博、QQ、论坛等社交网络中产生的数据。包括:社交账号数据、受众属性数据(性别、年龄、学历等)、行为兴趣数据等等。

线下数据大体有:

  • CRM系统中的用户数据等等;
  • 用户到店的数据等等;
  • 用户线下的位置、轨迹数据等等。

2.Data的获取来源

一般我们会从数据的拥有方,及获取来源,将数据分为三类(以下是以广告主视角来举例的):

  • 第一方数据:广告主内部数据(CRM)及广告主官网布码、线下店面安装设备收集到的数据;
  • 第二方数据:广告投放方(媒体方、DSP方等)通过广告投放获取到用户对于该广告在媒体上的互动的数据;
  • 第三方数据:同广告主无任何关系,第三方数据供应商提供的数据。例如:第三方监测公司、其他脱敏数据(剔除用户隐私内容)。

数据的类型可以有很多,不仅仅局限于广告投放数据,还包括各种线下、线上、CRM、调研、第三方等等各种数据。

数据的采集、打通、管理、分析、运用成了重点。

跨屏识别方法与挑战

这里提到的跨屏识别,主要指的是跨移动/PC跨设备识别。而不是有些人说的不同App之间(通过设备ID),或者不同Web网站(通过CookieMapping)之间的。

很多监测方或技术商,号称可以跨移动/PC跨设备识别。但实际上,除了只能使用会员账号ID来打通之外,没有别的办法。

有些监测方会使用,用户上网IP的统计学方式,来模糊统计。但由于目前存在大量局域网,使用同一上网IP出口,再加上上网出口“IP漂移”等等问题,这种统计结果准确率有待商榷。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-05

摘要:最近群里有同学问广告API对接怎么回事,这里发篇简单的文章介绍一下各种不同的流量技术对接的注意点。

对接各类媒体对应的主要技术方式:

注:除APP端、服务端对接需增加cookie mapping

一、PC/移动Web

1.JS代码(JavaScript)

媒体卖方通过排期系统投放买方系统的JS代码。

广告的展示及用户浏览网页的相关数据的获取均由该JS代码处理。

省去双方CookieMapping的问题。

此方式技术对接快,一般1-2个工作日就能完成技术对接。

但这种方式由于媒体卖方丧失了对流量的控制权,若不是预算足够大,媒体卖方不太支持该模式。

2.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。

双方需要进行CookieMapping。

此方式技术对接周期较长,一般1-2个月才能完成技术对接。

这种方式由于媒体卖方可对流量进行控制,是常见的技术对接方式。

二、移动App

1.SDK

广告的展示及用户手机的相关数据的获取均由SDK代码处理。

SDK采用自己的设备ID规范,不需双方统一设备ID规范。

此方式技术对接快,但存在一个App新版本发布的更新周期,一般3月左右。

但这种方式由于媒体卖方丧失了对流量的控制权,若非小媒体,稍大一些的媒体卖方一般均不支持该模式。

2.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。

双方需要遵守统一的设备ID规范。

此方式技术对接周期较长,媒体方技术已准备好的情况下一般也需要1个月才能完成技术对接。(若媒体技术未准备好,则可能需要花近半年左右的时间进行改造,改造的核心就是媒体每次广告曝光机会需请求服务器申请精准的广告,而不是之前提前已按排期下发获取广告的模式。)

这种方式由于媒体卖方可对流量进行控制,是常见的技术对接方式。

三、视频

视频广告常用VAST及VPAID作为标准协议规范,下面就给大家简单介绍一下:

1.VAST对接模式,参见文章:《VAST实用知识》

2.VPAID广告播放容器对接模式,参见文章:《VPAID要点》

3.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。具体内容类似上述PC及移动App的内容。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-03-28

近年来整体数字营销行业的发展呈现出三大趋势:

第一个趋势:广告主越来越重视数据资产,他们将自己的大数据沉淀下来,然后建立大数据系统。其实在两年前,很多广告主就想做大数据资产沉淀,但直到现在才有可能真正落实,开始基于数据资产,优化数字营销能力。

第二个趋势:很多企业开始发展自己的大数据技术,结合原有的数据沉淀,自己建设数字营销DSP平台投放广告。

第三个趋势:广告主在打通线上和线下大数据,构建闭环生态方面,也有很大诉求。

可见大家越来越重视数据,大数据越来越成为数字营销、程序化广告的重要基础。大数据就是通过各种数据采集手段采集到线上线下的用户行为数据,经过清洗、分析、管理并结合营销业务,从基础业务运行支撑、报表分析、人群画像、销售自动化、营销精准化、决策支持等等各个方面发挥巨大价值。而大数据是跨学科的领域,会涉及到技术、业务等等很多方面的内容。本章会花较大的篇幅从必备的一些基础知识进行阐述,后续实战的很多内容都是基于这些基础概念和知识的。所以建议大家认真学习。

人的唯一性标识

大数据营销首要的就是分析目标受众,并针对目标受众的特点及其当时的场景进行有效地营销活动。收集的海量数据也是基于人为核心的。所以追踪个体用户行为、对人的唯一性标识是营销大数据的关键。

1.人唯一性标识的方式

标识一个人的方式可谓是丰富多样:

  • 对于真实世界中,日常工作生活中常用身份证件号(身份证、护照等各种证件)来标识一个人;
  • 在医学上常用DNA鉴定的方式类标识一个人;
  • CRM系统中常常以手机号来标识一个人;
  • PC端的Web网站对于用户的浏览行为常常使用CooikeID来标识;
  • 很多网站及服务常用会各种会员ID来标识一个人, 社交中我们常用QQ号、微信号等等;其他各种服务也会存在着各种会员ID。为了避免遗忘这些会员ID我们可能都经常需要一个小软件来帮我们管理这些ID;
  • 手机设备App端常用设备ID来标识一个人。

等等等等,可见对人的唯一性标识极其的复杂且重要。

2.数据互通的核心–ID Mapping

我们可以发现标识一个人的方式实在是花样繁多。大量的用户数据由于其产生和采集的场景区隔性的特点,造成了大量的数据花园围墙。单独的数据孤岛能创造的价值十分有限。所以ID mapping成为数据互通的核心,只有ID首先能打通才有可能联通各个数据孤岛,促进数据流动创造数据价值。

3.PC端识别技术

PC端,用户在互联网上主要是通过浏览器浏览内容,及完成相应的业务操作的,所以Cookie是PC端标识用户的重要技术。相关内容详情请阅读文章《什么是CookieMapping》

4.移动端识别技术

详情请阅读历史文章《移动数据关键ID系列》:

移动设备ID烦恼知多少?【技术类】

IOS体系ID知多少?【技术类】

Android体系ID知多少?【技术类】

媒体注意:Android设备ID大洗牌【行业动向】

蓝瘦香菇的ADX移动ID【技术类】

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-03-22

备注:增加玩咖ADX、更新猎豹移动信息:十分感谢同学们的积极反馈,已根据反馈的信息更新内容。这些内容将随书籍印刷出版。

一般会根据ADX对其主要媒体资源的拥有关系,我们会将ADX分为:

  • 公共(也有称为“公开”)综合ADX:ADX不拥有媒体资源,十分典型的中间撮合买卖双方的角色。常见的有:baidu的BES、阿里的TANX、google的ADX、360的MAX等等。这类ADX的特点是流量大、价格低,但流量质量参差不齐,大量以长尾的流量为主,当然也有少量垂直领域头部媒体(自己没有建立ADX的媒体)的剩余流量。
  • 私有ADX:此类ADX从属于主要的媒体方,以媒体方的资源为主体。典型的例如:几大门户类媒体的ADX(腾讯、新浪、搜狐等等)、视频类媒体的ADX(youtu、IQIYI、乐视等等)、新锐移动媒体的ADX(小米、陌陌等等)等等。这类ADX中的流量质量因是媒体自己的流量,相对质量好一些。当然价格会稍微贵一些。(有的时候出于为了拉低整体买方成交成本的诉求,这类ADX也会在自身的流量之外,会引入外部的其他一些较为便宜的媒体流量。)

下面所列为常见的ADX

(注:排名不分先后。相关内容因有一定时效性,其中的内容请读者不用太过追究,请以各ADX最新的数据为准,此稿仅供参考。主要目的是希望大家能通过该表对各ADX的大体情况有个初步的概念。而且市场上的ADX还有很多,就不一一都罗列了。)

公共综合类ADX(PC、Mobile、视频)

移动为主的公共综合类ADX

媒体私有ADX(PC、Mobile、视频)

移动为主的媒体私有ADX

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-03-19

卖方诉求

虽然程序化广告购买是行业大势所趋,但还是有很多媒体卖方拼死抵抗,尤其是那些已建立了庞大传统销售体系的卖方更难转型。只有市场搅局者希望用新模式重新洗牌(他们才是初期的主要行业推动力)。所以我们要充分的理解卖方的诉求才能很好地同卖方打交道,推动行业良性发展。

  1. 不能因增加某种业务模式,而减少另一种(成熟)业务模式的收入
  2. 不能因为某业务模式,冲击另一(成熟)业务模式的价格
  3. 不能为了迎合买家,贱卖
  4. 程序化广告售卖剩余流量在很多媒体目前仍是 “增量” 收入,在整体收入20-30%左右,并非传统稳定的收入。

(一)价格保护

对于存在竞价的场景中:

卖方可以通过一些底价规则保护一些特殊库存或通过分类售卖或排除策略排除一些买家

典型案例:

1. 大部分视频媒体私有adx对不同行业都执行不同的底价政策:

游戏、电商、品牌、其他(中小)

很多视频媒体Adx都有类似的政策

2. 对于北上稀缺的视频前贴片的资源底价为天价:

部分视频媒体存在这个现象。

(二)卖方核心诉求

媒体卖方中的不同工种角色对程序化广告的态度和核心诉求也不同。所以我们也需要充分理解并合理应对。

  • 卖方销售:关心的是总销售盘量是否会增加,若简单的从一种模式转移到另一种模式。卖方的动力不大。
  • 媒体运营:用户日活数据不可暴露,这是媒体十分敏感的数据。会直接影响到媒体在市场中的位置以及媒体商业变现的体量。
  • 媒体产品:用户的体验及隐私数据的保护,是媒体方产品最最关心的问题。不能因为程序化广告的加入影响了用户体验(例如:响应速度、用户注意力、不能误导用户),或侵犯用户的隐私数据等等。

这些都会是行业升级过程中会遇到的阻力。我们只有深刻认识才能以多方共赢为出发点找出解决方案。

目标人群投放(TA-Target Audience)

对目标人群进行筛选流量投放广告是才能达到我们所讲的“在合适的时间合适的上下文场景推送合适的信息”。这就需要流量方开放用户的行为信息。在流量中携带用户行为的相关数据,所以某种意义上可以说程序化广告购买是流量媒体卖方一种数据变现的方式。

(一)用户行为信息保护

一般卖方会根据自己的考虑适度开放,这点是程序化购买模式中的一个十分重要的功能。这些信息对精准分析用户的相关属性特别关键,尤其是若广告主存在目标人群分析强烈的需求,就需要建议卖方开放足够多的信息。

例如:

a.媒体的顶级/子域名

b.媒体的频道/栏目

c.用户访问的媒体页面的完整URL(Full URL)(强烈建议此模式)

d.媒体URL保护处理:

e.完全不提供,买方完全不知道购买的何处的媒体库存。

视频媒体的流量中还存在:剧目、频道等重要信息;移动端有LBS信息等等。

注意:移动端APP很少能取到用户阅读页的上下文内容,对行为分析受到一定限制。

(二)广告请求中携带的广告位及用户数据

OpenRTB协议标准中已约定的广告请求携带的相关数据段,这些数据是分析用户行为及机器学习建立模型十分重要的因子维度。但刚刚也说了实际情况不是所有流量都能获取到这些数据的,媒体方会根据自身变现的考虑选择开放哪些数据。

OpenRTB协议标准中已约定的广告请求携带的广告位相关数据供大家参考:

  • banner数据段:尺寸、位置、mimes(说明该广告位支持的多媒体类型,例如:Flash、gif、MP4等等)、topframe(0说明广告位在iframe,1说明广告位不在iframe而在“topframe”顶级页面框架中)、expdir(若是可扩展的广告位(点击广告,广告会扩展变大的广告位),说明可扩展的方向)等等;
  • Video数据段:mimes、时长、尺寸、位置等等;
  • Native数据段:mimes、尺寸、位置等等;
  • Site数据段:名、域名、类(网站所属类别)、大类(网站所属大类)、页面类(广告所在页所属类别)、Url(该页面的url)、来源(从那个页面调转到该页面)、搜索词、是否移动Web、关键词等等;
  • App数据段:名、AppId、域名、storeurl(该App在AppStore中的地址)、类(App所属类别)、大类(App所属大类)、页面类(广告所在页所属类别)、是否收费App、关键词等等。

OpenRTB协议标准中已约定的广告请求中携带的用户行为数据供大家参考:

  • Geo(位置信息):经纬度、国、市、区等等;
  • User(用户信息):出生年、性别、关键词、浏览器等等;
  • Device(设备信息):ip、设备类型(PC、手机、平板等等)、设备ID(IMEI、IDFA、MAC等等)、型号、操作系统、操作系统版本、硬件版本、设备屏幕尺寸、设备分辨率、系统语言、设备上网运营商、设备上网方式(WIFI、2G、3G等)等等。

(三)目标人群投放

在程序化购买模式中存在大量的对目标人群数据的使用。这些数据主要来源于:

a. 之前campaign投放的广告主方的第一方数据(点击、到达、转化),访客找回(retargeting)效果较好;

b.竞品或其他第三方监测收集的之前campaign投放的的第三方数据;

c.(第三方)DMP供应商按广告主提供相关标签及Look-alike挖掘出的第三方数据;

d.以上数据为样本,及结合投放中的执行数据优化行为数据挖掘出的人群数据;

e.目标人群排除也很常见;

需说明的几点:

1.首要前提是要有人群数据库 及 已打过标签分析过的人群数据库;

2.retargeting效果较好;

3.割裂的DMP数据,脱离了投放执行环节的数据无法持续优化及提高绩效;

4.PC端,cookie需mapping后,积累的cookie才能被使用。

相关的常见词:Data Usage、DMP- Data Management Platform、TA-TargetAudience、AP-Audience Platform

本系列历史文章:《程序化广告4种典型模式》​、《流量优先级和交易管理》​、《OpenRTBv2.5》

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《3.25线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-03-14

什么是Deep Link

“Deep Link”从字面上理解是“深度链接”,因为移动端的媒体内容页面都是在APP中打开的,最早推出“Deep Link”的主要意图是,为了能让搜索引擎能检索APP中的内文页内容,并在用户检索到内容时,可通过简单点击一个“链接”直接打开该APP的内文页。简单讲就是,可以通过一个简单的“链接”,打开APP并直接进入该APP中的内文页,前提是该APP在该手机上已安装,且该APP需要编程支持该Deep Link的“schema”语法定义。例如:大家可复制如下的淘宝商品及淘宝店铺页的Deep Link链接,在手机浏览器中打开,便可直接进入淘宝APP中的商品页及店铺页:

 taobao://item.taobao.com/item.htm?id=440…

 taobao://shop.m.taobao.com/shop/shop_ind…

可见在移动端广告投放中采用Deep Link技术,省去了用户打开APP、再搜索商品页的中间环节,让用户只需便捷地点击广告,一键就能到达商品购买页面。省去中间多次跳转的环节,减少用户流失,有效提升转化。(当然该APP需要开发改造,编程支持Deep Link。)

APP没安装怎么办?

当然大家会问,若当时手机上没有安装这个APP会发生什么情况呢?在移动端广告投放中,可以采用加一个Mobile Web中间页的方式。在该中间页上安置JS代码来判断(通过Deep Link尝试调用手机APP),若手机上APP没有安装,则跳转到APP下载页面引导用户安装。若APP已安装则打开APP进入内容页。这样通过Deep Link也能有效地唤醒沉睡用户(那些已安装APP但还未持续产生转化的用户。)。

现在也有很多APP服务提供方,不论用户是否已安装APP,为了让用户能更容易的通过各种方式(Mobile Web、APP)触达到产品服务,会对应APP做一套简化版的Mobile Web的服务。由于URL使用的是普通的网站URL,相比Deep Link更容易传播,及被各种网站内容中引用,及被搜索引擎收录。例如,大家可复制如下的淘宝商品页的普通URL,在手机浏览器中打开,便可直接进入淘宝中的商品页(该页面中也有一些JS代码,会判断手机上是否已安装APP,若已安装,会提示用户是否打开淘宝APP):https://item.taobao.com/item.htm?id=44014690052

Universal Link

上面已讲到:很多APP服务提供方已经在提供普通网站URL方式作为中间也载体,便于传播和使用。这也就引出了一个新的规范:Universal Link(通用链接)。在iOS9以前,我们从外部启动App都是通过(Deep Link)一个特殊的URL Scheme实现跳转的。这种方式弊端很明显:我们只能通过scheme://example这种格式的链接来实现跳转,而且现在苹果还对这种方式的跳转加了一个提示框:“是否打开XXX”。对于Web和原生App交互的场景需求量很大的产品来说,这样的跳转方式显然是步骤繁杂的,用户体验并不好。

当然需要强调一下为了保证用户网络安全,该“通用链接”必须是HTTPS协议的。

在APP中添加这个功能很简单,相关参考文档可参考官方文档(点击文末“阅读原文”可直接打开):

https://developer.apple.com/library/content/documentation/General/Conceptual/AppSearch/UniversalLinks.html

大体的步骤是:

1) 在苹果开发者网站中,打开需要使用Universal Link功能的App中的Associated Domains

  • 首先,我们要在苹果开发者网站中开启App的Associated Domains功能:在Account -> Certificates, Identifiers & Profiles -> App IDs -> YourApp -> Edit中把Associated Domains设置为Enable
  • 然后需要配置一下工程文件,找到Capabilities -> Associated Domains
  • 打开此功能并把“通用链接”的domain加进去,格式为applinks:http://www.example.com/

2) 将 “apple-app-site-association”(一个json文件)上传到服务器中根目录下(因为是HTTPS,所以服务器必须支持SSL;文件名“apple-app-site-association”不可添加任何后缀。),如:https://www.example.com/apple-app-association ,json内容示例如下:

{

“applinks”: {

“apps”: [],

“details”: [

{

"appID": "TeamID.com.domain.App",

"paths":[ "*" ]

}

]

}

}

注意:当APP在设备上第一次运行时,若已开启Associated Domains功能,那么iOS会自动去获取Domain下的apple-app-site-association文件,iOS会先请求https://domain.com/.well-known/apple-app-site-association 。若此文件请求不到,再去请求https://domain.com/apple-app-site-association 。所以若想要避免服务器接收过多GET请求,可直接把apple-app-site-association放在./well-known/目录下。服务器上apple-app-site-association的更新不会让iOS本地的apple-app-site-association同步更新,即iOS只会在APP第一次启动时请求一次,以后除非APP更新或重新安装否则不会在每次打开时请求apple-app-site-association。

3) 在AppDelegate中实现相应的方法,

示例代码如下:

- (BOOL)application:(UIApplication *)application continueUserActivity:(NSUserActivity *)userActivity restorationHandler:(void (^)(NSArray * _Nullable))restorationHandler{

if (![userActivity.activityType isEqualToString:NSUserActivityTypeBrowsingWeb]) {

return YES;

}

//读取url地址

NSURL *webUrl = userActivity.webpageURL;

if (![webUrl.path isEqualToString:@"/show"]) {

//path错误,直接从safari打开

[[UIApplication sharedApplication] openURL:webUrl];

return YES;

}

//跳转并显示内容

[[NSNotificationCenter defaultCenter] postNotificationName:@”notify” object:@”hello world”];

return YES;

}

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《3.25线下大课堂》面对面为您答疑解惑讲透您关心的问题。