博客首页|TW首页| 同事录|业界社区
2017-05-08

要建立完备的大数据系统,需要扎实完善、高处理效率、高安全性、高稳定性、易扩容、海量存储的技术架构。下面截取部分DMP系统的技术架构图(主要包括应用架构、数据架构、技术架构等)供大家参考,同样对于非技术的同学对此有个感性认识即可。也不做大篇幅的展开了。

应用架构

应用架构主要是从应用功能角度将各模块间关系及分工进行描绘的图纸,主要会从应用集成视图、功能视图这些角度来进行描绘。帮助大家能对系统有个直观的认识,并且帮助各模块协同开发,友好集成。

  • 集成视图:

该视图主要体现出各模块间关系,如图9-28所示,以线下DMP系统为例,大数据平台(BigData)会从各个不同的渠道交换或采集数据。如:通过数据采集网络采集线下扫描设备采集的用户扫描数据、WIFI上网服务Portal的用户登陆认证数据、上网数据、点击流数据等,从企业数据中的普通数据、连锁店、加盟店等线下场景获取扫描数据、认证数据、上网数据等。内部会对各种业务维度位置数据、消费数据、通讯数据等进行交换从而对用户行为进行精准的刻画。在这个例子中,大数据平台以服务线上广告业务作为主要业务运用方向,所以会把广告管理系统视为外部系统(大数据为本体域,业务运用为客体域),进行外部数据交换,打通用户线下ID及线上ID。将用户的线下行为结合线上行为结合起来分析并打上标签,用以指导线上的程序化广告投放。广告系统中会从媒体方、ADX、广告监测中收集各种线上用户行为数据,并将这些线上广告相关的查看、点击、竞价信息等数据灌入大数据系统,从大数据系统中得到人群画像、竞价决策等的数据支持。当然不同的业务运用目的,就会接不同的业务系统交互数据,并将大数据为不同的业务运用目的而服务。

图9‑28 DMP应用架构-集成视图示例

  • 功能视图:

该视图主要描绘DMP基础必备的技术功能,如图9-29所示,大数据平台基础必备的技术功能有数据采集、数据导出、数据分析、数据可视化等。数据采集主要职能是收集数据,主要包括扫描采集数据、校验数据有效性、处理清洗数据、上传数据、备份数据、加密解密、压缩解压缩、ID生成等功能模块。数据导出主要职能是为了服务内外部的数据导入导出需求,主要包括内部ID关联、内部ID及数据导出、外部ID匹配、外部ID及数据导入等功能模块。数据分析主要职能是结合业务运用方向的需求对数据进行分析整理,在该例中以广告为主包含广告投放数据分析、人群画像等功能模块。数据可视化是数据有效输出、为决策提供支持、数据展示价值的重要窗口,其主要包含运维需要的数据采集监控、数据管理需要的数据主体域可视化、数据运用需要的行为域可视化、数据查询等功能模块。

图9‑29 DMP应用架构-功能视图示例

数据架构

若我们要对数据进行清晰的梳理,就必须先画出数据架构,在数据架构中会依据既有数据内容及运用方向画出主题域,并通过对主题域视图的描绘,让大家对系统主要管理的数据维度及各数据之间的关系有一定的认识。这样能有效指导有方向有目的地去收集交换并运用数据。数据我们一般会分为不同的主题域来存储分析,不同的主题域中都有唯一的主域数据对象族,其他的数据都是围绕这个主域数据对象族的客体域数据。如图9-30所示,以人作为十分核心的本体域,包括个体特征、身份证号、群体特征、本体关系网络、标签、数据维度、类别等。作为人本体域存在很多描述的本像数据,如计算机网络中的应用层的QQ及微信、表示层的CookieID、网络层的IP地址、物理层MAC地址,以及电信网络中的手机号、IDFA、IMEI、AndroidID等。相对人本主体的是客体域,即与人关联的物或非本体的数据或行为等,其包含个体特征及群体特征等,对于该例中以广告为主要业务运用方向,以广告作为主要描述的客像数据,如计算及网络中的应用层的广告ID及行为语意表达等。人本体及网络广告及行为数据客体通过时空交互,这些关联关系的数据均记录在交互域中,如计算及网络中的应用层的邮件记录及上网记录及广告行为、网络层的DHCP上网IP自动获取记录、物理层客户端位置及设备位置,以及电信网络中的终端位置、通话记录、基站位置等。只有通过如此严谨且丰富的数据区隔,我们才能有效地分析数据,找出其中有价值的内容。

图9‑30 DMP数据架构-主题域视图示例

技术架构

技术架构往往是我们要开始系统工程开发及构建之前,从技术实现角度划分出不同技术开发组件及模块的重要工序,这样做才能确保开发分工的协同性及系统功能实现的完整性。其中十分重要的就是组件视图的描绘。一般技术开发中必然会划分出不同的技术组件,主要是为了在系统搭建中,提高组件的可复用性,提升重用率,提升系统代码质量,尽量减少“重复造轮子”的浪费。如图9-31所示,我们将DMP系统的技术组件划分为主要负责对资源的管理及操作交互的基础资源层(bd-res)、主要负责业务处理的业务层(bd-mod)、主要负责集成及输入输出接口的接口层(bd-port)、以及贯穿各层的公共工具(bd-util)。公共工具(bd-util)即各层技术开发时大家都会用到的公共工具,如异常处理、类管理、开发调试工具等。基础资源层主要负责对资源的管理及操作交互,如数据库处理(res-db)包含对hbase、jpa、redis等的交互模块,文件处理(res-file)包含对csv、excel、大数据文件dfs、文件系统fs等的交互模块,网络处理(res-net)包含对ftp、http、mail、rest等的交互模块,流处理(res-stream)包含对mns、ons等的交互模块,还有对缓存(res-cache)、大数据计算资源spark(res-spark)、大数据计算emr(MapReduce)资源(res-emr)、通用资源(res-common)等的交互模块。业务层负责业务处理,如基于spark的业务计算模块(包括聚集(gather)、学习(learn)、训练(trans)(训练中包含清洗(clean)、映射(map)、聚类(aggregate))、查询(query)(包含匹配(match)、导出(export)、检索(search))),基于流的业务计算模块(mod-stream),基于mr(MapReduce)的业务计算模块(mod-mr),基于共享内存的业务计算模块(mod-shm)等。接口层主要负责集成及输入输出,如集成接口模块(port-integration)、客户端接口模块(port-cli)、API接口模块(port-api)、WEB接口模块(port-web)等。

图9‑31 DMP技术架构-组件视图示例

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-05-02

上篇《样本训练》介绍了很多常用的分类算法,实操我们中该如何评价不同分类器的质量呢?首先要定义,分类器的准确率,指分类器正确分类的项目占所有被分类项目的比率。通常使用回归测试来评估分类器的准确率,最简单的方法是用构造完成的分类器对训练数据进行分类,然后根据结果给出准确率评估。但这不是一个好方法,因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观,所以一种更好的方法是在构造初期将训练数据一分为二,用一部分构造分类器,然后用另一部分检测分类器的准确率。所以一般会对原始数据进行分割,分割成训练集和测试集。这样做是为了方便验证在训练集上训练得到的模型,是否能在测试集中可取得理想的效果。通常(训练集:测试集)分割比例为6:4或者7:3。训练集用来训练算法,学习其中的变量,测试集用来查看或检验所选算法在测试集上的效果。目前,常见的开源算法类库现成的有很多,只要将这些类库装载到计算环境中使用即可。(数据科学(data science)领域较流行的运行机器学习算法的语言有R、Python。)

衡量算法效果。常见的评价指标有:正确率、召回率和F值:

  • 正确率 = 正确识别的个体总数 / 识别出的个体总数
  • 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数
  • F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

举个例子:某池塘有1400条鱼,300只虾,300只蟹。现在以捕鱼为目的。撒一大网,网着了700条鱼,200只虾,100只蟹。那么,这些指标分别如下:

正确率 = 700 /(700 + 200 + 100) = 70%

召回率 = 700 /1400 = 50%

F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

若把池子里的所有的鱼、虾和蟹都一网打尽,这些指标变为:

正确率 = 1400 /(1400 + 300 + 300) = 70%

召回率 = 1400 /1400 = 100%

F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

由此可见,正确率是评估算法预测的成果中,目标样本所占的比例;召回率,主要是从关注领域中,召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。

  • ROC(receiver operating characteristic)曲线

对于二分分类,原始类分为positive、negative,我们可以标记为p、n。如图9-9所示,排列组合后得到4种结果。于是我们可以得到四个指标,分别为真正(TP)、伪正(FP);伪负(FN)、真负(TN)。

图9‑9二分分类典型四象限示意

对于正、负分类问题,一些分类器得到的结果往往不是0,1这样的标签,如神经网络,得到诸如0.5、0.8这样的分类结果。这时,我们可以人为取一个阈值,比如0.4,那么小于0.4的为负类,大于等于0.4的为正类,这样可以得到一个分类结果。同样这个阈值我们可以取0.1、0.2等等。取不同的阈值,得到的最后分类情况也就不同。例如图9-10所示:

图9‑10正负样本图示例

图9-10中左部的曲线图表示样本为正类的分布图,右部的曲线表示样本为负类的分布图。那么我们从中取一条直线,若假设直线左边分为正类,右边分为负,这条直线也就是我们所取的阈值。可见若我们移动该直线,这样阈值的不同,可以得到不同的结果。但是由分类器推测出的样本分布图始终是不变的。这时候就需要一个独立于阈值,只与分类器有关的评价指标,来衡量特定分类器的好坏。还有在类不平衡的情况下,如正样本90个,负样本10个,直接把所有样本分类为正样本,得到识别率为90%。但这显然没有意义。这就是ROC曲线的主要动机。

ROC空间将伪正率(FPR)定义为 X 轴,真正率(TPR)定义为 Y 轴。这两个值由上面四个值计算得到,公式如下:

TPR:在所有实际为正的样本中,被正确地判断为正的比率。TPR=TP/(TP+FN)

FPR:在所有实际为负的样本中,被错误地判断为正之比率。FPR=FP/(FP+TN)

在实际应用中,我们当然希望尽量把正确的目标人群找出来作为主要任务,也就是第一个指标TPR越高越好。而把负的样本为误判,也就是第二个指标FPR要越低越好。不难发现,这两个指标之间是相互制约的。若我们对于负样本判别标准定义的特别细致严格,一点小的特征都判断为负的话,那么第一个指标就会很高,但是第二个指标也会相应地变高。最极端的情况下,若我们把所有的样本都看做负的话,那么第一个指标达到1,第二个指标也为1。

我们以FPR为横轴,TPR为纵轴,得到ROC空间:

图9‑11 ROC空间示例图

我们可以看出,左上角的点(TPR=1,FPR=0),为完美分类,也就是个高明全对的推断。左边离中线近一些的点A(TPR>FPR), A的判断大体是正确的。中线上的点B(TPR=FPR),也就是B可能全都是蒙的,对一半错一半;右下半的点C(TPR<FPR),这个推断很可能错误。上图中一个阈值,得到一个点。现在我们需要一个独立于阈值的评价指标,来衡量这个分类器如何,也就是遍历所有的阈值,得到ROC曲线。

还是以图9-10为例,我们可以遍历其中所有的阈值,能够在ROC平面上得到ROC曲线。如图9-12所示ROC曲线。

图9‑12 ROC曲线示例图

曲线距离左上角越近,证明分类器效果越好。

图9‑13三种分类器得出的不同ROC曲线示例图

如图9-13所示的示例,是三条ROC曲线,若在0.23处取一条直线。那么,在同样的低FPR=0.23的情况下,最外侧那条线的分类器得到更高的TPR。也就表明,ROC越往上,分类器效果越好。我们用一个标量值AUC来量化她。

  • AUC(Area Under ROC Curve)

如图9-14所示,AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。

AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。

0.5 < AUC< 1,优于随机猜测。这个分类器(模型)若妥善设定阈值的话,能有预测价值。

AUC = 0.5,跟随机猜测一样(例:抛硬币),模型没有预测价值。

AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

图9‑14 AUC示例图

  • AUC的物理意义

假设分类器的输出是样本属于正类的score(置信度),则AUC的物理意义为,任取一对(正、负)样本,正样本的score大于负样本的score的概率。

  • 计算AUC:

第一种方法:AUC为ROC曲线下的面积,那我们可直接计算面积。面积为一个个小的梯形面积之和。计算的精度与阈值的精度有关。

第二种方法:根据AUC的物理意义,可计算正样本score大于负样本的score的概率。取N*M(N为正样本数,M为负样本数)个二元组,比较score,最后得到AUC。时间复杂度为O(N*M)。

第三种方法:实际上和第二种方法是一样的,但可减小复杂度。直接计算正样本score大于负样本的概率。我们首先把所有样本按照score排序,依次用rank表示他们,如最大score的样本rank=n(n=N+M),其次为n-1。那么对于正样本中rank最大的样本rank_max,有M-1个其他正样本比他score小,那么就有(rank_max-1)-(M-1)个负样本比他score小。其次为(rank_second-1)-(M-2)。最后我们得到AUC。时间复杂度为O(N*M)。即:AUC=((所有的正例rank相加)-(M*(M+1))/2)/(M*N)。详细计算公式见公式9-3。

公式9‑3 AUC公式

另外,特别需要注意的是,对于存在score相等的情况时,对相等score的样本,需要赋予相同的rank(无论该相等的score是出现在同类样本还是不同类的样本之间的,都需要这样处理)。具体操作就是再把所有这些score相等的样本的rank取平均。然后再使用上述公式。

当然实操中往往数据中不可避免的存在一些噪音,所以常会采用一些人工干预设置补偿因子及系数的方式。一方面这样做可以一定程度简化算法及模型,另一方面也大大降低对计算资源的消耗,从而降低成本提升效率。(这也是典型的二八原则做法:大部分80%的问题仅需要20%的投入及特征模型即可解决。)

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-26

在DMP中,对大数据的各种维度分析、分类、打标签,通过机器学习挖掘出数据中蕴藏的宝藏,是十分有技术含量的技术活儿。下面简单介绍一些常用的,对数据样本进行学习训练及回归验证的分析算法及、常规做法及核心流程。

样本训练

对原始样本数据训练可选择的算法有很多,常见的有:逻辑回归算法(logistic regression)、决策树算法(decision tree)、支持向量机算法(support vector machine)、神经网络算法(neural network)、朴素贝叶斯(Naïve Bayes,NB)分类算法等等。(实操中往往数据比算法更重要,解决问题的算法有很多,只要收集的数据质量较好,那么利用恰当的算法,往往比复杂算法对于质量较差的数据时能取得的效果更好。通常情况下数据比算法要重要。)

  • 逻辑回归算法:

逻辑回归是比较常用的机器学习方法,是一种分类学习方法。使用场景大概有两个:第一用来预测,第二用来寻找feature(特征值)变量对target(目标值)变量的影响因素。通过历史数据的表现,对未来结果发生的概率进行预测。例如,我们可以将某用户购买某商品的可能性,以及某广告被用户点击的可能性的概率设置为target(目标值)变量,将用户的特征属性,例如性别,年龄,地域、时间、广告请求各种维度的数据等等等,设置为feature(特征值)变量。并根据这些历史feature属性对target(目标值)变量的影响程度,及之间的关系,以此来预测某类feature(特征值)变量出现时,target(目标值)变量出现的概率。其中target变量是我们希望获得的结果,feature变量是影响结果的潜在因素,feature变量可以有一个,也可以有多个。一个feature变量的叫做一元回归(如图9-2所示),超过一个feature变量的叫做多元回归。

图9‑2逻辑回归算法示例

逻辑回归的适用性:

1) 可用于概率预测,也可用于分类。并不是所有的机器学习方法都可以做可能性概率预测。可能性预测的好处是结果有可对比性:比如我们得到不同广告被点击的可能性后,就可以列出点击可能性最大的N个。这样一来,哪怕得到的可能性都很高,或者可能性都很低,我们都能取出最优的topN。当用于分类问题时,仅需要设定一个阈值即可,可能性高于阈值是一类,低于阈值是另一类。

2) 仅能用于线性问题:只有在feature(特征值)和target(目标值)是线性关系时,才能用逻辑回归。这有两点指导意义,一方面当预先知道模型非线性时,果断不使用逻辑回归;另一方面,在使用逻辑回归时,注意选择同target(目标值)呈线性关系的feature(特征值)。

3) 各feature(特征值)之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。逻辑回归不像朴素贝叶斯那样,需要满足条件独立假设(因为它没有求后验概率)。但每个feature的贡献是独立计算的,所以逻辑回归是不能自动组合聚类出不同的features而产生新feature的。

  • 决策树算法:

决策树算法是借助于树的分支结构来实现分类的。树的内部结点表示对某个属性的判断,该结点的分支是对应的判断结果;叶子结点代表一个类标。决策树算法借助于树的分支结构实现分类。

如图9-3所示,是一个决策树的示例:一个预测某人是否会购买电脑的决策树,利用这棵决策树,可以对数据进行分类,从根节点(年龄)开始,若某人的年龄为中年,就直接判断这个人会买电脑,若是青少年,则需要进一步判断是否是学生;若是老年则需要进一步判断其信用等级,直到叶子结点可以判定记录的类别。

图9‑3决策树示例

决策树算法有一个好处,那就是它可以产生人能直接理解的规则,这是贝叶斯、神经网络等算法没有的特性;决策树的准确率也比较高,而且不需要了解背景知识就可以进行分类了,是一个非常有效的算法。决策树算法有很多变种,包括ID3、C4.5、C5.0、CART等,但其基础都是类似的。

  • 支持向量机算法:

支持向量机(SupportVector Machine,SVM)是一种常见的半监督式学习算法。支持向量机是Corinna Cortes和Vapnik等,于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出很多特有的优势,并推广应用到函数拟合等等其他机器学习的领域。通过寻求结构化风险最小,来提高机器学习能力。实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,也能获得良好统计规律的目的。通俗讲就是,她是一种二类分类器,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略就是间隔最大化,最终可转化为一个凸二次规划问题的求解。

具体原理:

1) 在n维空间中找到一个分类超平面,将空间上的点分类。如图9-4所示为线性分类的例子。

图9‑4线性分类示例

2) 一般而言,一个点距离超平面的远近,可以表示为分类预测的确信或准确程度。SVM就是要最大化这个间隔值。而在虚线上的点便叫做支持向量Supprot Verctor。如图9-5所示为SVM分类的示例。

图9‑5 SVM分类示例

3) 实际中,我们会经常遇到线性不可分的样例,此时,我们的常规做法是,把样例特征映射到高维空间中去,如图9-6所示。

图9‑6高维空间映射示例

4) 线性不可分映射到高维空间,可能会导致维度高的十分严重(甚至无穷维的例子),导致计算复杂。这个时候,常常会使用核函数,核函数的价值在于她虽然也是将特征进行从低维到高维的转换,但核函数事先在低维上进行计算,而将实质上的分类效果表现在高维上,避免了直接在高维空间中的复杂计算。

5) 很多时候,会使用松弛变量来应对数据噪音。

SVM的优点:

1) SVM学习问题可表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。

2) 举个例子:假设现在你是一个农场主,圈养了一批羊,但为预防狼群袭击羊群,你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢?你很可能需要依据牛群和狼群的位置建立一个“分类器”,如图9-7所示,比较图中这几种(SVM、逻辑回归、决策树)不同的分类器,我们可以看到SVM提供了一个很好的解决方案。这个例子从侧面简单说明了SVM使用非线性分类器的优势。

图9‑7 SVM、逻辑回归、决策树分类结果对比示意

  • BP神经网络算法:

BP(Back Propagation)神经网络是一种按“误差逆传播算法训练”的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP神经网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。她的学习规则是使用梯度下降法,通过反向传播(就是一层一层往前传)来不断调整网络的权值和阈值,使网络的误差平方和最小。如图9-8所示,BP神经网络模型拓扑结构包括输入层(input)、隐层(hidden layer)和输出层(output layer)。利用输出后的误差来估计输出层前一层的误差,再用这层误差来估计更前一层误差,如此获取所有各层误差估计。这里的误差估计可以理解为某种偏导数,我们就是根据这种偏导数来调整各层的连接权值,再用调整后的连接权值重新计算输出误差。直到输出的误差达到符合的要求,或者迭代次数溢出设定值(有监督学习)。BP的传播对象就是“误差”,传播目的就是得到所有层的估计误差。她的学习本质就是:对各连接权值的动态调整。

图9‑8 BP神经网络模型拓扑结构示意

  • 贝叶斯算法:

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题是缺少足够的信息,来构造100%正确的映射规则的,而是通过对经验数据的学习,从而实现一定概率意义上正确的分类,因此所训练出的分类器,并不一定能将每个待分类项,准确映射到其分类中,分类器的质量与分类器构造方法、待分类数据的特性、以及训练样本数量等等诸多因素有关。

  • 贝叶斯定理

贝叶斯分类的基础:贝叶斯定理,这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:

P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式详细见公式9-1:

公式9‑1求解公式

贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通了从P(A|B)获得P(B|A)的道路。贝叶斯定理见公式9-2:

公式9‑2贝叶斯定理

  • 朴素贝叶斯分类

朴素贝叶斯分类是一种十分简单的分类算法,朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。打个比方,如果你在街上看到一个黑人,让你猜他哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。整个朴素贝叶斯分类分为三个阶段:

(一)第一阶段:准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当的划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

(二)第二阶段:分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率,及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性计算阶段,可由程序自动计算完成。

(三)第三阶段:应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,可由程序完成。

下篇我们将继续介绍:回归验证

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-24

《线下线上联动闭环场景营销新趋势》

随着近年来移动、O2O、大数据、程序化广告的火爆。线下线上打通闭环联动是无数营销人的梦想。那么大家可能会问具体机制是怎样的?而且线下真实世界大数据打通线上虚拟的互联网世界后能做什么、运用的方向及玩法都有哪些?这次分享将从技术、目的意义、线下行为特点、成熟案例分享等等角度,全方位的为大家揭示已经悄然火爆的场景营销新趋势。

演讲PPT包含内容如下:

1.线上营销推广线下可闭环联动么?

2.“线下行为”VS“线上行为”

3.线下线上联动闭环场景营销成熟案例介绍

点击 网盘下载地址 下载

可关注微信订阅号:ad_automation ,并发送“422ppt”索取密码

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-18

摘要:无意中翻出10年前对互联网产品创新可能的变量的梳理,以及社区类产品的梳理。以及分析梳理概念的方法论。发出来一起共勉及纪念一下。

互联网需求,产品设计变化的变量:

社区模型:

SNS的兴起:

产品梳理:

1.以SNS为核心的社区应用服务平台。包含BBS、Blog、CMS、SNS等4个产品。

BBS:定位于话题讨论;(用户产生内容)

Blog:定位于个人(团体)信息发布; (用户产生内容)

CMS:定位于网站内容采、编、发;(网站推送内容)

会员中心:定位于会员互动中心,在各产品间起到会员粘合、信息贯通的作用。

2. 产品理念

使用户能够:随时随地地发现、分享、交流、互动、展示,并从中得到收益。使网站能够:

  • 增强会员互动,提升网站粘性。
  • 促进网站内容传播,提升网站PV。
  • 激发用户产生内容,提升网站价值。
  • 聚合用户需求,有效定向营销。

3. 产品功能构成

3.1 各产品重点-BBS(以内容为中心,突出交流)

3.2 各产品重点-Blog(以人为中心,突出展示、分享、交流)

3.3 各产品重点-会员互动中心(以人为中心,突出发现、分享、互动)

分析方法论:

什么是领域(概念)模型?

从不同视角,不同用途对实际业务场景进行归纳总结,并将总结出的概念组织起来解释这些实际业务

针对专一业务领域归纳总结出的这些概念及由这些概念组织起来的体系称之为概念模型

必要条件:

1.这些概念必须自成体系,能够自圆其说。

2.组织起来能完全解释实际业务

怎么找出领域模型?

分析方法:主谓宾定状补,名词法动词法,关系实体法,状态机法

寻找数学模型(穷举,抽象)

软件设计模型介绍(软件全命周期介绍):

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《5.28线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-17

5月28日15点机械工业出版社3号楼10层会议室流水课通知“大数据基础(下)”

4月15日,程序化广告流水课第8期刚刚举办完毕,吴俊老师给我们来了一场营销大数据的知识盛宴,内容覆盖DMP、cookiemapping等内容。虽然活动从下午3点持续到5点半,但关于大数据的内容还没有讲完,所以在5月28日这期活动中继续讲解大数据,内容包含线上线下数据的打通、DMP案例等相关内容。

另外,每次活动结束后,我们都会征询同学们的建议,以此来优化我们的活动。在此次活动中,有些同学提供了宝贵的建议,比如商汤科技的张帆提出来,可以在分享之前找一位同学分享在工作中遇到的问题,这样就可以在吴俊老师的分享中有的放矢的解决这些实战问题,又比如时趣互动的文静提出来可以把产品相关的知识讲的更深入,这样对于她作为一个产品经理来说更有针对性,另外还有恒益九州的周刚、亿利集团的朱楠、力美的赵荣等等同学提出了宝贵建议。我们程序化广告这个平台会认真听取每位同学的心声。所以,也许在以后的活动中,会有一些新的好玩的内容或形式,加入到活动中。让我们拭目以待吧!

以下为5月份的活动安排,我们不见不散:

活动时间:2017年5月28日 周六下午 15:00——17:00

活动详细安排:

14:50-15:00  签到与自我介绍

15:00-16:30  吴俊老师分享

16:30-17:00  全体同学自由social时间

在讲解过程中,如果你有任何问题,可随时提问。

活动地点:北京 西城区 百万庄大街22号机械工业出版社3号楼10层会议室

乘车路线:地铁6号线 车公庄西站 D西南口出。

报名方式:

第一步:添加微信号:13121124046(伍刀刀);

第二步:填写报名表,并缴纳200元报名费(单次体验票¥200,欢迎大家选购超实惠的¥1920年包套餐、或¥4188VIP年包套餐);

第三步:活动当天来到活动现场签到参与。

另外,为了满足无法亲临现场同学的需求,此次活动我们增加了线上同步直播及视频回看。

如何参加线上直播及视频回看?

第一步:添加微信号:13121124046(伍刀刀);

第二步:填写报名表,并缴纳200元报名费;(单次体验票¥200,欢迎大家选购超实惠的¥1920年包套餐、或¥4188VIP年包套餐);

移动端、PC直播地址:

 http://mudu.tv/watch/772943

第三步:我们会将以您手机号作为唯一识别码加入直播间,给您可以在线直播互动及视频回看的课程地址参与活动。

直播将以视频形式进行,而且能够进行互动,我们将回答您在直播间提出的每个有价值的问题。而且若您时间上冲突,依然可以等有空的时候回看即可。

如您在报名中遇到任何问题,请拨打电话或添加微信:13121124046(伍刀刀)随时联系我们。

吴俊老师简介:

吴俊老师是中国广告PDB(Programmatic Direct Buy 私有程序化购买)第一人。现任掌慧纵盈高级产品总监,专注于线下数据线上打通营销解决方案,推动数字营销新升级。

更多朋友们对于吴俊老师的了解来自于他此前在品友的工作经历。吴俊老师是原品友负责PDB/移动/流量的产品总监,拥有16年以上IT/互联网行业从业经验和超过5年的程序化广告工作经验。他在2014年负责推动了中国首个PDB广告投放项目(2014中国国际广告节长城奖金奖上海通用汽车私有程序化广告投放案例),通过PDB帮助广告主管理了数亿广告预算投放,在广告主包段的门户及垂直媒体PC和移动端黄金广告位以及视频媒体贴片黄金资源,实现了广告投放的跨媒体联合频控、千人千面;最终有效提升了广告主广告预算的ROI:CPUV降低至少30%以上(即相同的预算覆盖更多的受众);平均CPL降低20%以上(降低销售线索的获得成本,同时广告主反馈后续CPQL验证及后续转化效果也比较好)。

2014年底2015年初在市场反馈十分巨大的视频广告PDB领域持续发力,推动行业内视频广告PDB业务大规模迅速发展,目前市场上已有上海通用汽车、玛氏、欧莱雅、人头马、Burberry、高露洁、黑人、雅士利等等等等不同行业,近百广告主近千视频OTV项目通过PDB方式进行了投放。无论是对效果营销客户还是品牌营销客户,吴老师都有极为广博的经验。

以下为本两次活动——《大数据基础》讲解提纲:

——160页ppt

授课时间:分为2次课,分别放在4月份1次课、5月份一次课。

主要内容:

DMP价值意义

什么是DMP

Data类型

DataManagement 流程

DMP的系统构成

数据互通的核心 –ID mapping

————以上为415课程已讲内容

———–如下为528的课程内容:

移动设备ID专题

Cookie原理

什么是cookie

种cookie的流程

种cookie的指令

跨域名cookie不可被获取

CookieMapping的重要性

Cookiemapping率的重要性 –mapping率越高数据利用率越高

cookiemapping原理

单向cookie mapping

双向cookie mapping

cookie mapping发起方及时机点

DMP对程序化广告的指导

线下DMP

线下数据采集

消费者洞察

渠道效率分析

数字营销指导

Datahub

data交易市场

市面上常见的第三方数据供应商,及其特点

DMP系统案例分享

Trading Desk & DMP & PDB(PMP)案例:某知名乳品大数据驱动数字营销管理系统

线下DMP系统案例分享

某大型国际知名车企全国4S线下到店大数据管理系统

专有线下DMP+DSP案例

锋暴研习社:由国内知名营销人士吴俊、宋星等人发起,致力于打造一个营销界内的学习社群,开设极具价值的营销系统课程,持续不断的输出原创营销干货,定期举办线下讲座、沙龙活动,使圈内的每个营销人得到快速成长与提升。

(转载请注明出处:微信订阅号:ad_automation)

2017-04-11

《大数据基础》《受众数据》之后,我们继续DMP相关的内容:

数据管理平台

数据要想发挥出价值,就需要一个集中采集、存储、处理、分析、输出运用的系统平台。下面我们就数据管理平台的定义、构成及价值意义展开介绍。

1 什么是DMP

DMP(Data Management Platform)即:大数据管理平台。

需要一个大数据平台将线下、线上、内部、外部的海量数据管理起来,并分析处理,为实际业务运用做储备。

2 Data Management 流程

不论是第一方、第二方、第三方大数据管理数据处理流程都是一致的,尤其重要的是运用价值,无运用价值的Data是无用的Data,切不可为了“Big Data”而“Big Data”。大数据处理流程示意图如下:

3 DMP的系统构成

大数据管理平台是完整的,对大数据进行管理的软件系统,其中会包含各种基于大数据的软件功能。

不论是第一方、第二方、第三方大数据管理平台的内部整体架构,及数据处理流程都是一致的。都是需要基础的数据采集、清洗、分析、运用的功能。没有运用价值的DMP是无用的DMP,切不可为了“DMP”而“DMP”。

区分不同DMP平台最大的差别在于:

1)       采集的数据不同差异性

2)       运用方向上功能的差异性

DMP系统从底层数据采集,到上层可视化输出的架构层次,参见如下“DMP架构示意图”:

4 DMP价值意义

几年前,大数据的概念就炒的很火,但当时在广告主实际业务中,并没有能够实现落地。因为当时基础设施还不完善、行业上下游的认知还不一致、大家还没有能力打通数据资产。现在有很多广告主开始做大数据,是因为基础设施已经基本成熟了,接下来就是如何在各个行业中开花结果啦。大数据在营销领域主要可以从这么几个方向上创造巨大价值(但不局限于这些方向)。

  • 消费者洞察、产品建议;
  • 媒介渠道效率分析;
  • DMP对程序化广告的指导;
  • 对管理、战略等业务决策的数据支持。

等等

5 线下DMP

相对线上用户数据而言,线下用户行为数据更加可靠。比如用户去机场,出行意图非常明显。所以如果我们能掌握精准的线下用户数据,并进一步能打通线上和线下用户数据,这样的价值和意义就十分巨大啦。

5.1 线下数据采集

随着线下数据采集技术、各种智能硬件的发展,WIFI、Beacon、摄像头、RFID、NFC等等,新的线下数据采集手段也日新月异。物联网将成为未来工业界升级的关键。而大数据的处理方法、流程不变,变的是“数据采集”的对象和内容:线下用户行为。

5.2 线下行为特点

线下行为相对线上行为,还是有一些比较有意思的特点的:

1)       成本

线上行为更多的是用户动动鼠标或者手指。而线下行为,用户是要出行到店铺现场的。相对来说出行成本大于指间运动成本的,所以相对来说,用户目的性会更强一些。比如用户在网上看车的,同直接去4S店看车的行为做比较,去4S店的,购车意愿和目的性会相对强烈一些。

2)       群体

线上的行为因电脑、手机屏幕的局限性,大多还是以个体交互的居多。而线下购物、逛街等等,很多时候都是几个人一起的。这是线下行为有意思的差异点。所以我们在线下数据分析的时候,也需要多多留意。4S店线下客户分组分析的示例截图如下:

3)       现实

互联网对很多用户而言,毕竟还是个虚拟的世界,很多人会关注一些现实世界中不怎么关注的内容。举个例子:在搜索引擎中搜索奶粉的不一定是妈妈,很有可能是爸爸。所以线下的数据相对而言,更加真实,更贴近现实社会的经济活动。

5.3 消费者洞察

基于线下数据的消费者洞察,相对线上更贴近现实,更代表消费意图,是十分典型的目标受众分析样本。所以对这些典型用户进行调研问卷、线上行为数据采集、线下行为数据采集。然后得出这些典型用户的人口属性、兴趣特征的洞察,对调整产品的定位,以及功能特性,意义巨大。线下店面人群画像示例截图如下:

5.4 渠道效率分析

只要掌握了线下的用户数据,并打通线上数据的设备ID,就能十分轻松地比对线上广告投放,对线下引流到店的贡献。通过这样的线下线上的闭环,大大提升了媒介效率。线下线上闭环分析流程示意图如下:

其实线下的用户数据分析,还能分析各种不同线下渠道的效率。线下经销商客流关联分析示例截图如下:

5.5 数字营销指导

线下到店的人群往往都是产品的重度用户,基于这些用户作为样本,进行行为学习,来寻找更多具备类似特征的潜在客户。并通过程序化广告的手段来进行广告投放。这将使得精准营销的方向更落地,也更实效。线下用户行为指导线上数字营销示意图如下:

6 Data Hub

随着第三方数据供给方的丰富。广告主对这些数据的兴趣和运用的渴望日益强烈。所以很多DMP、DSP、TradingDesk也纷纷提出了“数据集线器”,“数据融合”的概念。

7 Data交易市场

在国外,有些ADX会为DSP提供(可直接技术手段对接使用的)Data交易市场。各DMP供给方,可根据自身的数据特点,在Data交易市场中售卖数据。

国内虽然也出现了一些数据交易市场,但都是为“线下数据买卖”提供的交易场所。并不是通过技术手段对接的数据服务交易市场。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-10

上篇《大数据基础》我们重点是围绕数据核心“人的唯一性标识”进行的阐述。下面我们将从受众的大数据处理流程及运用层面展开。

1.线上数据、线下数据

用户会在线上、线下产生大量的不同特点的行为数据。

线上数据大体有:

  • 用户浏览网络的行为:指记录用户在PC + Mobile上浏览网络的行为数据。这类数据的主要有:描述哪个用户在哪个时间点、哪个地方,以哪种方式完成了哪类行为,从而了解受众行为偏好。包括:用户ID、用户行为、用户设备、IP、URL、地理位置等等数据。
  • 站内与销售数据:指用户在广告主官网、EDM、电商网站或APP中产生的行为数据,往往对应着非常明确的目标用户及其兴趣。例如:站内流量、搜索、浏览、比价、加入购物车、购买、页面停留时间、注册情况、留言等等数据。
  • 社交数据:指用户在微信、微博、QQ、论坛等社交网络中产生的数据。包括:社交账号数据、受众属性数据(性别、年龄、学历等)、行为兴趣数据等等。

线下数据大体有:

  • CRM系统中的用户数据等等;
  • 用户到店的数据等等;
  • 用户线下的位置、轨迹数据等等。

2.Data的获取来源

一般我们会从数据的拥有方,及获取来源,将数据分为三类(以下是以广告主视角来举例的):

  • 第一方数据:广告主内部数据(CRM)及广告主官网布码、线下店面安装设备收集到的数据;
  • 第二方数据:广告投放方(媒体方、DSP方等)通过广告投放获取到用户对于该广告在媒体上的互动的数据;
  • 第三方数据:同广告主无任何关系,第三方数据供应商提供的数据。例如:第三方监测公司、其他脱敏数据(剔除用户隐私内容)。

数据的类型可以有很多,不仅仅局限于广告投放数据,还包括各种线下、线上、CRM、调研、第三方等等各种数据。

数据的采集、打通、管理、分析、运用成了重点。

跨屏识别方法与挑战

这里提到的跨屏识别,主要指的是跨移动/PC跨设备识别。而不是有些人说的不同App之间(通过设备ID),或者不同Web网站(通过CookieMapping)之间的。

很多监测方或技术商,号称可以跨移动/PC跨设备识别。但实际上,除了只能使用会员账号ID来打通之外,没有别的办法。

有些监测方会使用,用户上网IP的统计学方式,来模糊统计。但由于目前存在大量局域网,使用同一上网IP出口,再加上上网出口“IP漂移”等等问题,这种统计结果准确率有待商榷。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-04-05

摘要:最近群里有同学问广告API对接怎么回事,这里发篇简单的文章介绍一下各种不同的流量技术对接的注意点。

对接各类媒体对应的主要技术方式:

注:除APP端、服务端对接需增加cookie mapping

一、PC/移动Web

1.JS代码(JavaScript)

媒体卖方通过排期系统投放买方系统的JS代码。

广告的展示及用户浏览网页的相关数据的获取均由该JS代码处理。

省去双方CookieMapping的问题。

此方式技术对接快,一般1-2个工作日就能完成技术对接。

但这种方式由于媒体卖方丧失了对流量的控制权,若不是预算足够大,媒体卖方不太支持该模式。

2.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。

双方需要进行CookieMapping。

此方式技术对接周期较长,一般1-2个月才能完成技术对接。

这种方式由于媒体卖方可对流量进行控制,是常见的技术对接方式。

二、移动App

1.SDK

广告的展示及用户手机的相关数据的获取均由SDK代码处理。

SDK采用自己的设备ID规范,不需双方统一设备ID规范。

此方式技术对接快,但存在一个App新版本发布的更新周期,一般3月左右。

但这种方式由于媒体卖方丧失了对流量的控制权,若非小媒体,稍大一些的媒体卖方一般均不支持该模式。

2.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。

双方需要遵守统一的设备ID规范。

此方式技术对接周期较长,媒体方技术已准备好的情况下一般也需要1个月才能完成技术对接。(若媒体技术未准备好,则可能需要花近半年左右的时间进行改造,改造的核心就是媒体每次广告曝光机会需请求服务器申请精准的广告,而不是之前提前已按排期下发获取广告的模式。)

这种方式由于媒体卖方可对流量进行控制,是常见的技术对接方式。

三、视频

视频广告常用VAST及VPAID作为标准协议规范,下面就给大家简单介绍一下:

1.VAST对接模式,参见文章:《VAST实用知识》

2.VPAID广告播放容器对接模式,参见文章:《VPAID要点》

3.API

服务端接口对接,大都采用基于OpenRTB标准协议基础上进行定制的方式。具体内容类似上述PC及移动App的内容。

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。

2017-03-28

近年来整体数字营销行业的发展呈现出三大趋势:

第一个趋势:广告主越来越重视数据资产,他们将自己的大数据沉淀下来,然后建立大数据系统。其实在两年前,很多广告主就想做大数据资产沉淀,但直到现在才有可能真正落实,开始基于数据资产,优化数字营销能力。

第二个趋势:很多企业开始发展自己的大数据技术,结合原有的数据沉淀,自己建设数字营销DSP平台投放广告。

第三个趋势:广告主在打通线上和线下大数据,构建闭环生态方面,也有很大诉求。

可见大家越来越重视数据,大数据越来越成为数字营销、程序化广告的重要基础。大数据就是通过各种数据采集手段采集到线上线下的用户行为数据,经过清洗、分析、管理并结合营销业务,从基础业务运行支撑、报表分析、人群画像、销售自动化、营销精准化、决策支持等等各个方面发挥巨大价值。而大数据是跨学科的领域,会涉及到技术、业务等等很多方面的内容。本章会花较大的篇幅从必备的一些基础知识进行阐述,后续实战的很多内容都是基于这些基础概念和知识的。所以建议大家认真学习。

人的唯一性标识

大数据营销首要的就是分析目标受众,并针对目标受众的特点及其当时的场景进行有效地营销活动。收集的海量数据也是基于人为核心的。所以追踪个体用户行为、对人的唯一性标识是营销大数据的关键。

1.人唯一性标识的方式

标识一个人的方式可谓是丰富多样:

  • 对于真实世界中,日常工作生活中常用身份证件号(身份证、护照等各种证件)来标识一个人;
  • 在医学上常用DNA鉴定的方式类标识一个人;
  • CRM系统中常常以手机号来标识一个人;
  • PC端的Web网站对于用户的浏览行为常常使用CooikeID来标识;
  • 很多网站及服务常用会各种会员ID来标识一个人, 社交中我们常用QQ号、微信号等等;其他各种服务也会存在着各种会员ID。为了避免遗忘这些会员ID我们可能都经常需要一个小软件来帮我们管理这些ID;
  • 手机设备App端常用设备ID来标识一个人。

等等等等,可见对人的唯一性标识极其的复杂且重要。

2.数据互通的核心–ID Mapping

我们可以发现标识一个人的方式实在是花样繁多。大量的用户数据由于其产生和采集的场景区隔性的特点,造成了大量的数据花园围墙。单独的数据孤岛能创造的价值十分有限。所以ID mapping成为数据互通的核心,只有ID首先能打通才有可能联通各个数据孤岛,促进数据流动创造数据价值。

3.PC端识别技术

PC端,用户在互联网上主要是通过浏览器浏览内容,及完成相应的业务操作的,所以Cookie是PC端标识用户的重要技术。相关内容详情请阅读文章《什么是CookieMapping》

4.移动端识别技术

详情请阅读历史文章《移动数据关键ID系列》:

移动设备ID烦恼知多少?【技术类】

IOS体系ID知多少?【技术类】

Android体系ID知多少?【技术类】

媒体注意:Android设备ID大洗牌【行业动向】

蓝瘦香菇的ADX移动ID【技术类】

(转载请注明出处:微信订阅号:ad_automation)

文字表现力有限,欢迎参加《4.15线下大课堂》面对面为您答疑解惑讲透您关心的问题。