实训班第五期成果总结基于另类数据的精准 - 网络营销

TUhjnbcbe - 2022/7/17 17:03:00

北京中科医院好不好 https://wapyyk.39.net/hospital/89ac7_comments.html

Prelude

yin

引

子

“

在当今的互联网时代，随着用户线上使用时长不断增加，平台对于用户的使用喜好越来越重视，互联网销售的主要驱动力也逐渐由专业人员的知识经验积累转向数据驱动的以优化cac（用户获取成本）为目标的智能化优化。而在这之中，精准营销被视为核心难题。

”

Define

ming

命

题

在本课题中，我们着重于大健康行业的商品推荐场景（以HPV疫苗为例）。当今的精准营销方案主要分为两个方面：内容层次优化和客户层次优化，其中内容层次优化是如何根据客户特征进行广告的设计，本质是构建content→score的映射，而客户层次优化是如何将广告更精准的匹配给潜在用户。我们前期阅读了大量的文献，发现其中针对后者的研究远多于前者，所以我们选择内容层次优化作为本课题的主要研究方向。

Mining

shu

数

据

我们使用python数据爬虫对知乎话题和微博关键词搜索结果进行数据爬取，收集到与HPV疫苗相关的数据近十万条。

Constructure

模

xing

型

NLP自然语言处理

因为在研究过程中我们需要对文本进行量化分析，所以我们使用了NLP对文本进行自然语言处理以便将非结构化文本转换为结构化数据。首先我们使用python中文分词库Jieba对我们收集到的数据文本进行分词以适配NLP的最细粒度。

然后我们使用语言模型word2vec对分词结果进行词嵌入，最终将每一个词汇都转化为对应的一组高维向量（本课题中使用维）。我们用训练出的高维向量对文本中的词汇进行替换，以最长文本为基准统一维度（缺失文本的位置置零），转化完成！

基于高维密集特征的Deepctr模型改良

首先我们对于爬虫所得到的数据进行了指标分析，在文本分析得到的n个dim维特征的基础上添加了12个密集特征（如发布时长、作者粉丝数、文本链接数等）和1个稀疏特征（作者性别）。为了防止数据上溢并消除量纲，我们对原生数据进行了归一化。

在模型方面，首先我们发现deepctr中对于离散特征的处理方式实际上是将其化为了高维的零一特征进行处理，所以我们借鉴该思路修改了deepctr中处理密集特征的部分，使其也能够处理高维问题。

N:最长文本词数Dim:词向量维数M:使用的文本条数

其次在损失函数的选择方面，我们首先使用sigmoid函数进行数据的平滑化，通过公式推导发现，logloss函数与sigmoid函数相结合能够有效的抵消sigmoid函数在0附近变化率过大的问题。

当时，有

于是我们能够得出，其中y表示真实值，x表示预测值，p表示预测值经过sigmoid平滑化后的结果。很明显当p距离真实值y越远是logloss的值变化的越快，这刚好能与x距离0值越远时sigmoid函数变化越慢的性质进行平衡，取得较好的结果。所以我们在deepctr后面使用logloss损失函数对模型的精确度进行度量，我们发现随着使用数据的增多及迭代轮次的增加，损失值是在显著下降的，这表明我们的训练是有效的。

（左滑查看val_mse）

由于时间以及设备的限制，我们并没有使用全部的数据进行代码的运行，只在设备允许范围内使用了少部分数据进行运行，所以最后算出来的损失值偏大，但每一次迭代过程中损失稳步下降的趋势是没有问题的，所以使用全部数据运行是有望得到想要的结果的。

Future

wei

未

lai

来

由于时间有限，我们的模型还有一定的改进空间，比如在对于文本进行评价的过程中我们并没有考虑附带的图片、以及因为维数特征过大导致计算量较大的问题。我们曾经考虑过同样将图片化为dim维向量并使用卷积神经网络的方式让高维向量对应位置的权重同步更新以减少计算量的方式，但因为时间关系没有落地，只能期待后来者继续改进了。

----------------LIKELIHOODLAB---------------

参与成员

81号成员梁致捷

82号成员窦可

指导顾问

陈柏安

似然实验室简介：

似然实验室是由广州朝旭投资管理有限公司原联合创始人刘铭文发起的公益型人工智能实验室，主要研究领域是人工智能在金融、能源等领域的应用。联合发起人有中山大学数学学院的付星宇、中山大学数据科学与计算机学院的左谭励、麻省理工学院的陈柏安、斯坦福大学的张逸晖。

似然实验室网站：