xTR 预估任务是搜索、推荐、广告、电商领域的一大类问题。此类问题的建模相对简单明了——构建一个针对 xTR 的二分类任务即可。从过往的工作经验来看,在数据量达到一定规模之前,NN 模型上的花活(DNN -> W&D 系列 -> 多目标系列)带来的提升有限;ROI 更高的做法是在数据清洗、特征工程上做细致的工作。
此篇将讨论 xTR 预估任务当中的特征工程。因内容宏大,难以一时完成;故而将会分批陆续更新。因涉及广泛,故而与博客内其他文章不同,此篇文章的内容,会很大程度上借鉴以至摘抄同好之文章,并做好引述工作。
时间类特征
作者:大博
链接:https://www.zhihu.com/question/350863682/answer/860524396
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。考虑问题中的「时间」。从三个角度:用户的时间,商品的时间,用户与商品间的时间。每个角度可以包括的时间类型:时间绝对值,时间间隔值。每个时间类型可以有不同的计算方法:统计型,独立型。(备注:一下就计算来的值算独立型,通过一堆独立值统计来的,用「平均/最大」等描述的特征算统计型。)
- 用户的时间:(刻画用户本身的习惯)
- 时间绝对值
- 统计型:一个月内最高频的浏览时间
- 独立型:用户当前浏览时间/用户上一次浏览时间
- 时间间隔值
- 统计型:用户曾经两次浏览的时间间隔的「平均」
- 独立型:用户本次浏览与上次浏览的时间间隔
- 商品的时间:(刻画商品本身的属性)
- 时间绝对值
- 统计型:商品最常被购买的时间
- 独立型:商品上架时间/预计下架时间(上下架指一个动作)
- 时间间隔值
- 统计型:三天除以三天内商品被购买次数
- 独立型:商品的在线时间/当前时间与商品常被购买时间的间隔
- 用户与商品间的时间:(刻画该用户到该商品的匹配程度)
- 时间绝对值
- 统计型:用户历史购买该商品的平均时间分布
- 独立型:用户上次购买该商品的时间/用户上次购买该商品所属品类的时间
- 时间间隔值
- 统计型:用户历史购买该品类商品的平均时间间隔
- 独立型:用户上次购买该商品到当前时间的时间间隔
最后总结下思路:
- 一般强特征都是用户到商品的交叉特征,「商品」要从商品id扩展到「品类」/「商户」/「标签」等等能交叉的角度。
- 时间间隔一般是强特。
- 历史统计型特征可以用条件概率去理解,虽不是强特,但多了是有用的。
- 哪怕是从「时间」考虑特征,特征所反应的含义应该是:这个人平时愿不愿意买东西,这件商品平时的受众是怎样的,这个人对这个商品的敏感程度是怎样的。