0%

xTR 预估任务中的特征工程

xTR 预估任务是搜索、推荐、广告、电商领域的一大类问题。此类问题的建模相对简单明了——构建一个针对 xTR 的二分类任务即可。从过往的工作经验来看,在数据量达到一定规模之前,NN 模型上的花活(DNN -> W&D 系列 -> 多目系列)带来的提升有限;ROI 更高的做法是在数据清洗、特征工程上做细致的工作。

此篇将讨论 xTR 预估任务当中的特征工程。因内容宏大,难以一时完成;故而将会分批陆续更新。因涉及广泛,故而与博客内其他文章不同,此篇文章的内容,会很大程度上借鉴以至摘抄同好之文章,并做好引述工作。

时间类特征

作者:大博
链接:https://www.zhihu.com/question/350863682/answer/860524396
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

考虑问题中的「时间」。从三个角度:用户的时间,商品的时间,用户与商品间的时间。每个角度可以包括的时间类型:时间绝对值,时间间隔值。每个时间类型可以有不同的计算方法:统计型,独立型。(备注:一下就计算来的值算独立型,通过一堆独立值统计来的,用「平均/最大」等描述的特征算统计型。)

  • 用户的时间:(刻画用户本身的习惯)
    • 时间绝对值
      • 统计型:一个月内最高频的浏览时间
      • 独立型:用户当前浏览时间/用户上一次浏览时间
    • 时间间隔值
      • 统计型:用户曾经两次浏览的时间间隔的「平均」
      • 独立型:用户本次浏览与上次浏览的时间间隔
  • 商品的时间:(刻画商品本身的属性)
    • 时间绝对值
      • 统计型:商品最常被购买的时间
      • 独立型:商品上架时间/预计下架时间(上下架指一个动作)
    • 时间间隔值
      • 统计型:三天除以三天内商品被购买次数
      • 独立型:商品的在线时间/当前时间与商品常被购买时间的间隔
  • 用户与商品间的时间:(刻画该用户到该商品的匹配程度)
    • 时间绝对值
      • 统计型:用户历史购买该商品的平均时间分布
      • 独立型:用户上次购买该商品的时间/用户上次购买该商品所属品类的时间
    • 时间间隔值
      • 统计型:用户历史购买该品类商品的平均时间间隔
      • 独立型:用户上次购买该商品到当前时间的时间间隔

最后总结下思路:

  1. 一般强特征都是用户到商品的交叉特征,「商品」要从商品id扩展到「品类」/「商户」/「标签」等等能交叉的角度。
  2. 时间间隔一般是强特。
  3. 历史统计型特征可以用条件概率去理解,虽不是强特,但多了是有用的。
  4. 哪怕是从「时间」考虑特征,特征所反应的含义应该是:这个人平时愿不愿意买东西,这件商品平时的受众是怎样的,这个人对这个商品的敏感程度是怎样的。
俗话说,投资效率是最好的投资。 如果您感觉我的文章质量不错,读后收获很大,预计能为您提高 10% 的工作效率,不妨小额捐助我一下,让我有动力继续写出更多好文章。