0%

xTR 预估任务是搜索、推荐、广告、电商领域的一大类问题。此类问题的建模相对简单明了——构建一个针对 xTR 的二分类任务即可。从过往的工作经验来看,在数据量达到一定规模之前,NN 模型上的花活(DNN -> W&D 系列 -> 多目系列)带来的提升有限;ROI 更高的做法是在数据清洗、特征工程上做细致的工作。

此篇将讨论 xTR 预估任务当中的特征工程。因内容宏大,难以一时完成;故而将会分批陆续更新。因涉及广泛,故而与博客内其他文章不同,此篇文章的内容,会很大程度上借鉴以至摘抄同好之文章,并做好引述工作。

阅读全文 »

这是系列文章的第十篇。前作介绍了复合句的概念,并介绍了分析和练习复合句的方法。

考虑到合句本身简单,所以在本系列中略去不讲,将来另开一系列讨论。本系列从此篇开始,介绍各种类型的复句。此篇介绍名词性从句。

阅读全文 »

这是系列文章的第⑨篇。前作处理了情态动词与虚拟语气,解决了简单句当中最后一个较大的问题。在简单句中,还剩下一些重要的问题没有处理(例如介词)。这些问题虽然重要,但十分零碎,无法用通常的办法以简御繁,更多地是要依靠大量阅读输入来解决。因此,这些问题不放在这一系列文章中,待将来另开一系列,专门解决各类小毛病。

从此篇开始,我们要进入复合句的世界。

阅读全文 »