今天说点不一样的,聊聊「梨花又开放」这首歌的歌词。
利用穷人乐理论撰写精准营销类文章
一种基于 Beta 分布的推荐方法示例
因为一直在做推荐系统和点击率预估排序相关工作,所以一直想用一种粗糙但直观的方式来做一个推荐系统的示例,如果能有一定的工程实现价值就更好。最近突然有了这样一个基于 Beta 分布的想法,所以记录下来。当然,这个想法可能不是我的专利,可能已经有人想到过了。
一篇关于大公司病的魔幻现实主义文章的读后感
将 HDFS 上的目录作为 Hive 外表分区同时避免数据拷贝
Hive 是个好东西,它能够把 SQL 查询自动转化为一系列 Map-Reduce 任务。但显然,如何将数据引入 Hive 也会是个问题。一个典型的场景是:你通过某种方式,生成了大量结构化的数据,保存在 HDFS 上。现在你希望 Hive 能够基于这些数据,建立数据库,从而能够使用 SQL 语句进行数据库操作。但与此同时,因为数据量十分庞大,你不希望产生数据拷贝、搬移,以免消耗无谓的存储资源和计算资源。
此篇介绍我近期的一个实践方案。