因为一直在做推荐系统和点击率预估排序相关工作,所以一直想用一种粗糙但直观的方式来做一个推荐系统的示例,如果能有一定的工程实现价值就更好。最近突然有了这样一个基于 Beta 分布的想法,所以记录下来。当然,这个想法可能不是我的专利,可能已经有人想到过了。
一篇关于大公司病的魔幻现实主义文章的读后感
将 HDFS 上的目录作为 Hive 外表分区同时避免数据拷贝
Hive 是个好东西,它能够把 SQL 查询自动转化为一系列 Map-Reduce 任务。但显然,如何将数据引入 Hive 也会是个问题。一个典型的场景是:你通过某种方式,生成了大量结构化的数据,保存在 HDFS 上。现在你希望 Hive 能够基于这些数据,建立数据库,从而能够使用 SQL 语句进行数据库操作。但与此同时,因为数据量十分庞大,你不希望产生数据拷贝、搬移,以免消耗无谓的存储资源和计算资源。
此篇介绍我近期的一个实践方案。
在 macOS 上对单个文件取消「来自互联网的应用」之限制
macOS 上有对未正确签名的应用程序进行隔离的设定。具体来说,如果用户下载了一个来自互联网的应用,但该应用没有使用 Apple 认可的签名,则 Apple 会在用户尝试执行应用程序时提示「应用程序来自互联网」,要求用户确认后才能执行。
中文网络上对这种情况的解决办法,一般都是进入系统偏好设置,在安全性设置中允许来自任意位置的应用。这其实是取消了 macOS 的隔离功能,无疑会降低系统安全性。特别地,对于某些特定的程序,我们确切知道它是无害的,于是我们希望 macOS 对它打开绿灯,但对其它来自互联网的应用程序仍保持必要的隔离措施。这时,整个儿取消 macOS 的隔离功能就不合适了。
Scala 中下划线的一些魔法
这段时间开始学习使用 Scala。和大多数初学者一样,面对 Scala 的各种符号,我也是一脸懵哔。尤其是 Scala 中的下划线 _
在不同场合有不同含义,简直慌。适应一段时间之后,这里总结记录一下我遇见的下划线的含义。