0%

嗯,这么久没更新博文,是因为有一篇文章写了很久但一直没写完。真是哔了狗了。

今天想说的是一件更加哔了狗的事情。

Gist 是 GitHub 推出的代码片段分享服务,是最好用的代码片段分享服务没有之一。但是,它被天杀的围墙挡在了外面;而挡住它的理由更是无厘头——有人在白宫上发起了一个针对围墙的请愿活动,使用 Gist 提供了一份围墙制作人员的名单

没办法,学习工作都需要用到 Gist,于是决定用 Nginx 在 EC2 上搭建一个针对 Gist 服务的反向代理服务器。

阅读全文 »

使用 LaTeX 的过程中,如果需要插入图片、表格,我们有时会用到页面宽度。那么,在 LaTeX 中都有哪些常用的宽度?它们有什么区别?分别又该在什么时候使用呢?

阅读全文 »

LaTeX 中的 hyperref 宏包是一个非常强大的宏包,它提供了和超链接的各种接口。特别地,对于 LaTeX 原生的交叉引用,hyperref 宏包能够在引用位置生成一个超链接——点击之后跳转到相关位置。

不过,如果你将 \caption 放在 \includegraphics 后面,然后在文中对图片进行引用的话,点击超链接后将跳转到图片标题位置。此时,图片本身会被挡住。这多少有点不方便。

阅读全文 »

本系列的上一篇文章介绍了 NLP 中处理分词的两种方法,其中基于统计语言模型的方法以巨大的优势胜出。

在上一篇文章的末尾,我们讲了优秀的算法模型在形式上应该是简洁优雅的。具体来说:

  1. 一个正确的数学模型在形式上应该是简洁优雅的。
  2. 一个正确的数学模型,在刚开始的时候可能还不如一个经过精心调教的错误模型准确。但是错误模型不论如何调教,因为方向错了,所以终究会有处理不了实际问题的时候。
  3. 正确的数学模型可能因为受到干扰而不准确。此时应该找出干扰、噪音,并解决它们,而不是简单凑合去修修补补。

这篇文章我们继续讲分词和统计语言模型。不过,这次的内容会比上次要深入、深奥,并且会涉及到一些数学推导,以及一些工程上的 Dark Side。不过,其中有些非常 Tricky 的技巧对于大多数读者来说没有必要阅读,而剩下的部分中简单的数学推导也不致枯燥。

阅读全文 »