太阳是黑色的

少年听雨歌楼上,红烛昏罗帐.壮年听雨客舟中,江阔云低断雁叫西风. 而今听雨僧庐下,鬓已星星也! 悲欢离合总无情,一任阶前点滴到天明.

Archive for 7 1 月, 2010

Review on Statistical Language Models for Information Retrieval

Language Model是Information Retrieval领域最近10年左右发展起来的一个新的模型,相比于旧的Vector Space Model和传统的概率模型,Language Model有更好的理论基础。

此书是在Language Model领域活跃的华裔科学家ChengXiang Zhai所写,非常浅显易懂。其中不乏一些在论文中没法出现的基础例子。

唯一需要提醒的是,Language Model有很多的研究分支,ChengXiang Zhai很明显比较侧重于其自己的研究。

其另外两个类似的文章也值得一读:

1. ChengXiang Zhai, Statistical Language Models for Information Retrieval: A Critical Review, Foundations and Trends in Information Retrieval, Vol. 2, No. 3 (2008), pages 137-215, doi:10.1561/1500000008.

2.ChengXiang Zhai and John Lafferty, A risk minimization framework for information retrieval , Information Processing and Management ( IP &M ), 42(1), Jan. 2006. pages 31-55.(这个不是他的博士论文,而是一个更新的版本)