Review on Statistical Language Models for Information Retrieval
Language Model是Information Retrieval领域最近10年左右发展起来的一个新的模型,相比于旧的Vector Space Model和传统的概率模型,Language Model有更好的理论基础。
此书是在Language Model领域活跃的华裔科学家ChengXiang Zhai所写,非常浅显易懂。其中不乏一些在论文中没法出现的基础例子。
唯一需要提醒的是,Language Model有很多的研究分支,ChengXiang Zhai很明显比较侧重于其自己的研究。
其另外两个类似的文章也值得一读:
1. ChengXiang Zhai, Statistical Language Models for Information Retrieval: A Critical Review, Foundations and Trends in Information Retrieval, Vol. 2, No. 3 (2008), pages 137-215, doi:10.1561/1500000008.
2.ChengXiang Zhai and John Lafferty, A risk minimization framework for information retrieval , Information Processing and Management ( IP &M ), 42(1), Jan. 2006. pages 31-55.(这个不是他的博士论文,而是一个更新的版本)