Introduction to Information Retrievalを読む

大学院の前期の講義に合わせて,Introduction to Information Retrieval を読破した.
http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html
未だ発売になっていない本ではあるが,完成度が高い.今からIRを勉強したい人には,絶賛お勧めである.

  • 数式が非常に少ない.個人的には数式が多少多くても,分かりやすい方がよいと思うが,この本は著者の文章力(ManningとSchützeはさいころが表紙の本でIRの人にはおなじみだろう.RaghavanはY!ResearchのHeadであり,Miningの世界では理論も応用もできるスーパーマンとして,知らない人は居ない有名人である)で理論も強いにも関わらず,あえて数式を使わず,文章ロジックで説明している部分が見られる.これは,IRに初めて取り組む人に,とっつきやすい本である印象を与える
  • 最先端の内容が書かれている.IRのまとめを記述すると,TF-IDFをひたすら議論したりしがちであるが,データ分散&indexingの方法であるMap-Reduce(googleが論文で発表したが, MSや Yahoo!からも発展版の論文が出ている手法)や,機械学習(BayesやSVM.内容は詳しくない)の話,Link解析の話など,今の,そして,今後のIRを見据えた内容となっている.本書で興味を持った内容は,別のより詳しい専門書や論文を読めば良いだろう
  • 内容が,ネットの情報検索に偏っている.これは,善し悪しがあるとおもうが,現代の状況を見ると,ネットからIRの現状を掴むのは,身近なところから話がはじめられて,非常によいと思う.
  • 弱点は全般的に,図がしょぼい(分かるのだが,絵的なセンスが・・・というのが見られる)ことであるが,これは,出版する段階で更新されるだろう.

今からIRを議論するなら,知らなければいけない内容が網羅されていると感じるし,また,Map-Reduceや機械学習,Link解析など少し前では議論されていなかっただろう内容が含まれていて,今から突然IRの先端に行きたい人にも十分な指針となるだろう.

Foundations of Statistical Natural Language Processing
Christopher D. Manning Hinrich Schutze
Mit Pr (1999/06/18)
売り上げランキング: 13845
Randomized Algorithms (Cambridge International Series on Parallel Computation)
Rajeev Motwani Prabhakar Raghavan
Cambridge University Press (1995/08)
売り上げランキング: 21611