論文での情報収集
毎年、年度頭の挨拶でも書いた方が良いかとおもうのですが、形式張ったのもどうかとおもうし、研究室に新入生も入って慣れてくるころなので、何か自分のスキルから学生に役立ちそうなものを書いてみることにしています(昨年と今年)。
自分で公開するのも恥ずかしい、とんでもない駄文ですが、誰かの役に立てばと思い、研究室向けに公開した文章をこちらにも掲載します。今年は、論文の情報収集の話にしてみました。ちなみに、昨年は、インターネットの情報収集の話をしました。1年経って状況も変わったので、アップデートしてあります。http://d.hatena.ne.jp/sesejun/20080404/p1
-
-
-
- -
-
-
この文章では、個人的には、なんだか当たり前の事を書いています。書いて公開するのを躊躇する位のレベルです。しかし、「この論文読んでみて?」とか「この章読んでみて?」とお願いした時や、輪講の時、その論文や本で参照されている論文や本を調べている事が少ないように見受けられるので、記します*1。長文なのでまとめを言うと、
「英語の論文を書きましょう。すると全て分かります」です。
まず、第一に本や論文は、その内容だけで完結するものではありません。本は読者の一定のレベルを想定しています。今までは、必ずお膳立てされて学んできたと思うので、前提知識が揃った状態で本を読んでいたとおもいますが、「この論文読んでみて?」といった論文には、当人が足りている知識もあれば、足りない知識もあるでしょう。必要なら、周辺の知識を獲得しながら読んでください*2。
次に、ooの内容が分かるテキストありますか?という質問。多くの場合、「ありません。」と答えます。質問されるのを拒絶しているわけではなく、特に、我々の分野(データマイニング、バイオインフォマティクス)では裾野が広すぎ、応用によって最適な文章が変わる部分も多いので、「これ読めばオーケー」という類のテキストが無いのです。色々な文章(できるだけ論理的に数式を含めて書かれている物。一般書は分かった気になっても、使うこと=プログラムにしたり、数式を発展させたりが難しいので避けた方が良いです)を読んで周辺知識を身につける事で、立ち位置がわかります。テキストの無い分野の方が、研究すべきことが色々あって、世界一への近道になります。
3点目に、英語だから分かりません。という言葉。90%嘘で10%本当だと思います。確かに英語だから分からない所はあるでしょう。しかし、技術系の文章は、分かりやすくかかれています。詩や散文の様に文化的な背景を含む心の文章ではなく、相手に分かってもらうための論理的な文章なのです。読む対象も英語ネイティブの人だけでなく、中国、インド、ヨーロッパ、様々な国の人が読めるように書かれています。皆さんのように受験英語を通ってきた人なら読めないのは英語だからではなく、背景知識が足りないか、読むときの論理が間違っている(以上、読む側の問題)、書いてある論理が間違っている、説明が足りていない(以上、書く側の問題)事が多いです。英語でも日本語でも同じです*3。また、英語の方が読む速度が遅いのは、認めます。多読して、速度を上げていきましょう。
4点目は、「全てを読んで理解する必要は無い」という事。みなさんまじめなので、全てを読もうとしますが、自分が必要な所を読めれば良いです。初めのうちは全てを読んでも構いませんが、知識が付いて慣れてきたら、必要なところだけをさらっと読めるようにしましょう(研究室は世界で戦っているので、のんびり論文を読んでいる時間はありません)手渡すときに、できるだけどこを読むべきか(全体か、実験か、手法か・・・)を沿えて渡すようにはしていますので、参考にしてください。
以上の内容を踏まえた上で、周辺知識を身につけるには、です。
1.何かの論文が参照している論文を片っ端から読む
これだけでも、相当周辺知識が付きます。元にする論文を選ぶところが難点。あと、1本1本の論文に時間をかけないこと。
2.チュートリアルの資料を見つける
あればラッキーです。Top Conferenceではチュートリアルとかワークショップとか言う名目で、総論的な話が語られることがあります。運が良ければ、ビデオも見つかります。見つけましょう。
3. 総論を見つける
- 目標は目的とする内容の最近の総論を見つけること
現在の研究は100%新しいことなど皆無で、ほぼ全ての論文が何らかの過去の知見に基づいて研究をしています。このため、総論が書かれている論文が見つかると、そこから演繹的に最近の論文をたどることができます。
- とにかく1本関連してそうな論文を見つける。
Google Scholarなどで検索しましょう。できるだけレベルの高い論文誌あるいは学会誌が良いです。適当に検索でひっかかったものだと、正しくない可能性もあるので。Top Conferenceなどと言われるものです。
- データマイニングなら、学会ではSIGKDD, ICDM, PKDD など。論文誌ではSIGKDD Explorations, ACM TKDD, DMKDなど。(機械学習なら、NIPS, ICML, ECML(以上学会), Machine Learningなど。
- バイオインフォマティクスなら、Bioinformatics, BMC Bioinformatics, PLoS Computational Biologyなど。
- もっと生物寄りなら、Nature Reviews 系も良いでしょう。
ここでの目標は論文全部を見るのではありません。今手に取っている論文から、関連研究を見る事です。まず、概略を読んで、関連研究を見ると、自分の調べたい内容に合致しているものか、あるいは、合致していないものか。合致していないとすれば、どの論文を見ればよさそうかを知ることが出来ます。もし、何も自分が知りたいことに関し記述が無い場合には、検索からの論文探しに戻ります。とにかく自分が知りたいことのキーワードに当たるまで、繰り返します。
- 計算機科学系の論文の場合には、Related Work の章がIntroductionの次か、論文のreferenceの前に書かれている事が多いです。
- 生物系の論文では、Introductionにあるか、Methodsの章にもある場合があります。最近は電子的にファイルが配られているので、検索しましょう。
- 総論らしき論文を発見する
発見できればラッキーです。読みましょう。発見できない場合も多いです。でも、色々調べている内に、自分が知りたいことの立ち位置が分かってくる事が多いと思います。
最後になりますが、論文や本の内容は間違っていたり、内容が足りない事も多いです。間違っていると感じたら、自分で追試したり、他の文章を調べましょう。論文は基本的に追試できる様に書かれているはずです。
以上は周辺知識を知るためのものです。上記のことは全て、実際に論文を書いて発表してみると分かると思うのですが、今回はとっかかりとしての話を述べました。
というわけで、最初に書いたまとめを再掲します。
「英語の論文を書きましょう」
-
-
-
- -
-
-
そして英語の文章を書くからには、世界で戦いましょう。
英語の、そして世界で戦う論文を書くには
- 人工知能学会誌23巻3号(2008/5)の松尾先生がまとめられた「国際会議に通すための英語論文執筆」という特集
- Tips for Writing Technical Papers http://infolab.stanford.edu/~widom/paper-writing.html
がとても役立ちます。
*1:背景には、皆さんの意識の問題だけではなく、私が論文を読むのが好きではないので、参考文献を読むことを強制していない事はあると思います。文章を読みすぎると、独自の発想が出にくくなるので、読み過ぎもキケンです。では、いつ徹底的に論文を読むのか?それは、論文を書くときです。書くときは他者と比較して有意な点を徹底的に言う必要があるので、他の研究を大いに知る必要があります。
*2:本論に関わらないところは、たとえ細かく知らなくても、知る必要が無い場合も多いです。全てを知る必要は必ずしも無いのです
*3:ただし、情報系の英語は文章が単純で論理的に展開するので分かりやすく、生物系の英語は少し格調高くて唐突に事象が現れて分かりにくい場合があるのは、認めます