これはいくつか理由があると思います。まず五十嵐さんの指摘された点は概ね正しいです。
- ソフトウェア自体をオープンにするかどうかはグラントによります。すべての成果をOSSとして公開することを義務付けているmものもありますが、逆に公開には研究機関との交渉が必要なところもあります。ライセンスに関しても自由に選べるところと、制限つきのものがあります。
- しかしプロトコールの一部としてソフトウェアも含まれている場合は、アルゴリズムなどは当然公開しなくてはなりませんし、その一環としてソースコードも公開するようになったのは自然な流れだと思います。
- またソフトウェア開発元で、その企業の研究者によってキュレートされているデータセットが含まれている場合、その出典元を辿れない場合もあるため、よりオープンなものが良しとされます。
- 研究において計算機による解析が大きな比重を占める場合、そのアルゴリズム、そしてできれば実装が公開のものであることが重要とされます。OSSとして公開しておけば、類似のデータセットに対して同じような解析を行う第三者に引用される可能性は確かに増えます。
- しかし、そもそも手法やツールそのものに関して論文を書くことも割と頻繁にあります。 ちなみに私の関わる論文はほぼこのカテゴリに入ります。
- 同じトピックに関して、アルゴリズム・手法で一報、実際に生物学的な問題に適用したもので一報、ツールの設計と実装で一報、ということもそう珍しいことではないです。
- データセットの種類は非常に多岐にわたりますが、ある程度の(フラットファイルによる形式の)標準化が早い時期から行われていましたので、同じ形式のデータに対する定型の作業をこなすソフトウェアの需要が存在しました。そのために__Bio*__と呼ばれる、言語ごとにそういったデータを加工、解析するツールが普及しました。それらは全てOSSとして開発されました。
- その開発の主要なメンバーがOpen Bioinformatics Foundation(OBF)という団体を立ち上げ、その活動は今も続いています。
- ISMBと呼ばれるバイオインフォマティクス系のトップカンファレンスで、これらツールやデータの管理に関するセッションやワークショップも行われ、ツールそのものも研究の対象になり得るという認識があります。
- 定番の解析を行うためのソフトウェアは、研究のインフラとみなされます。したがって、定番となったソフトウェアには公的なグラントも出やすいです。OSSとして開発すれば、最悪グラントが打ち切りになった場合でもフォークして誰かが引き継ぐ可能性も開けます。
- このようにフォーマットの決まった公開データに対して解析を行う場合、それはその研究コミュニティでは皆が使う道具となるため、OSSとして開発するのが自然だという認識があると思います。
- Altschul, Stephen F., et al. "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs." Nucleic acids research 25.17 (1997): 3389-3402.
- Gentleman, Robert C., et al. "Bioconductor: open software development for computational biology and bioinformatics." Genome biology 5.10 (2004): R80.
- Rice, Peter, Ian Longden, and Alan Bleasby. "EMBOSS: the European molecular biology open software suite." Trends in genetics 16.6 (2000): 276-277.
- Thompson, Julie D., Desmond G. Higgins, and Toby J. Gibson. "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice."Nucleic acids research 22.22 (1994): 4673-4680.
- Stajich, Jason E., et al. "The Bioperl toolkit: Perl modules for the life sciences."Genome research 12.10 (2002): 1611-1618.
- Cock, Peter JA, et al. "Biopython: freely available Python tools for computational molecular biology and bioinformatics." Bioinformatics 25.11 (2009): 1422-1423.
- Gehlenborg, Nils, et al. "Visualization of omics data for systems biology."Nature methods 7 (2010): S56-S68.