[ PRESS RELEASE ] |
平成15年1月24日
セレスター・レキシコ・サイエンシズ株式会社
富士通株式会社 |
セレスター・レキシコ・サイエンシズと富士通が
蛋白質間の共通アミノ酸配列を実用時間で検索する技術を開発
セレスター・レキシコ・サイエンシズ株式会社(以下CLS、本社:千葉市美浜区、社長:土居洋文)と富士通株式会社は共同で、複数の蛋白質間で見出される、共通のアミノ酸パターンを検索するためのモチーフ検索ツールHMMER(*1) のチューニングを行ない、富士通製スーパーコンピュータ「PRIMEPOWER HPC2500」(*2)上で、従来比24倍(*3)の性能向上を実現いたしました。
これにより、最新鋭のSMP方式並列計算機において、これまで約2週間かかっていた全ヒト蛋白質のモチーフ検索(*4)が、約半日という現実的な時間で処理できるようになり、蛋白質の機能予測や構造予測、相互作用予測等のプロテオーム研究を大きく加速できるものと期待されます。
【開発の背景】
HMMERは、バイオインフォマティクス(*5)分野で使用頻度の高いアプリケーションであり、蛋白質の主要構造を類型化したモチーフデータベースと、研究対象の蛋白質配列との間でマッチングやスコア付けを行ない、蛋白質の分類を行うツールです。
バイオインフォマティクスの解析対象が、個々の遺伝子、蛋白質から網羅的なゲノムやプロテオームへと広がるにつれ、大量の蛋白質配列に対して、蛋白質が持つモチーフを全て抽出したいというニーズは大きくなっています。
HMMERは、モチーフという抽象的な対象の検索ができるため、遺伝子配列や蛋白質配列の相同性検索ツールBLAST(*6)に比べて高感度な検索が可能ですが、計算に時間がかかり、研究者が簡単に利用するには問題がありました。
そこで、この計算を高速化できれば、ゲノムサイズでの蛋白質のモチーフ検索を短時間で行うことが可能となります。
【開発した技術】
CLSと富士通は次のようなチューニングを行ない、全ヒト蛋白質のモチーフ検索において従来比24倍の性能向上を実現いたしました。
- 高性能プロセッサSPARC64TM Vの性能を最大限に活用するためのSPARCTM 向けコード最適化やI/O処理のチューニングおよびメモリアクセスの高速化
- ハードウェア性能を最大限に引き出すプログラムの開発および実行環境を提供する富士通製ソフトウェア「Parallelnavi」の適用
今回の成果は、両社が平成14年10月31日から開始したスーパーコンピュータのユースケースに関する共同研究(*7)の成果であり、両社が平成14年7月8日に発表したBLASTの性能向上(*8)と同様、CLSの持つ世界最高レベルのバイオインフォマティクス技術と、富士通が長年にわたって培ってきたHPC分野での高度なノウハウやチューニング技術の融合が生かされたものです。
HMMERおよびBLASTの高速化により、バイオインフォマティクス分野におけるPRIMEPOWERの有用性が更に大きく向上いたしました。
両社は今後もさらに、スーパーコンピュータの性能向上および運用性向上に関する研究を継続し、高性能で運用性に優れたスーパーコンピュータおよびスーパーコンピュータを利用した高性能解析システムの開発やサービスの提供を目指します。
なお、HMMERおよびBLASTのチューニングにつきましては、富士通提供の「HPCチューニングサービス」(*9)にて対応いたします。
【用語解説および注釈】
- *1:モチーフ(Motif)検索ツールHMMER
-
モチーフとは、複数の蛋白質間で見出される、共通のアミノ酸パターンのことです。HMMERはワシントン大学で開発されている、プロファイル隠れマルコフモデルの構築や操作、検索のためのフリーソフトウェアパッケージです。HMMERを利用した解析では主に、多くの蛋白質シーケンスをクエリーとしたモチーフ検索(hmmpfam)を行ない、蛋白質の分類や整理を行います。
http://hmmer.wustl.edu/
- *2:PRIMEPOWER HPC2500
-
平成14年8月22日に販売を開始した、世界最高の理論ピーク性能と拡張性を持つ大規模並列スカラー型スーパーコンピュータです。UNIXサーバ「PRIMEPOWER」のHPC分野向け最上位モデルとして位置づけられています。
- *3:従来比24倍
-
PRIMEPOWER1500 (SPARC64TM GP 810MHz,24CPU)上にてオリジナルのHMMERを用いた場合に13.5日かかっていましたが、今回のチューニングにより、PRIMEPOWER HPC2500 (SPARC64TM V 1.3GHz,24CPU)上にて13.5時間の高速化を達成し、従来比24倍を実現しました。
- *4:全ヒト蛋白質のモチーフ検索
-
今回の測定では、それぞれ以下のプログラム、データベース、蛋白質シーケンスを使用しました。
- プログラム:HMMER2.2g(hmmpfam)
- モデルデータベース:ワシントン大学 Pfam(4463モチーフ)
- 蛋白質シーケンス:NCBI ヒトゲノム由来全蛋白質(38051シーケンス)
- *5:バイオインフォマティクス(Bioinformatics)
-
バイオテクノロジー(生命工学)と情報技術(IT)が融合した技術分野のことで、生命情報科学ともいいます。生命科学の実験から得られる大量のデータを、ITを使って処理し、学問的な知見や新薬開発など産業応用に有益な情報を拾い出す手法を指します。
- *6:BLAST(Basic Local Alignment Search Tool)
-
相同性検索ツールの一つで、高速なアルゴリズムを採用し、比較的短時間に検索が可能なため、バイオインフォマティクス分野で使用頻度の高いツールです。
- *7:両社のスーパーコンピュータに関する共同研究
-
「セレスター・レキシコ・サイエンシズと富士通がスーパーコンピュータの共同研究を開始」
http://pr.fujitsu.com/jp/news/2002/10/31-2.html
- *8:両社によるBLASTの性能向上
-
「セレスター・レキシコ・サイエンシズと富士通がBLASTツールの性能をSMP並列で最大30倍に向上」
http://pr.fujitsu.com/jp/news/2002/07/18.html
- *9:HPCチューニングサービス
-
並列プログラミング等により、お客様の環境に合わせてプログラムのソースコードを最適化し、性能向上する作業(チューニング作業)を行うサービスです。
【商標について】
- 記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以 上
関連リンク
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。ご不明な場合は、富士通お客様総合センターにお問い合わせください。
|