1.アカウントの作成
最初にすることは、当然のようにアカウントの作成です。メールアドレスの登録とパスワードの設定はもちろん、課金の対象になった場合に支払いが できるクレジットカードを登録する必要があります。比較的、直観的に進められますが、所属先を含めて半角英数字で入力しないとはじかれます。設定した電話番号の確認のため、電話がかかってくるので、音声にしたがって指定された4桁の数字を入力する必要があります。職場の電話(代表が取る)を登録していたら、案の定、事務が電話を取って、間違い電話orいたずら電話扱いされました。注意が必要です。また、職場の電話機では数字の入力を受け付けてもらえず、自分の電話を登録することとなりました。
2.サーバーのインストール
次に行うのは、サーバーのインストール。予め登録されているOSから選びます。無料枠があるので、最初はその中から選ぶことになりますが、特別な目的があらかじめ決まっている場合はともかく、お試しでは、Amazon EC2というサービスで、Amazon Linux AMI (OSの呼称)を利用します。EC2は、Elastic Compute Cloud の略です。Compute CloudとCが2回続くので、EC2となっているようです。Elasticは伸縮するものをイメージする単語。負荷にあわせて、PCのパフォーマンスを拡張したり縮小したりするので、必要以上のコンピューターリソースを導入して無駄に課金される心配が少ないです。
3.解析サーバーの設定
サーバーをインストールしたら、役割分担させます。ネットにつなげることを目的としたサーバー(WEBサーバー)、データを置くことを目的としたサーバー(DBサーバー)、など役割に応じて通称されています。DBサーバーもEC2で組んでもよいのですが、バイオインフォの場合、ストレージを目的としたサービスである Amazon S3(Amazon Simple Storage Service)を使った方が良いかもしれません。EC2に比べてデータを保存にかかる料金が割安です。S3は、1GBあたり3円/月くらいです。アクセス頻度が低いデータであれば1.5円/月とかそれ以下で利用できる領域があります。用途に合わせて選べるのは便利です。利用料金が最も低い領域はAmazon Glacier ストレージで、0.4円。ただし、取り出し料がかかるようです。いずれにせよ、永続的なデータのバックアップと考えると割高でしょうか。
4.利用料金について
使った分だけ、利用料金がかかります。なので、使ってないサーバーに接続しっぱなし、とかだとどんどん出費が増えていきます。また、データの保存もソフトウェアのインストールくらいだと無料枠でなんとかなりそうです。しかし、NGS解析で使うデータはサイズが桁違い(1個体あたり数Gbになることも)です。データ料に合わせて課金されるので、よく使うデータ(.BAMとか)はここ、あまり使わないデータ(.fastq)はここ、といったように、用途にあわせて計画的に利用することで、支出を抑える必要があります。
5.データの賢い保存法
上述の通り、大きなデータはS3に入れるべきなわけですが、S3は保存領域なので、実際に解析する際には外付けHDDのようには使えません。なので、解析に必要なときにS3から解析サーバーにコピーして、解析が終わったら消す、というのが良いようです。