meineko’s blog

元つくばの某独立行政法人勤務の植物屋です。最近は、ほぼ、突発天体の話題です。

44K microarray

Agilentの44K rice oligo microaaryでは、同じ遺伝子から設計されたoligomerが、複数、スポットされています。
alternative splicing等に配慮したのだと思います。


同じ遺伝子のシグナルの強さは、大抵、揃っているので、確認にもなって助かるのですが、特定の処理で反応を示す遺伝子の数がいくつくらいあるのか、それは、ゲノム全体のどれくらいの割合になるのかというのを知りたい時に、重複分を間引いて数えないといけないので不便です。
で、同じ遺伝子に由来するスポットのシグナルは、平均しようということにして、Excel 2007の小計計算でやらそうと思ったのですが、大変遅いです。
計算自体は、オーバーナイトで放っておいたら終わったのですが、小計の行だけ表示させようと触ったら、再計算とか始めてしまって延々終わりませんorz
#まぁ、Excelにやらせる、私が悪いのです。


で、どこかで、似た様な処理を見たなと思ったら、社会保険庁の不明データとか、郵便局のシステム障害で話題となった、名寄せですね、これ。
名前の入力ミスとか配慮しないでいいので、ずっと、簡単ですが。


追記
小計を計算させるとXXの平均という行が、挿入されるのですが、そのため上限の65536行を越えてしまっていました!!
はみ出した分、別途計算しないと!!


(追記2)
良く結果を見たら、小計の結果は、73609行まであって、全データの集計が出来ていました。
で、その結果から、平均の行だけ、フィルターで抜き出す作業をする段階で、65536行までしか対象に出来ないようでした。


とりあえず、ファイルを分割して、再度、小計を取らせています
#平均の行だけ抜くのをExcel任せにしないで、awkでやれば、一瞬で終わりそう?