データ操作

毎日新聞から、「理研のチームリーダーがデータ操作を指示した」という報道がされています。


 論文によると、統合失調症302人、感情障害205人、症状のない308人が提供した血液から取り出した遺伝子を分析。統合失調症の人は症状のない人に比べ、SNPが3カ所とも別の塩基に置き換わっている割合が高かった。感情障害の人は症状のない人と差がなく、論文は「日本人ではIMPA2は統合失調症に関係している可能性がある」と結論した。
 複数の関係者によると、研究では当初、統合失調症の遺伝子は309人分を解析し、SNPのうち1カ所は症状のない人と差がつかなかった。309人の中には、論文にはない、死亡した患者の脳から取り出した遺伝子31人分が含まれていた。この31人分は、血液からの遺伝子と区別せず、一連の試料として管理されていた。
99年末に報告を受けたリーダーは、31人分のデータを除き、違う遺伝子を加えて解析するよう指示。部下が、血液から取り出した別の24人分の遺伝子を加えて解析し、3カ所のSNPとも症状のない人と差がついた。
 リーダーは「脳の提供者は血液提供者に比べて年齢が高く、男性が多い。条件の違う遺伝子を解析から外しても問題はなく、外したことを論文に書く必要もない」と説明する。一方で、「最初の解析で差があれば、それで結果を発表した」とも話す。
問題の論文はこちら。報道では死亡患者脳からの遺伝子サンプルを除外したことが問題とされています。詳細については分かりませんが、もし本当にこれらの遺伝子サンプルが「年齢が高く、男性が多い」ため条件が異なるのであれば、実験プランの段階でサンプルとして加えるべきではありません。加えてしまった時点で実験プランのミスであり、それを後付けで修正するのは改竄と指摘されても仕方ありません。
では、こういうケースの場合どのように対応すべきだったのでしょう。サンプルの除外を行わずに、さらにデータ数を増やすことで加わってしまったバラツキを薄めていく方法はあったと思います。それでも有意差がつかなかったならば、そういう結果なのだと素直に認めることができます。
実験で得られたデータを眺めて、明らかに傾向(違い)がありそうなんだれども有意差がつかないことはよくあります。そんなとき、私の周りでは「心の目で見れば、違いはあります。」という表現を使います。これは自戒の意味で言っているのであって、「現時点では証明できないが、さらに実験条件や回数を重ねることで明らかにしたい」という意味です。
自分のデータを眺めて、希望的観測を含めて現象を推測することと、論文や学会で発表するときの態度を混同するようなことはあってはなりません。今回のケースが確信犯的なのかはどうかは分かりませんが、他人に自分のデータを紹介するときには、客観的な視点を失わないように心がけないと、大きな間違いを犯す危険性があると再認識しました。
ところでこのニュースのネタ元はどこなんでしょう?信憑性も含めて謎です。