統計#
はじめに#
定量データは、多くの場合、統計手法を用いて要約・解析され、図やグラフとして可視化されます。統計手法はデータに含まれる傾向やパターン、外れ値などを明らかにし、図やグラフはそれらを読者に分かりやすく伝える役割を果たします。データに適した統計解析を行い、適切な図表の形式を選択し、それぞれの注意点や限界を理解したうえで、適切なソフトウェアを用いて正確に解析・作図することが重要です。これにより、実験の結論をデータに基づいて裏づけ、研究成果を効果的に伝えることができます。
次元削減#
基本事項#
次元削減(dimensionality reduction または dimension reduction)は、高次元データをより低い次元の空間に写像し、データに含まれる傾向やパターンをより明確に示すことを目的とする手法です。この処理を行うアルゴリズムは、次元を減らす際にもできるだけ多くの情報を保持しようとします。そのために、各特徴量の重要度を評価し、冗長な情報を取り除き、情報量の少ない(例えば一定の値しか取らないような)特徴量を特定して除外します。次元削減は、データを扱いやすくし、可視化を容易にするという点で、定量解析における重要なステップです。また、機械学習の分類器など、多くの下流解析アルゴリズムにおいても、前処理として重要な役割を果たします。
方法
最も伝統的な次元削減手法は、主成分分析(principal component analysis: PCA)56 です。PCA は、入力データを新しい座標系(主成分)へと線形変換し、データの分散ができるだけ最初の軸に集まるようにします。この処理は、データの共分散行列に対して固有値分解を行うという、古典的な線形代数の手法に基づいています。その結果、最初の2つまたは3つの主成分を用いることで、元のデータに含まれていた分散をよく反映した、低次元でのデータ分布を得ることができます。生物学分野で広く用いられている、より高度な次元削減手法としては、t-SNE (t-distributed stochastic neighbor embedding)やUMAP (Uniform Manifold Approximation and Projection) があります。これらは PCA とは異なり非線形手法であるため、低次元表現を構築する際に、特徴量間のより複雑な関係を捉えることができます。ただし、その代償もあります。t-SNE と UMAP はいずれも確率的な手法であり、結果がハイパーパラメータの設定に大きく依存します。そのため、実行のたびに結果が異なる場合があります。
⚠️ 問題が生じやすいポイント
次元削減は、データの探索や解析に非常に有用ですが、一方で、研究対象にとって重要な情報や構造を失ってしまう可能性もあります。この点は、Datasaurus データセット によってよく示されています。この例では、見た目が大きく異なるデータであっても、少数の要約統計量だけで記述すると区別がつかなくなってしまうことが示されています。このようなリスクを最小限に抑えるためには、可能な限りまずデータを可視化して探索することが重要です。また、使用する次元削減手法が前提としている仮定を慎重に確認し、それが対象データに当てはまっているかを確かめる必要があります。さらに、次元削減は、元データに含まれるノイズや系統的なアーティファクト(下記のバッチ効果補正の項を参照)によって、生物学的に意味のないパターンを強調・顕在化させてしまうこともあります。この問題に対処するためには、次元削減を行う前にデータの正規化やバッチ補正を実施することが重要です。また、いくつかの次元削減手法では、正則化と呼ばれる手法によって影響を緩和できる場合もあります。最終的に、次元削減後のデータから見いだされたパターンは、生物学的な背景や文脈を常に踏まえながら解釈する必要があります。
📚🤷♀️ さらに詳しく知るために
バッチ補正#
基本事項#
バッチ効果とは、試料間に見られる系統的なばらつきのうち、実験条件(例えば、実施した時間帯、実験日、使用した装置の違いなど)と関連して生じる、関心のある生物学的プロセスとは無関係な変動を指します。バッチ効果は、複数のデータセットを比較する前に必ず軽減しておく必要があります。これらは計算解析の再現性や信頼性に影響を与え、結論に大きな偏りをもたらす可能性があるためです。バッチ効果補正のアルゴリズムは、技術的な変動の要因を特定し、その大きさを定量化したうえで、生物学的シグナルをできるだけ保持しながら、これらの影響を最小化するようにデータを調整します。多くのバッチ効果補正手法は、もともとマイクロアレイデータやシーケンスデータを対象に開発されましたが、画像から抽出した特徴量ベクトルにも応用することができます。
方法
バッチ効果補正で広く用いられている手法として、ComBat と 代理変数法(Surrogate Variable Analysis: SVA)があります。バッチ効果の原因があらかじめ分かっているかどうかによって、適切な手法が異なります。ComBat は、大きく3つのステップから構成されます。1) データを既知のバッチごとに分ける、2) バッチを共変量として含む線形モデルを当てはめてバッチ効果を推定する、3) 推定されたバッチ効果を各データ点から差し引くことでデータを補正する、という手順です。一方、SVA は、データ中に存在する未知の変動要因を捉える代理変数を特定することを目的とします。これらの代理変数は、特異値分解(singular value decomposition)などの線形代数的手法や、ベイズ的因子分析モデルを用いて推定されます。代理変数法 は、観測されていない変動要因を低減できることが示されており、バッチ効果の原因を特定することが難しい場合に特に有用です。ただし、ComBat と比べて計算コストが高いという点には注意が必要です。
⚠️ 問題が生じやすいポイント
バッチ効果補正は解析において重要ですが、補正をやり過ぎても、不十分でも問題が生じます。手法を適切に用いなかった場合や、その前提条件が満たされていない場合には、過補正や補正不足が起こり得ます。その結果、本来重要な生物学的シグナルまで除去されたり(過補正の場合)、無関係な変動が残ってしまったり(補正不足の場合)します。いずれの場合も、不正確な結論につながる可能性があります。特に、関心のある生物学的変動がバッチと交絡している可能性がある場合には、バッチ効果補正はより慎重に行う必要があります。このような場合(実際には常に重要ですが)、まず重視すべきなのは、十分に検討された実験計画と丁寧な品質管理、そしてデータの可視化による探索です58 。補正を行う前に、バッチごとにデータを可視化して確認することで、観察された傾向がバッチ間で一貫しているか(あるいはいないか)を確かめることができます。
正規性検定#
基本事項#
正規性検定とは、データがガウス分布(正規分布)に従っているかどうかを評価することです。ガウス分布は自然界でよく見られ、重要な数学的性質をもっているため、多くの代表的な統計検定において正規性は基本的な前提条件となっています。この前提が満たされていない場合、得られる結論は妥当でなくなったり、誤ったものになったりする可能性があります。そのため、統計検定を行う前に正規性を確認することは、どんなデータ解析にとっても重要なステップです。
方法
データ分布の正規性は、例えばヒストグラムを描くことで、視覚的におおよその判断を行うことができます。より定量的に評価するためには、Kolmogorov–Smirnov(KS)検定や Shapiro–Wilk 検定など(その他にも多数あります)の統計手法を用いて、観測されたデータ分布がガウス分布からどの程度ずれているかを調べます。これらの検定では通常、データがガウス分布に従うという仮説に対応する p 値が得られます。p 値が高い場合、データは正規分布と矛盾しないと解釈されますが、それだけで正規分布に従っていることを証明できるわけではありません。一方、あらかじめ定めた有意水準(通常は 0.05)よりも小さい p 値が得られた場合、データは正規分布に従っていないと判断されます。
⚠️ 問題が生じやすいポイント
多くの「標準的な」統計手法は正規性を前提として設計されていますが、正規分布に従わないデータに対しても、別の解析手法が存在します。実際、多くの生物学的プロセスでは、分化のように複数の状態が存在し、その結果として多峰性(マルチモーダル)の分布が生じることがあります。このような分布は本質的にガウス分布にはなりません。したがって、正規性検定はデータの「質」を評価するためのものではありません。あくまで、そのデータを解析する際にどのような統計手法が適切かを判断するための情報を与えるものです。