分類#

分類とは#

簡単に言えば、表現型分類とは、対象をその特徴(すなわち測定値)に基づいて複数のグループに分類することです。


📏 測定方法

表現型の分類にはいくつか方法がありますが、大まかには教師なし学習による分類と教師あり学習による分類があります。

教師あり学習による分類では、人があらかじめ各グループの代表例を訓練データとして与え、それぞれのグループがどのような特徴をもつかを示します。モデルはこの正解付きデータを用いて学習し、測定データをもとにオブジェクトをグループに分類する方法を学びます。

  • 例えば、あらかじめ手作業で細胞を視覚的な表現型に基づいて分類しておき、それぞれのグループに対応する測定値の範囲を機械学習の分類器に学習させることができます。これは、人がクラスの数や各クラスの特徴をあらかじめ定義し、その例を提示しているため、教師あり分類と言えます。具体例としては、有糸分裂の異なる段階にある細胞の一部をアノテーションし、そのラベルを用いて同様の段階にある他の細胞を自動的に検出するよう分類器を訓練する方法があります。

一方、教師なし分類 では、対象をその測定値に基づいてグループ化しますが、グループの数や特徴について人が事前に定義することはありません。

  • 例えば、大規模な細胞プロファイリング実験では、さまざまな処理条件における細胞について数百から数千の特徴量を測定します。その後、コンピュータに測定値の類似性に基づいて細胞をいくつかのグループにクラスタリングさせることができます。これは教師なしクラスタリングの一例であり、研究者が与えたクラスラベルではなく、測定値のみからどのようなグループが自然に現れるかを観察します。このようなクラスタリング解析は新しい知見をもたらす可能性がありますが、解釈が難しい場合もあります。詳しくは関連するプロトコル23 を参照してください。

⚠️ 問題が生じやすいポイント
  • 測定の妥当性は依然として重要 分類は単純な場合もあれば複雑な場合もありますが、その結果は常に測定値の妥当性に依存します。そのため、前の測定に関するセクションで述べた注意点は、ここでも同様に当てはまります。

  • 機械は怠けもの 機械学習の分類器は、必ずしも生物学的に意味のある特徴を学習するとは限りません。表現型と一緒に変化してはいるものの、生物学的には無関係な交絡因子が存在すると、分類器の有用性が低下し、誤った結論につながる可能性があります。例えば、臨床現場で悪性の可能性があるほくろの写真には定規が添えられることが多く、良性のほくろには添えられないとします。このデータで悪性と良性を区別する分類器を学習させた場合、モデルはほくろの特徴ではなく「定規の有無」を手がかりに悪性と判断してしまう可能性があります。これは実際に報告されている例 24です。可能であれば、モデルがどの特徴に基づいて分類を行っているのかを確認することで、このような問題を検出できます。また、異なるクラスの画像を取得する際には撮像条件を標準化し、十分な数の多様な画像を含む訓練データを用意することも重要です。例えば、陽性細胞の画像がすべて3月に撮像された試料由来で、陰性細胞がすべて1月に撮像された試料由来であるような状況は避けるべきです。

  • モデルの前提条件を満たしていない 機械学習による分類器を使用する場合、モデルごとにそれぞれ固有の前提条件や仮定が組み込まれています。学習を始めたばかりの段階では、どのモデルを選択すべきか判断するのは容易ではありません。 CellProfiler Analyst 25Piximiなどの対話型ツールを用いることで、分類器の学習をより容易に行うことができます。特に、プログラミングの経験がない場合には有用です。

  • クラス間の境界が明確でない 教師あり分類の多くの手法では、ユーザーがオブジェクトをスコアやカテゴリに割り当てると、分類器は各カテゴリを完全に独立したものとして扱います。しかし、生物学的現象は必ずしもそのように明確に区切られるものではありません。例えば、細胞周期の段階を分類する教師あり分類器では、各細胞をいずれか一つの段階に割り当てる必要があります。しかし実際には、細胞周期の進行はスイッチのように明確に切り替わる過程ではなく、個々の細胞の測定値を可視化すると(人間の観察者による分類で色分けした場合でも)、連続的な変化として捉えられます。より連続的な表現型を分類するためには、より高度な手法が必要となる場合があります。

細胞周期の連続分布

図 7 厳密なクラス分けは、連続的な生物学的プロセスでは難しい Eulenberg, P., Köhler, N., Blasi, T. et al. Reconstructing cell cycle and disease progression using deep learning. Nat Commun 8, 463 (2017) 26#

📚🤷‍♀️ さらに詳しく知るために