分類

分類#

分類とは#

簡単に言えば、表現型分類とは、対象をその特徴（すなわち測定値）に基づいて複数のグループに分類することです。

⚠️ 問題が生じやすいポイント

測定の妥当性は依然として重要 分類は単純な場合もあれば複雑な場合もありますが、その結果は常に測定値の妥当性に依存します。そのため、前の測定に関するセクションで述べた注意点は、ここでも同様に当てはまります。
機械は怠けもの 機械学習の分類器は、必ずしも生物学的に意味のある特徴を学習するとは限りません。表現型と一緒に変化してはいるものの、生物学的には無関係な交絡因子が存在すると、分類器の有用性が低下し、誤った結論につながる可能性があります。例えば、臨床現場で悪性の可能性があるほくろの写真には定規が添えられることが多く、良性のほくろには添えられないとします。このデータで悪性と良性を区別する分類器を学習させた場合、モデルはほくろの特徴ではなく「定規の有無」を手がかりに悪性と判断してしまう可能性があります。これは実際に報告されている例 ²⁴です。可能であれば、モデルがどの特徴に基づいて分類を行っているのかを確認することで、このような問題を検出できます。また、異なるクラスの画像を取得する際には撮像条件を標準化し、十分な数の多様な画像を含む訓練データを用意することも重要です。例えば、陽性細胞の画像がすべて3月に撮像された試料由来で、陰性細胞がすべて1月に撮像された試料由来であるような状況は避けるべきです。
モデルの前提条件を満たしていない 機械学習による分類器を使用する場合、モデルごとにそれぞれ固有の前提条件や仮定が組み込まれています。学習を始めたばかりの段階では、どのモデルを選択すべきか判断するのは容易ではありません。 CellProfiler Analyst ²⁵ やPiximiなどの対話型ツールを用いることで、分類器の学習をより容易に行うことができます。特に、プログラミングの経験がない場合には有用です。
クラス間の境界が明確でない 教師あり分類の多くの手法では、ユーザーがオブジェクトをスコアやカテゴリに割り当てると、分類器は各カテゴリを完全に独立したものとして扱います。しかし、生物学的現象は必ずしもそのように明確に区切られるものではありません。例えば、細胞周期の段階を分類する教師あり分類器では、各細胞をいずれか一つの段階に割り当てる必要があります。しかし実際には、細胞周期の進行はスイッチのように明確に切り替わる過程ではなく、個々の細胞の測定値を可視化すると（人間の観察者による分類で色分けした場合でも）、連続的な変化として捉えられます。より連続的な表現型を分類するためには、より高度な手法が必要となる場合があります。

細胞周期の連続分布 — 図 7 **厳密なクラス分けは、連続的な生物学的プロセスでは難しい** Eulenberg, P., Köhler, N., Blasi, T. *et al*. Reconstructing cell cycle and disease progression using deep learning. *Nat Commun* 8, 463 (2017) ²⁶#

分類

目次

分類#

分類とは#