Ceeds Academy教材アプリ教材・症状語・タグで検索
索引グラフ試す
機械学習▸機械学習の基礎▸scikit-learn

機械学習: ワークフロー(scikit-learn で学習→評価)

hands-on所要 30分最新草稿
前提: 機械学習: モデル評価(訓練/検証/テスト・過学習・適合率/再現率)
意味グラフ(この教材と内容的に近い教材・1ネスト)
例え(Analogies)
ワークフロー=調理の手順

材料を下ごしらえ(前処理)し、レシピで作り(fit)、味見(predict→評価)。scikit-learnは下ごしらえから盛り付けまで同じ作法(統一API)で進められる台所。

概要

📍 機械学習 ▸ scikit-learn ▸ ワークフロー | 種別: hands-on | facts_as_of 2026-06(scikit-learn 1.9.0 / Python 3.14・版は公式で確認)

公式ドキュメント — hands-on

🎞 スライド

機械学習の典型ワークフロー

統一APIで「学習→評価」を簡潔に

流れ(テキスト図)

[データ準備] ─▶ [分割] ─▶ [fit:学習] ─▶ [predict:予測] ─▶ [評価]
│
前処理+モデルは Pipeline でまとめる

鉄則

fit は train のみ(test を混ぜない=リーク防止)

—
出典(sources)

scikit-learn 1.9.0 docs ; 2026-06確認

確認問題(Review-Questions)
データリークを避ける原則は?択一
応用公式
解答・解説▾ 開く

fitは訓練データのみに行う(テストを混ぜない)。

scikit-learnで学習と予測を行うメソッドは?コード
基礎公式
解答・解説▾ 開く

fit(学習)と predict(予測)。

目次
例え概要公式ドキュメント出典確認問題
鮮度
最新
更新: 2026-06-15
次回棚卸し: 2027-06-15
周期: 12か月
版: scikit-learn 1.9.0 / Python 3.14

概要

典型ワークフロー:データ準備→分割→学習(fit)→予測(predict)→評価。scikit-learn は統一 API でこれを簡潔に書ける。

公式ドキュメント準拠(scikit-learn 1.9.0)

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=0
)
model = RandomForestClassifier()
model.fit(X_train, y_train)          # 学習
pred = model.predict(X_test)         # 予測
print(accuracy_score(y_test, pred))  # 評価
  • fit(学習)/predict(予測)/score。前処理は pandas/NumPy。Pipeline で前処理+モデルをまとめる。

出典: scikit-learn: Getting Started(facts_as_of 2026-06)

🧭 誤解訂正集

よくある誤解 正しい理解
fit に全データを使う fit は train のみ(test を混ぜない=リーク)
前処理は別管理でよい Pipeline でまとめると漏れ・リークを防げる
accuracy だけ見れば十分 課題により precision/recall も(ml-03)

📖 用語

  • fit / predict … 学習する / 学習済みモデルで予測する scikit-learn の統一メソッド。
  • train_test_split … データを訓練用とテスト用に分ける関数。
  • Pipeline … 前処理とモデルを1つにまとめ、順に適用する仕組み。
  • データリーク … テスト情報が学習に混入し、評価が不当に良くなる失敗。
  • random_state … 分割などの乱数を固定し、結果を再現可能にする引数。

✅ 確認の目安(can-do)

準備→分割→fit→predict→評価の流れを説明し、**「どこで test を混ぜるとリークになるか」**を指摘して最小コードを書ける。

⚠️ エラー復旧集

症状 原因 復旧
shape 不一致 X は2次元/特徴量数 X の形状を揃える(reshape 等)
評価が異常に高い データリーク fit は train のみ(test を混ぜない)