威斯康星乳腺癌数据集
威斯康星乳腺癌(Breast Cancer Wisconsin)数据集共包含569个恶性或者良性肿瘤细胞样本。数据集的前两列分别存储了样本唯一的ID以及对样本的诊断结果(M代表恶性,B代表良性)。数据集的3~32列包含了30个从细胞核照片中提取、用实数值标识的特征,它们可以用于构建判定模型,对肿瘤是良性还是恶性做出预测。威斯康星乳腺癌数据集已经存储在UCI机器学习数据集库中,关于此数据集更多的信息请访问链接:http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
sklearn已经包含了该数据集。
>>> import numpy as np
>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> print(data)
{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2 …