Schwertlilien-Datensatz

Der Schwertlilien-Datensatz (engl. Iris flower data set) ist ein multivariater Datensatz, welcher vom britischen Statistiker und Biologen Ronald Fisher erstellt wurde.[1] Der Datensatz wird auch Anderson's Iris data set genannt, da der amerikanische Botaniker Edgar Anderson die Daten sammelte, um die morphologischen Abweichungen von Schwertlilien (Gattung Iris) dreier miteinander verwandter Spezies zu quantifizieren.[2] Zwei der drei Arten wurden in der Gaspésie, "alle von der gleichen Weide, am selben Tag" gesammelt und "zum gleichen Zeitpunkt, von der gleichen Person, mit dem gleichen Apparat gemessen".[3]

Der Datensatz besteht aus je 50 Proben von jeder der drei Schwertlilienarten (Iris setosa, Iris virginica und Iris versicolor). Bei jeder der Proben wurden vier Merkmale gemessen: Die Länge und Breite von Kelchblatt und Kronblatt in Zentimetern. Anhand dieser vier Merkmale entwickelte Fisher ein lineares Modell, um die Arten voneinander zu unterscheiden. Fishers wissenschaftliche Abhandlung hierzu wurde in der wissenschaftlichen Fachzeitschrift Annals of Eugenics (heute Annals of Human Genetics) veröffentlicht.

Nutzung des Datensatzes

Bearbeiten
Clusteranalyse mit k-Means-Algorithmus
"metro map" des Datensatzes

Der ursprüngliche Zweck der Werte war es, als Beispieldatensatz für Diskriminanzanalyse zu dienen. Mit der Zeit wurden sie aber immer mehr als Testdatensatz für verschiedene statistische Klassifikationsverfahren, zum Beispiel mittels Support Vector Machine, und für maschinelles Lernen verwendet.[4]

In der Cluster-Analyse wird der Datensatz allerdings relativ selten verwendet, da die Daten nur zwei Cluster enthalten, welche klar getrennt liegen. Einer der beiden Cluster enthält die Messungen der Borsten-Schwertlilie und der andere sowohl die Messungen der Virginischen Schwertlilie als auch die der Verschiedenfarbigen Schwertlilie, welche anhand der gemessenen Eigenschaften nicht auseinandergehalten werden können. Aufgrund dessen ist der Datensatz ein Beispiel für den Unterschied zwischen überwachtem und unüberwachtem Lernen.[5]

Borsten-Schwertlilie

Der Datensatz enthält 150 Messungen von fünf Attributen: Länge des Kelchblatts, Breite des Kelchblatts, Länge des Kronblatts, Breite des Kronblatts sowie Spezies

Verschiedenfarbige Schwertlilie
Virginische Schwertlilie
Biplot von Fishers Schwertlilien-Datensatz
Datensatz
Nummer der MessungLänge des Kelchblatts in cmBreite des Kelchblatts in cmLänge des Kronblatts in cmBreite des Kronblatts in cmSpezies
15.13.51.40.2I. setosa
24.93.01.40.2I. setosa
34.73.21.30.2I. setosa
44.63.11.50.2I. setosa
55.03.61.40.3I. setosa
65.43.91.70.4I. setosa
74.63.41.40.3I. setosa
85.03.41.50.2I. setosa
94.42.91.40.2I. setosa
104.93.11.50.1I. setosa
115.43.71.50.2I. setosa
124.83.41.60.2I. setosa
134.83.01.40.1I. setosa
144.33.01.10.1I. setosa
155.84.01.20.2I. setosa
165.74.41.50.4I. setosa
175.43.91.30.4I. setosa
185.13.51.40.3I. setosa
195.73.81.70.3I. setosa
205.13.81.50.3I. setosa
215.43.41.70.2I. setosa
225.13.71.50.4I. setosa
234.63.61.00.2I. setosa
245.13.31.70.5I. setosa
254.83.41.90.2I. setosa
265.03.01.60.2I. setosa
275.03.41.60.4I. setosa
285.23.51.50.2I. setosa
295.23.41.40.2I. setosa
304.73.21.60.2I. setosa
314.83.11.60.2I. setosa
325.43.41.50.4I. setosa
335.24.11.50.1I. setosa
345.54.21.40.2I. setosa
354.93.11.50.2I. setosa
365.03.21.20.2I. setosa
375.53.51.30.2I. setosa
384.93.61.40.1I. setosa
394.43.01.30.2I. setosa
405.13.41.50.2I. setosa
415.03.51.30.3I. setosa
424.52.31.30.3I. setosa
434.43.21.30.2I. setosa
445.03.51.60.6I. setosa
455.13.81.90.4I. setosa
464.83.01.40.3I. setosa
475.13.81.60.2I. setosa
484.63.21.40.2I. setosa
495.33.71.50.2I. setosa
505.03.31.40.2I. setosa
517.03.24.71.4I. versicolor
526.43.24.51.5I. versicolor
536.93.14.91.5I. versicolor
545.52.34.01.3I. versicolor
556.52.84.61.5I. versicolor
565.72.84.51.3I. versicolor
576.33.34.71.6I. versicolor
584.92.43.31.0I. versicolor
596.62.94.61.3I. versicolor
605.22.73.91.4I. versicolor
615.02.03.51.0I. versicolor
625.93.04.21.5I. versicolor
636.02.24.01.0I. versicolor
646.12.94.71.4I. versicolor
655.62.93.61.3I. versicolor
666.73.14.41.4I. versicolor
675.63.04.51.5I. versicolor
685.82.74.11.0I. versicolor
696.22.24.51.5I. versicolor
705.62.53.91.1I. versicolor
715.93.24.81.8I. versicolor
726.12.84.01.3I. versicolor
736.32.54.91.5I. versicolor
746.12.84.71.2I. versicolor
756.42.94.31.3I. versicolor
766.63.04.41.4I. versicolor
776.82.84.81.4I. versicolor
786.73.05.01.7I. versicolor
796.02.94.51.5I. versicolor
805.72.63.51.0I. versicolor
815.52.43.81.1I. versicolor
825.52.43.71.0I. versicolor
835.82.73.91.2I. versicolor
846.02.75.11.6I. versicolor
855.43.04.51.5I. versicolor
866.03.44.51.6I. versicolor
876.73.14.71.5I. versicolor
886.32.34.41.3I. versicolor
895.63.04.11.3I. versicolor
905.52.54.01.3I. versicolor
915.52.64.41.2I. versicolor
926.13.04.61.4I. versicolor
935.82.64.01.2I. versicolor
945.02.33.31.0I. versicolor
955.62.74.21.3I. versicolor
965.73.04.21.2I. versicolor
975.72.94.21.3I. versicolor
986.22.94.31.3I. versicolor
995.12.53.01.1I. versicolor
1005.72.84.11.3I. versicolor
1016.33.36.02.5I. virginica
1025.82.75.11.9I. virginica
1037.13.05.92.1I. virginica
1046.32.95.61.8I. virginica
1056.53.05.82.2I. virginica
1067.63.06.62.1I. virginica
1074.92.54.51.7I. virginica
1087.32.96.31.8I. virginica
1096.72.55.81.8I. virginica
1107.23.66.12.5I. virginica
1116.53.25.12.0I. virginica
1126.42.75.31.9I. virginica
1136.83.05.52.1I. virginica
1145.72.55.02.0I. virginica
1155.82.85.12.4I. virginica
1166.43.25.32.3I. virginica
1176.53.05.51.8I. virginica
1187.73.86.72.2I. virginica
1197.72.66.92.3I. virginica
1206.02.25.01.5I. virginica
1216.93.25.72.3I. virginica
1225.62.84.92.0I. virginica
1237.72.86.72.0I. virginica
1246.32.74.91.8I. virginica
1256.73.35.72.1I. virginica
1267.23.26.01.8I. virginica
1276.22.84.81.8I. virginica
1286.13.04.91.8I. virginica
1296.42.85.62.1I. virginica
1307.23.05.81.6I. virginica
1317.42.86.11.9I. virginica
1327.93.86.42.0I. virginica
1336.42.85.62.2I. virginica
1346.32.85.11.5I. virginica
1356.12.65.61.4I. virginica
1367.73.06.12.3I. virginica
1376.33.45.62.4I. virginica
1386.43.15.51.8I. virginica
1396.03.04.81.8I. virginica
1406.93.15.42.1I. virginica
1416.73.15.62.4I. virginica
1426.93.15.12.3I. virginica
1435.82.75.11.9I. virginica
1446.83.25.92.3I. virginica
1456.73.35.72.5I. virginica
1466.73.05.22.3I. virginica
1476.32.55.01.9I. virginica
1486.53.05.22.0I. virginica
1496.23.45.42.3I. virginica
1505.93.05.11.8I. virginica

Der Datensatz wird häufig als anfängerfreundlicher Datensatz für Maschinelles Lernen und statistische Verfahren genutzt. Er ist in R, Python und der Software-Bibliothek scikit-learn enthalten.

R-Code zum Erstellen des Streudiagramms

Bearbeiten

Der untenstehende Code erzeugt in R das Streudiagramm, das am Anfang dieses Artikels steht.

# Anzeigen des Datensatzesiris# Anzeigen der Hilfeseite, welche Informationen über den Datensatz enthält?iris# Erstellen eines Streudiagramms, welches alle paarweise Kombinationen der 4# enthaltenen Attribute anzeigt.pairs(iris[1:4], main="Iris Data (red=setosa,green=versicolor,blue=virginica)",      pch=21, bg=c("red","green3","blue")[unclass(iris$Species)])

Python-Code zum Erstellen des Streudiagramms

Bearbeiten
from sklearn.datasets import load_irisiris = load_iris()iris

Es wird zurückgegeben:

{'data': array([[5.1, 3.5, 1.4, 0.2],                [4.9, 3. , 1.4, 0.2],                [4.7, 3.2, 1.3, 0.2],                [4.6, 3.1, 1.5, 0.2],...'target': array([0, 0, 0, ... 1, 1, 1, ... 2, 2, 2, ...'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'),...}

Einzelnachweise

Bearbeiten
  1. R.A. Fisher: The use of multiple measurements in taxonomic problems. In: Annals of Eugenics. 7. Jahrgang, Nr. 2, 1936, S. 179–188, doi:10.1111/j.1469-1809.1936.tb02137.x (englisch).
  2. Edgar Anderson: The species problem in Iris. In: Annals of the Missouri Botanical Garden. 23. Jahrgang, Nr. 3, 1936, S. 457–509, doi:10.2307/2394164, JSTOR:2394164 (englisch, biostor.org).
  3. Edgar Anderson: The irises of the Gaspé Peninsula. In: Bulletin of the American Iris Society. 59. Jahrgang, 1935, S. 2–5 (englisch).
  4. UCI Machine Learning Repository: Iris Data Set. In: archive.ics.uci.edu. Abgerufen am 1. Dezember 2017 (englisch).
  5. Ines Färber, Stephan Günnemann, Hans-Peter Kriegel: On Using Class-Labels in Evaluation of Clusterings. International Workshop on Discovering, Summarizing and Using MultipleClusterings (MultiClust 2010). In: Xiaoli Z. Fern, Ian Davidson, Jennifer Dy (Hrsg.): MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD, 2010 (englisch, sdu.dk [PDF]).