Oppgaver: Lineær Regresjon#
Ta utgangspunkt i det klassiske datasettet som inneholder informasjon om størrelsen (lende og bredde) av begerbladene (engelsk: sepal) (de ytre bladene i en blomst) og kronbladene (engelsk: petal) til tre ulike typer Iris (setosa, versicolor og virginica) - på norsk hhv.: villiris, praktiris og blått flagg iris). Dere skal bruke dette datasettet til å se nærmere på lineær regresjon.
Oppgave 1#
a)#
Les inn datasettet fra sklearn
from sklearn import datasets
iris = datasets.load_iris()
Lag en pandas dataframe som inneholder både data og target
Lag en ny kolonne som inneholder navnet til de ulike iris-typene (target 0: setosa, 1: versicolor, 2: virginica)
b)#
Lag en lineær modell som beskriver sammenhengen mellom lengden og bredden til begerbladene for en av de tre ulike typene Iris.
Plot modellen sammen med populasjonen?
Hva blir koeffisentene til modellen?
Hva er \(R^2\) til modellen?
c)#
Fortsett med modellen over og finn 95% konfidensintervall for koeffisentene.
Avgjør om det er en sammenheng mellom lengden og bredden av begerbladene ved å sette opp en hypotesetest og vurder den ut fra bla. p-verdi.