{ "cells": [ { "cell_type": "markdown", "id": "8386fb13", "metadata": {}, "source": [ "# Lineær Regresjon (løsningsforslag til oppgave fra 22. januar)\n", "\n", "La oss fortsette med det klassiske datasettet som inneholder data om størrlsen (lende og bredde) av begerbladene (engelsk: sepal) (de ytre bladene i en blomst) og kronbladene (engelsk: petal) til tre ulike type Iris (setosa, versicolor og virginica) - på norsk hhv.: vill iris, praktiris og blått flagg iris). Vi skal bruke dette datasettet til å se nærmere på lineær regresjon. Først må vi importere noen pakker og lese inn datasettet." ] }, { "cell_type": "code", "execution_count": 1, "id": "40a1502f", "metadata": {}, "outputs": [], "source": [ "from sklearn.datasets import load_iris" ] }, { "cell_type": "code", "execution_count": 2, "id": "9bc47618", "metadata": {}, "outputs": [], "source": [ "from sklearn.linear_model import LogisticRegression, LinearRegression\n", "from sklearn.model_selection import train_test_split\n", "import matplotlib.pyplot as plt\n", "import pandas as pd\n", "import numpy as np\n", "from scipy.special import expit\n", "from scipy.stats import expon\n", "import math" ] }, { "cell_type": "markdown", "id": "be254927", "metadata": {}, "source": [ "Datasettet er tilgjengelig direkte fra ScikitLearn" ] }, { "cell_type": "code", "execution_count": 3, "id": "e8da3bad", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepal length (cm)sepal width (cm)petal length (cm)petal width (cm)target
05.13.51.40.20.0
14.93.01.40.20.0
24.73.21.30.20.0
34.63.11.50.20.0
45.03.61.40.20.0
\n", "
" ], "text/plain": [ " sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) \\\n", "0 5.1 3.5 1.4 0.2 \n", "1 4.9 3.0 1.4 0.2 \n", "2 4.7 3.2 1.3 0.2 \n", "3 4.6 3.1 1.5 0.2 \n", "4 5.0 3.6 1.4 0.2 \n", "\n", " target \n", "0 0.0 \n", "1 0.0 \n", "2 0.0 \n", "3 0.0 \n", "4 0.0 " ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn import datasets\n", "iris = datasets.load_iris()\n", "df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],\n", " columns= iris['feature_names'] + ['target'])\n", "df.head()" ] }, { "cell_type": "markdown", "id": "67c46057", "metadata": {}, "source": [ "Nå er typen iris lagret som 0, 1 og 2. Vi vil gjerne oversette dette til faktiske navn slik at vi ikke glemmer hva de ulike tallene betyr. Dette kan vi gjøre på flere måter, men en mulighet er å bruke såkalte lambda-funksjoner som utfører en test av hvert enkelt element in en kolonne. " ] }, { "cell_type": "code", "execution_count": 4, "id": "89ec4edf", "metadata": {}, "outputs": [], "source": [ "df['species'] = df['target'].apply(lambda x: \"setosa\" if x == 0.0 else (\"versicolor\" if x == 1.0 else \"virginica\"))" ] }, { "cell_type": "markdown", "id": "6960e646", "metadata": {}, "source": [ "Det er keitete å ha kolonnenavn som inneholder mellomrom så la oss lage nye enklere navn. Når vi setter *inplace=True* betyr det at data-framen df automatisk blir oppdatert med de nye kolonnenavnene. Hvis ikke må man bruke *df = df.rename()* for at endringene skal bli oppdatert." ] }, { "cell_type": "code", "execution_count": 5, "id": "c2a88bd0", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepal_lengthsepal_widthpetal_lengthpetal_widthtargetspecies
05.13.51.40.20.0setosa
14.93.01.40.20.0setosa
24.73.21.30.20.0setosa
34.63.11.50.20.0setosa
45.03.61.40.20.0setosa
\n", "
" ], "text/plain": [ " sepal_length sepal_width petal_length petal_width target species\n", "0 5.1 3.5 1.4 0.2 0.0 setosa\n", "1 4.9 3.0 1.4 0.2 0.0 setosa\n", "2 4.7 3.2 1.3 0.2 0.0 setosa\n", "3 4.6 3.1 1.5 0.2 0.0 setosa\n", "4 5.0 3.6 1.4 0.2 0.0 setosa" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.rename({'sepal length (cm)': 'sepal_length'}, axis='columns',inplace=True)\n", "df.rename({'sepal width (cm)': 'sepal_width'}, axis='columns',inplace=True)\n", "df.rename({'petal length (cm)': 'petal_length'}, axis='columns',inplace=True)\n", "df.rename({'petal width (cm)': 'petal_width'}, axis='columns',inplace=True)\n", "df.head()" ] }, { "cell_type": "markdown", "id": "91a890b3", "metadata": {}, "source": [ "Tilslutt, la oss droppe kolonnen med *target* siden vi når har laget en ny kolonne *species* som inneholder den samme informasjonen. Det gjør vi enkelt slik (merk at *axis=1\" betyr at vi vil droppe en kolonne. Dersom vi ikke spesifiserer noe er *axis* satt til 0, dvs. at en hel rad blir fjernet." ] }, { "cell_type": "code", "execution_count": 6, "id": "520dc0b7", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepal_lengthsepal_widthpetal_lengthpetal_widthspecies
05.13.51.40.2setosa
14.93.01.40.2setosa
24.73.21.30.2setosa
34.63.11.50.2setosa
45.03.61.40.2setosa
\n", "
" ], "text/plain": [ " sepal_length sepal_width petal_length petal_width species\n", "0 5.1 3.5 1.4 0.2 setosa\n", "1 4.9 3.0 1.4 0.2 setosa\n", "2 4.7 3.2 1.3 0.2 setosa\n", "3 4.6 3.1 1.5 0.2 setosa\n", "4 5.0 3.6 1.4 0.2 setosa" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.drop(['target'],axis=1,inplace=True)\n", "df.head()" ] }, { "cell_type": "markdown", "id": "ff00d0b7", "metadata": {}, "source": [ "## Forberedelser til lineær regresjon\n", "\n", "Vi skal starte med å se om det er en sammenheng mellom lengde og bredde til begerbladene til Iris Setosa. Det første vi må gjøre er å trekke ut disse to kolonnene fra data-framen og konvertere de til **numpy-vektorer**. Det gjør vi ved hjelp av funksjonen *to_numpy()*." ] }, { "cell_type": "code", "execution_count": 7, "id": "87aaaa80", "metadata": {}, "outputs": [], "source": [ "X_setosa_sepal_length = df[df[\"species\"] == \"setosa\"].sepal_length.to_numpy()\n", "X_setosa_sepal_width = df[df[\"species\"] == \"setosa\"].sepal_width.to_numpy()" ] }, { "cell_type": "markdown", "id": "324ffacc", "metadata": {}, "source": [ "Naivt - uten at jeg på noen måte er biolog - vil jeg anta at det er en korrelasjon mellom lengde og bredde av begerbladene. La oss ta en titt på data-settet." ] }, { "cell_type": "code", "execution_count": 8, "id": "ca3f849a", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.scatter(df[df[\"species\"] == \"setosa\"].sepal_length, df[df[\"species\"] == \"setosa\"].sepal_width)\n", "plt.xlabel(\"begerblad lengde [cm]\");\n", "plt.ylabel(\"begerblad bredde [cm]\");" ] }, { "cell_type": "markdown", "id": "70e7587f", "metadata": {}, "source": [ "Ganske riktig! Det ser ut til å være en ganske klar sammenheng!\n", "\n", "I prinsippet kan vi utføre multidimensjonal lineær regresjon. I dette tilfellet prøver vi derimot å predikere hva bredden til et kronblad vil være basert på en måling av lengden. Dette er det vi kaller enkel lineær regresjon hvor vi skal forutsi en respons (kronbladets bredde) basert på en enkelt predikator (kronbladets lengde). Vi antar altså at det er en lineær sammenheng mellom disse to verdiene som kan beskrives matematisk slik \n", "\n", "$Y \\approx \\beta_0 + \\beta_1 X + \\epsilon$\n", "\n", "Hvor Y i dette tilfellet er kronbladets bredde, X er det vi måler, altså kronbladets lengde. De to konstantene får vi ved å gjøre en tilpasning til treningsdataene våre ved å bruke *minste kvadraters metode* dvs. å minimere *residual sum of squares* (RSS). Verdiene for $\\beta_0$ og $\\beta_1$ som minimerer RSS skriver vi ofte med en hatt, $\\hat{\\beta}_0$ og $\\hat{\\beta}_1$. På samme måte skriver vi $\\hat{y}$ for å spesifisere at vi snakker om vår predksjon av Y. Vi kan da skrive\n", "\n", "$\\hat{y} = \\hat{\\beta}_0 + \\hat{\\beta}_1 x$,\n", "\n", "hvor $x = X$\n", "\n", "Siden funksjonen vi vil bruke for å tilpasse en enkel lineær regresjons til dataene våre kun inneholder én predikator så må vi legge til en ekstra dimensjon for at funksjonen ikke klager. I praksis vil det si å konvertere en vektor til en matrise med èn ekstra dimensjon. Man kan enkelt sjekke dimensjonen til et numpy-array object i pyhon ved å kalle på *shape*, den gir deg eksakt dimensjonene av arrayen. Før vi legger til en dimensjon: " ] }, { "cell_type": "code", "execution_count": 9, "id": "76009ba8", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(50,)" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_setosa_sepal_length.shape" ] }, { "cell_type": "markdown", "id": "25a081ed", "metadata": {}, "source": [ "Vi legger til en ekstra dimensjon/akse:" ] }, { "cell_type": "code", "execution_count": 10, "id": "95fe5ea0", "metadata": {}, "outputs": [], "source": [ "X_setosa_sepal_length = X_setosa_sepal_length[:, np.newaxis]\n", "X_setosa_sepal_width = X_setosa_sepal_width[:, np.newaxis]" ] }, { "cell_type": "markdown", "id": "dd9b518e", "metadata": {}, "source": [ "... og vi får en ny dimensjon i arrayen vår. Dette vil bli mer intuitivt når vi skal se på tilfeller med flere predikatorer." ] }, { "cell_type": "code", "execution_count": 11, "id": "d980aaa8", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(50, 1)" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_setosa_sepal_length.shape" ] }, { "cell_type": "markdown", "id": "ced9e6a0", "metadata": {}, "source": [ "## Lineær Regresjon\n", "\n", "scikit-learn har mange nyttige funksjoner for ulike typer maskinlæringsalgoritmer. De er i tillegg relativt godt dokumenterte - så her er det bare å slå seg løs. Vi skal nå bruke [*LinearRegression()*](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html). Den tar enkelt og greit som input repsons og predikatoren i form av numpy-arrayer. Funksjonen *fit()* setter i gang prosessen med å finne den beste tilpasningen til dataene våre. " ] }, { "cell_type": "code", "execution_count": 12, "id": "2717e360", "metadata": {}, "outputs": [], "source": [ "clf = LinearRegression().fit(X_setosa_sepal_length,X_setosa_sepal_width)" ] }, { "cell_type": "markdown", "id": "a90542a2", "metadata": {}, "source": [ "Når den er ferdig kan vi hente ut veridene av $\\hat{\\beta}_0$ (intercept) og $\\hat{\\beta}_1$ (coef). Vi kan også få en første indikasjon på hvor bra tilpasningen er ved å skrive ut $R^2$." ] }, { "cell_type": "code", "execution_count": 13, "id": "1a347705", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Coefficient = 0.80\n", "Intercept = -0.57\n", "Score/R^2 = 0.55\n" ] } ], "source": [ "print(\"Coefficient = %.2f\"%clf.coef_)\n", "print(\"Intercept = %.2f\"%clf.intercept_)\n", "print(\"Score/R^2 = %.2f\"%clf.score(X_setosa_sepal_length,X_setosa_sepal_width))" ] }, { "cell_type": "markdown", "id": "aa717442", "metadata": {}, "source": [ "Eller \n", "\n", "$\\hat{y} = -0.57 + 0.8x$" ] }, { "cell_type": "markdown", "id": "9c81889f", "metadata": {}, "source": [ "Husk at score (eller $R^2$) er definert som\n", "\n", "\\begin{equation}\n", "R^2 = 1 - \\frac{RSS}{TSS}\n", "\\end{equation}\n", "\n", "RSS (**r**esidual **s**um of **s**quares) er definert som\n", "\n", "$$RSS = \\sum_{i=1}^{n}\\left(y_i - \\hat{y}_{i}\\right)^{2}$$\n", "\n", "og TSS (**t**otal **s**um of **s**quares)\n", "\n", "$$TSS = \\sum_{i=1}^{n}\\left(y_i - \\bar{y}\\right)^{2},$$\n", "\n", "hvor $\\bar{y}$ er det globale gjennomsnittet i dataene våre. \n", "\n", "$R^2$ er et mål på hvor mye av variasjon i Y som kan beskrives ved X. Dersom $R^2$ er nære 1 betyr det at en stor del av variasjonen i Y kan beskrives av regresjonsanalysen. Om den derimot er nære 0 betyr det at regresjonsanalysen i liten grad evner å beskrive variasjonen i responsen (Y). Det betyr\n", "\n", "1. at den lineære modellen er feil\n", "2. at variansen til feilen, $\\epsilon$, $\\sigma^2 = Var(\\epsilon)$ er for høy\n", "\n", "evt. begge deleer.\n", "\n", "La oss uansett se hvordan den lineære modellen ser ut når vi plotter den sammen med datapunktene." ] }, { "cell_type": "code", "execution_count": 14, "id": "b9ee8834", "metadata": {}, "outputs": [], "source": [ "# Definer en x-vektor som dekker datapunktene (i dette tilfellet mellom 4 og 7 cm)\n", "X_plot = np.linspace(4, 7, 300)\n", "# Lag så responsfunksjonen ved å bruke parameterne fra modellen vår\n", "fit = clf.intercept_[0] + clf.coef_[0]*X_plot" ] }, { "cell_type": "code", "execution_count": 15, "id": "7213809b", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.figure(1, figsize=(8, 4))\n", "plt.clf()\n", "plt.scatter(df[df[\"species\"] == \"setosa\"].sepal_length, df[df[\"species\"] == \"setosa\"].sepal_width,label=\"Iris Data\")\n", "plt.plot(X_plot, fit, label=\"Linear Regression Model\", color=\"red\", linewidth=3)\n", "plt.xlabel(\"sepal length\")\n", "plt.ylabel(\"sepal width\")\n", "plt.legend()" ] }, { "cell_type": "markdown", "id": "7d6a6e62", "metadata": {}, "source": [ "## Alternativ framgangsmåte\n", "\n", "Vi kan også bruke et annet bibliotek i python ([statsmodels](https://www.statsmodels.org/stable/index.html)) som er et godt alternativ til scikit-learn om vi enkelt vil hente ut enda mer informasjon om modellen vår. Da må vi starte med å importere denne " ] }, { "cell_type": "code", "execution_count": 16, "id": "92bc73d3", "metadata": {}, "outputs": [], "source": [ "import statsmodels.api as sm " ] }, { "cell_type": "markdown", "id": "32b3af73", "metadata": {}, "source": [ "Vi kan bruke OLS (**o**rdinary **l**east **s**quare) på samme måte som vi brukte scikit-learn metoden over. Den gir oss da tilgang til enda mer informasjon om modellen. Merk at intercept/$\\beta_0$ ikke er inkludert i standard-oppsettet i *statsmodels.ols()* og derfor eksplisitt må legges til ved å bruke *sm.add_constant()* på respons-vektoren." ] }, { "cell_type": "code", "execution_count": 17, "id": "2eb976e9", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " OLS Regression Results \n", "==============================================================================\n", "Dep. Variable: y R-squared: 0.551\n", "Model: OLS Adj. R-squared: 0.542\n", "Method: Least Squares F-statistic: 58.99\n", "Date: Fri, 26 Jan 2024 Prob (F-statistic): 6.71e-10\n", "Time: 09:53:01 Log-Likelihood: -1.9002\n", "No. Observations: 50 AIC: 7.800\n", "Df Residuals: 48 BIC: 11.62\n", "Df Model: 1 \n", "Covariance Type: nonrobust \n", "==============================================================================\n", " coef std err t P>|t| [0.025 0.975]\n", "------------------------------------------------------------------------------\n", "const -0.5694 0.522 -1.091 0.281 -1.618 0.480\n", "x1 0.7985 0.104 7.681 0.000 0.589 1.008\n", "==============================================================================\n", "Omnibus: 0.680 Durbin-Watson: 2.345\n", "Prob(Omnibus): 0.712 Jarque-Bera (JB): 0.342\n", "Skew: -0.200 Prob(JB): 0.843\n", "Kurtosis: 3.060 Cond. No. 75.0\n", "==============================================================================\n", "\n", "Notes:\n", "[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.\n", "3.1586748135738\n" ] } ], "source": [ "X_setosa_sepal_length_const = sm.add_constant(X_setosa_sepal_length)\n", "\n", "model = sm.OLS(X_setosa_sepal_width,X_setosa_sepal_length_const).fit() \n", " \n", "#display model summary \n", "print(model.summary()) \n", " \n", "# residual sum of squares \n", "print(model.ssr)" ] }, { "cell_type": "code", "execution_count": 18, "id": "26ed067a", "metadata": {}, "outputs": [], "source": [ "# Definer en x-vektor som dekker datapunktene (i dette tilfellet mellom 4 og 7 cm)\n", "X_plot = np.linspace(4, 7, 300)\n", "# Lag så responsfunksjonen ved å bruke parameterne fra modellen vår\n", "fit = model.params[0] + model.params[1]*X_plot" ] }, { "cell_type": "code", "execution_count": 19, "id": "52ae8a70", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.figure(1, figsize=(8, 4))\n", "plt.clf()\n", "plt.scatter(df[df[\"species\"] == \"setosa\"].sepal_length, df[df[\"species\"] == \"setosa\"].sepal_width,label=\"Iris Data\")\n", "plt.plot(X_plot, fit, label=\"Linear Regression Model\", color=\"red\", linewidth=3)\n", "plt.xlabel(\"sepal length\")\n", "plt.ylabel(\"sepal width\")\n", "plt.legend()" ] }, { "cell_type": "code", "execution_count": 20, "id": "53736520", "metadata": {}, "outputs": [], "source": [ "xmean = np.mean(X_setosa_sepal_length.squeeze())" ] }, { "cell_type": "code", "execution_count": 21, "id": "4648c47d", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Standard feil beta1 = 0.010809\n" ] } ], "source": [ "rse = np.sqrt(model.ssr/(48))\n", "se_beta1 = (rse*rse)/(np.sum((X_setosa_sepal_length.squeeze()-xmean)*(X_setosa_sepal_length.squeeze()-xmean)))\n", "print(\"Standard feil beta1 = %.6f\"%se_beta1)" ] }, { "cell_type": "markdown", "id": "61099238", "metadata": {}, "source": [ "Oppgaven fra forelesning 15. januar stopper her. Vi har ikke gått gjennom hypotesetesting ennå. Koden under er derfor å anse som \"work in progress\".\n", "\n", "# Hypotesetesting" ] }, { "cell_type": "code", "execution_count": 22, "id": "16de5968", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "73.8780703215139\n" ] } ], "source": [ "tval = (model.params[1]-0)/se_beta1\n", "print(tval)" ] }, { "cell_type": "code", "execution_count": 23, "id": "ca3f460f", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[]" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import numpy as np\n", "from scipy.stats import t\n", "import matplotlib.pyplot as plt\n", "\n", "fig, ax = plt.subplots(1, 1)\n", "\n", "ndf = 50-2\n", "\n", "x = np.arange(-100,100,0.001)#np.linspace(t.ppf(0.01, ndf),t.ppf(0.99, ndf), 100)\n", "tsurv = t.sf(x, ndf)\n", "\n", "ax.plot(x, tsurv,'r-', lw=5, alpha=0.6, label='t pdf')" ] }, { "cell_type": "code", "execution_count": null, "id": "8a81fa45", "metadata": {}, "outputs": [], "source": [ "tsurv[cutval]" ] }, { "cell_type": "markdown", "id": "88f19831", "metadata": {}, "source": [ "# Non dependent variables" ] }, { "cell_type": "code", "execution_count": null, "id": "ee55eab9", "metadata": {}, "outputs": [], "source": [ "X_setosa_sepal_length = df[df[\"species\"] == \"setosa\"].sepal_length.to_numpy()\n", "X_versicolor_sepal_width = df[df[\"species\"] == \"versicolor\"].sepal_width.to_numpy()" ] }, { "cell_type": "code", "execution_count": null, "id": "7bb9c594", "metadata": {}, "outputs": [], "source": [ "plt.scatter(X_setosa_sepal_length, X_versicolor_sepal_width)" ] }, { "cell_type": "code", "execution_count": null, "id": "2f29a04a", "metadata": {}, "outputs": [], "source": [ "X_setosa_sepal_length = X_setosa_sepal_length[:, np.newaxis]\n", "X_versicolor_sepal_width = X_versicolor_sepal_width[:, np.newaxis]" ] }, { "cell_type": "code", "execution_count": null, "id": "8a6cf950", "metadata": {}, "outputs": [], "source": [ "clf = LinearRegression().fit(X_setosa_sepal_length,X_versicolor_sepal_width)" ] }, { "cell_type": "code", "execution_count": null, "id": "91386855", "metadata": {}, "outputs": [], "source": [ "print(\"Coefficient = %.2f\"%clf.coef_)\n", "print(\"Intercept = %.2f\"%clf.intercept_)\n", "print(\"Score = %.2f\"%clf.score(X_setosa_sepal_length,X_versicolor_sepal_width))" ] }, { "cell_type": "code", "execution_count": null, "id": "72e2fa77", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "id": "44ca984a", "metadata": {}, "outputs": [], "source": [ "X_plot = np.linspace(4, 7, 300)\n", "fit = clf.intercept_[0] + clf.coef_[0]*X_plot\n", "plt.figure(1, figsize=(4, 3))\n", "plt.clf()\n", "plt.scatter(X_setosa_sepal_length,X_versicolor_sepal_width)\n", "plt.plot(X_plot, fit, label=\"Linear Regression Model\", color=\"red\", linewidth=3)" ] }, { "cell_type": "code", "execution_count": null, "id": "ecbcb79c", "metadata": {}, "outputs": [], "source": [ "X_versicolor_sepal_width = sm.add_constant(X_versicolor_sepal_width)\n", "model = sm.OLS(X_setosa_sepal_length,X_versicolor_sepal_width).fit() \n", " \n", "#display model summary \n", "print(model.summary()) \n", " \n", "# residual sum of squares \n", "print(model.ssr)" ] }, { "cell_type": "code", "execution_count": null, "id": "e3d39674", "metadata": {}, "outputs": [], "source": [ "model.params" ] }, { "cell_type": "code", "execution_count": null, "id": "6d7fed9c", "metadata": {}, "outputs": [], "source": [ "X_plot = np.linspace(4, 7, 300)\n", "fit = model.params[0] + model.params[1]*X_plot\n", "plt.figure(1, figsize=(4, 3))\n", "plt.clf()\n", "plt.scatter(X_setosa_sepal_length,X_versicolor_sepal_width)\n", "plt.plot(X_plot, fit, label=\"Linear Regression Model\", color=\"red\", linewidth=3)" ] }, { "cell_type": "code", "execution_count": null, "id": "68958b2a", "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "from scipy.stats import t\n", "import matplotlib.pyplot as plt\n", "\n", "fig, ax = plt.subplots(1, 1)\n", "\n", "ndf = 50-2\n", "\n", "x = np.linspace(-1,1,200)\n", "\n", "ax.plot(x, t.sf(x, ndf),'r-', lw=5, alpha=0.6, label='t pdf')" ] }, { "cell_type": "code", "execution_count": null, "id": "4c6e4a16", "metadata": {}, "outputs": [], "source": [ "tfunc = t.sf(x, ndf)\n", "prob = 0.0\n", "n = -1\n", "for i in x:\n", " n += 1\n", " if i > 0.540:\n", " print(n)\n", " break" ] }, { "cell_type": "code", "execution_count": null, "id": "debd043f", "metadata": {}, "outputs": [], "source": [ "tfunc[154]" ] }, { "cell_type": "code", "execution_count": null, "id": "5ff20ba5", "metadata": {}, "outputs": [], "source": [ "c = abs(-0.540)\n", "c" ] }, { "cell_type": "code", "execution_count": null, "id": "400715a4", "metadata": {}, "outputs": [], "source": [ "tfunc" ] }, { "cell_type": "code", "execution_count": null, "id": "2d89851f", "metadata": {}, "outputs": [], "source": [ "c = np.arange(0,1,0.1)\n", "csq = c\n", "\n", "tail = t.sf(csq,ndf)\n", "\n", "fig3, ax3 = plt.subplots(1,1)\n", "\n", "ax3.bar(c, tail, color='blue')\n", "\n", "ax3.grid(True,axis='y')\n", "ax3.set_xlabel(r'$N$')\n", "ax3.set_ylabel(r'$P(\\chi_1^2>N^2$)')\n", "ax3.set_title(r't-stat upper tail probability (p-value)')\n", "ax3.set(xlim=(0, 1))\n", "ax3.set_yscale('log')\n", "\n", "yticks = 1/np.power(10,np.arange(1,-1,-1));\n", "ax3.set_yticks(yticks)\n", "\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": null, "id": "69ce8159", "metadata": {}, "outputs": [], "source": [ "tail" ] }, { "cell_type": "code", "execution_count": null, "id": "7b12a5ed", "metadata": {}, "outputs": [], "source": [ "0.34546555*2" ] }, { "cell_type": "code", "execution_count": null, "id": "24d02898", "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.3" } }, "nbformat": 4, "nbformat_minor": 5 }