Forberedelser til første time#

Følg instruksjonene under for å være forberedt til første time. Merk at det er en oppgave nederst på siden som kommer til å ta litt tid.

Logge inn på diskusjonsforum#

Vi skal bruke et discourse-basert diskusjonsforum som heter discourse. Logg inn her før timen. Bruk dette forumet om du lurer på noe faglig eller praktisk i kurset. For kontakt om personlige forhold (f. eks. for fravær eller utsettelser) bruker du mail.

Opprette en bruker på GitHub#

Når dere skal jobbe med programkode i grupper, trenger dere et sted å dele koden deres med hverandre. Standarden for å holde styr på kode er versjonskontrollsystemer slik som Git. Derfor trenger alle en bruker på GitHub. Inne på github kan dere opprette felles prosjekter. Når prosjektet deres skal leveres, kan dere enkelt laste det ned som en zip-fil og levere i Canvas. Dere trenger ikke øve så mye på å bruke github enda, men det kan være fint å opprette et repository og legge inn en fil der, bare for å komme litt i gang. Vi skal øve mer på dette senere.

Datasett#

Vi legger ut noen datasett til bruk i dette kurset på Zenodo.

Installere JupyterLab#

Vi skal bruke Python vha. Jupyter notebook i kurset. For å kunne gjøre datavitenskap trenger vi å installere noen pakker i python-installasjonen. I første omgang ønsker vi at dere skal kjøre JupyterLab på egen maskin. Dette kan installeres på flere forskjellige måter. Vi anbefaler å gjøre en av følgende:

  • Bruke Visual Studio Code med Jupyter-extension

  • Dersom du er komfortabel med terminalvinduet, og vet hva pip install er for noe, installer JupyterLab med kommandoen pip install jupyterlab. Vi anbefaler at du gjør dette i et virtual environment, for eksempel med pyenv-virtualenv.

  • Om du ikke er komfortabel med terminalen: Installer Anaconda. Der følger JupyterLab med, og fungerer fint.

Installere python-pakker og sjekke at de fungerer#

Enten kjøre følgende kommando i terminalen:

pip install pandas numpy matplotlib

eller følgende kommando inne i JupyterLab:

!pip install -q pandas numpy matplotlib

Test oppsettet med å se på data av ulike typer Iris#

setosa

versicolor

virginica

drawing

drawing

drawing

import pandas as pd 
file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
df.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa

Etter kommandoen over skal du se en tabell med data fra Iris-datasettet.

import matplotlib.pyplot as plt 
plt.scatter(df["sepal_length"], df["sepal_width"])
plt.xlabel("sepal length")
plt.ylabel("sepal width")
Text(0, 0.5, 'sepal width')
../../../_images/4b4e87d3098a1740577d63875cb7c8455c9b9bbf02f77d1d38f0036eab016657.png
fig, ax = plt.subplots(figsize=(8,6))

for species, s_df in df.groupby("species"):
    ax.scatter(s_df["sepal_length"], s_df["petal_length"], label=species)
plt.xlabel("sepal length")
plt.ylabel("petal length")
plt.legend()
<matplotlib.legend.Legend at 0x7fd492043710>
../../../_images/481f4d20f3bcab03688052f1ac736b683994e6ba70d3e8df3e51e1ea0658cc40.png

Om alt dette fungerer, og du får opp noe som ligner på figurene over, er du klar for undervisningstime.