TDT4265 - Datasyn og dyp læring

Faglig Innhold

Se den engelske beskrivelsen dersom du finner noen av uttrykkene under litt merkelig / vanskelig å forstå. Moderne datamaskinsyn (CV), drevet av dyp læring (DL) og i økende grad kjent som visuell intelligens (VI), gjør det mulig for maskiner å tolke og forstå visuelle data. Denne teknologien, som er avgjørende i dag innen felt som autonome kjøretøy og medisinsk bildediagnostikk, forventes å revolusjonere en rekke industrier ved å muliggjøre mer presis og effektiv visuell analyse. Kurset vil dekke de matematiske og beregningsmessige grunnlagene som er essensielle for dyp læringsbasert CV, sammen med sentrale nevrale arkitekturer og deres treningsmekanismer, inkludert veiledet, selvveiledet, uveiledet og forsterkningsbasert læring. Faget vil adressere viktige oppgaver innen datamaskinsyn og fremheve innflytelsesrike og toppmoderne arkitekturer for hver oppgave. Kurset vil også undersøke de viktigste rammeverkene og verktøyene i feltet og utforske bruksområder som driver utviklingen av datamaskinsyn. Noen flere detaljer om kursinnholdet: - Grunnleggende innen DL : Fra nevroner/enheter til nevrale nettverk (NNs). Grunnsannhetsdata (GT), parametere (vekter og skjevheter), aktiveringsfunksjoner og tapsfunksjoner. Beregningsgrafer, oppdateringsregel, gradienter og veiledet læring. Fremover- og bakoverpassering i grunne nevrale nettverk, matrise-notasjon. Normalisering (data/parti) og initialisering (parametere). Hyperparameter-tuning og gradientbasert optimalisering (fra enkle til toppmoderne optimeringsmetoder). Generalisering og regularisering. - Arkitekturer : Fullt koblede (Dense) NNs (FCNNs), Konvolusjonsbaserte NNs (CNNs) og ulike typer konvolusjoner (inkludert Residual NNs og Capsule Nets), Rekurrente NNs (RNNs, LSTMs, GRUs) for CV (f.eks. sekvenser av rammer i en video), Transformere og selvoppmerksomhetsmekanismen. Vision Transformers. Grafbaserte NNs (GNNs) for CV. MAMBA-arkitekturen. - CV-oppgaver: Veiledet : Bildeklassifisering, Objektdeteksjon, Segmentering (semantisk, instans, panoptisk), Dybdeestimering og POSE-estimering osv. Objektsporing (f.eks. samme ID på et objekt i en videosekvens). Selvveiledet læring (SSL) : Store visjonsmodeller og multimodale grunnlagsmodeller (inkludert bilder og video). Uveiledet læring : Autoenkodere (AE) og Variasjonelle Autoenkodere (VAE). Generative Adversarial Networks (GANs). Diffusjonsmodeller. Tekst-til-bilde/video/3D. Forsterkningslæring i konteksten av CV : Verdibaserte metoder, Policy Gradient-metoder og Actor-Critic-metoder. - Veiledet : Bildeklassifisering, Objektdeteksjon, Segmentering (semantisk, instans, panoptisk), Dybdeestimering og POSE-estimering osv. Objektsporing (f.eks. samme ID på et objekt i en videosekvens). - Selvveiledet læring (SSL) : Store visjonsmodeller og multimodale grunnlagsmodeller (inkludert bilder og video). - Uveiledet læring : Autoenkodere (AE) og Variasjonelle Autoenkodere (VAE). Generative Adversarial Networks (GANs). Diffusjonsmodeller. Tekst-til-bilde/video/3D. - Forsterkningslæring i konteksten av CV : Verdibaserte metoder, Policy Gradient-metoder og Actor-Critic-metoder. Dette kurset gir en omfattende introduksjon til de mest sentrale konseptene og teknologiene innen moderne datamaskinsyn og dyp læring.

Læringsmål

Kunnskap: - Forstå de grunnleggende konseptene og matematiske prinsippene bak algoritmer for dyp læring og deres anvendelse innen moderne datamaskinsyn. - Gjenkjenne strukturen og funksjonaliteten til ulike nevrale nettverksarkitekturer (FCNNs, CNNs, Vision Transformers, etc.) samt deres rolle i å løse spesifikke oppgaver innen datamaskinsyn. - Forstå de teoretiske aspektene ved læringsmekanismer som veiledet, selvveiledet, uveiledet og forsterkningsbasert læring, og hvordan disse bidrar til feltet visuell intelligens. Ferdigheter: - Anvende kunnskap om dyp læring for å konstruere og trene nevrale nettverk for en rekke oppgaver innen datamaskinsyn, som bildeklassifisering, objektdeteksjon, segmentering, dybdeestimering, pose-estimering og generativ AI for synsoppgaver. - Benytte toppmoderne optimeringsteknikker, normaliseringsprosesser og regulariseringsmetoder for å forbedre generaliseringen av nevrale nettverksmodeller. - Bruke sentrale rammeverk og verktøy etablert i feltet for å implementere og evaluere modeller for datamaskinsyn. Generell kompetanse: - Analysere og kritisk vurdere ulike nevrale nettverksmodeller og arkitekturer, og velge den mest passende for en gitt oppgave innen visuell intelligens. - Integrere avanserte løsninger innen datamaskinsyn i ulike bruksområder, som autonome kjøretøy og medisinsk bildediagnostikk, for å forbedre nøyaktighet og effektivitet. - Vise problemløsningsevner ved å justere hyperparametere og nettverksarkitekturer for å optimalisere ytelsen for oppgaver innen datamaskinsyn.

TDT4265 - Datasyn og dyp læring

Karakterfordeling

Faglig Innhold

Læringsmål

Lenker