NTNU - Norges teknisk-naturvitenskapelige universitet

Picture of Kjetil Klepper
Kjetil Klepper
Avdelingsingeniør i bioinformatikk

Kontaktinformasjon:

Kontor: 231.05.058 (Laboratoriesenteret, 5.etg Øst)
Telefon: (+47) 72 57 33 61 .
E-post: kjetil.klepper @ ntnu.no
Postadresse:
Institutt for kreftforskning og molekylær medisin
Laboratoriesenteret, Erling Skjalgsons gt. 1
Det Medisinske Fakultet
Norges teknisk natur-vitenskapelige universitet (NTNU)
7006 Trondheim

Bakgrunn:

Ph.D., medisinsk teknologi (bioinformatikk), NTNU, 2013.

Cand. Scient., informatikk, NTNU, 2004. Fordypning i kunstig intelligens

Cand. Mag., informatikk, Universitetet i Oslo, 1999.

Forskning:

Et viktig satsningsområde for forskningsgruppa vår er å utvikle gode og robuste metoder for å finne bindingsseter for transkripsjonsfaktorer i DNA-sekvenser, eller å bedrive motivoppdaging som vi gjerne kaller det.
Hvis du aldri har hørt om transkripsjonsfaktorer eller motivoppdaging før, foreslår jeg at du tar en titt på denne introduksjonen som jeg har skrevet om emnet.

Mitt PhD-prosjekt: "Integrerte metoder for motivoppdaging i DNA"

Målet med prosjektet mitt er å utvikle et system som kombinerer forskjellige informasjonskilder og metoder, med det formål å forbedre vår evne til å oppdage bindingsseter og motiver. Et slikt system burde være i stand til å finne flere motiver enn tidligere metoder (økt sensitivitet), samtidig som det unngår å foreslå motiver som ikke er reelle (økt spesifisitet). Oppgaveformuleringen er således meget vid og åpner for mange interessante del-prosjekter.

Et sentralt element i systemet blir en modul for motivoppdaging basert på konsensus-prediksjon. Dette er en teknikk fra kunstig intelligens som går ut på at man lar flere (i utgangspunktet uavhengige) motivoppdagings- programmer predikere sett med motiver. Så kommer alle disse programmene sammen i en slags jury hvor de stemmer over alle forslagene som er kommet inn. Majoriteten avgjør så i hvert tilfelle om et forslag skal klassifiseres som et motiv eller ikke. Det fine med en slike metode er at den kan kombinere styrken fra mange ulike programmer slik at resultatet til slutt blir bedre enn om man hadde brukt hvert program for seg selv. Samtidig kan svake sider ved enkelte programmer tones ned og ikke få så store negative utslag. Dersom et motiv er foreslått av flere ulike programmer er det nemlig mer sannsynlig at det her dreier seg om et ekte motiv, mens motiver som er foreslått av kun ett program snarere er kandidater for å være falske positive. Denne metoden bør dog ikke brukes ukritisk siden det godt kan hende at enkelte av programmene faktisk er mye bedre enn de andre og finner motiver som ingen andre klarer å oppdage. Disse programmene burde selvfølgelig ikke straffes for å være flinke. En oppgave blir derfor å finne gode måter å vekte stemmen til alle programmene i forskjellige situasjoner. For eksempel kan det hende at noen programmer er bedre på visse typer datasett eller motiver, og derfor burde deres stemme telle mer i disse tilfellene.

      Det fullstendige systemet kan for eksempel følge den skjematiske fremstilligen i figuren til høyre, hvor prosessen går gjennom tre trinn: pre-prosessering, motivoppdaging og post-prosessering.
      Motivoppdagingsbiten vil hovedsakelig bestå av den nevnte modulen for konsensus-prediksjon. Når så denne delen har foreslått et eller flere motiv, vil det neste steget naturlig være å undersøke om disse motivene har noe for seg eller om de bare er tull. Et viktig steg i post-prosesseringen vil derfor være å verifisere motiv-prediksjonene og eventuelt luke ut falske positive motiver som har sluppet igjennom. En måte å gjøre dette på kan for eksempel være å undersøke om de foreslåtte motivene innehar visse egenskaper som vi burde forvente å finne i ekte motiver. Hvilke egenskaper dette kan dreie seg om er foreløpig helt ukjent, så et høyst aktuelt del-prosjekt vil nettopp være å avdekke om det i det hele tatt finnes slike egenskaper som kjennetegner motiver og i så fall hva de kan være.
      De fleste publiserte motivoppdagingsprogrammer forventer å bli fóret med et datasett hvor alle sekvensene antas å inneholde de samme bindingsmotivene. Dersom mange av sekvensene ikke inneholder disse motivene, vil det vanskeliggjøre motivoppdagingen siden forholdet mellom motiver og bakgrunn (eller "signal/støy-forholdet") forskyves i negativ retning. Det kan derfor være nyttig i en pre-prosesseringsfase å dele opp det opprinnelige datasettet i flere undergrupper bestående av sekvenser med høyere likhet, og så gjøre motivoppdaging i hver av disse gruppene separat.
      En annen faktor som er med på å redusere signal/støy-forholdet er at sekvensene i datasettet ofte kan være veldig lange, mens selve bindingssetene bare utgjør en liten del. Hvis mulig kan det derfor være nyttig å veilede motivoppdagingsprogrammene ved å tildele forskjellige deler av sekvensene ulike vekter som sier noe om hvor sannsynlig det er at et bindingssete befinner seg i nettopp dette området av sekvensen. Teknikken kan brukes til å for eksempel maskere ut repeterende elementer eller å tone ned områder som med høy sannsynlighet er okkupert av nukleosomer og derfor ikke har aktive bindingsseter.

      Sett fra et software engineering-perspektiv vil det være et mål å få til et modulært system basert på en enkel og fleksibel arkitektur, slik at nye metoder og teknikker som utvikles etterhvert bare kan plugges rett inn i systemet der hvor de hører hjemme.

Publikasjoner:

Klepper K and Drabløs F (2013) "MotifLab: a tools and data integration workbench for motif discovery and regulatory sequence analysis". BMC Bioinformatics 14 : 9 [link]

Fenstad MH, Johnson MP, Roten LT, Aas PA, Forsmo S, Klepper K, East CE, Abraham LJ, Blangero J, Brennecke SP, Austgulen R and Moses EK (2010) "Genetic and Molecular Functional Characterization of Variants within TNFSF13B, a Positional Candidate Preeclampsia Susceptibility Gene on 13q".
PLoS One 5(9) : e12993 [link]

Klepper K and Drabløs F (2010) "PriorsEditor: a tool for the creation and use of positional priors in motif discovery".
Bioinformatics 26(17) : 2195–7 [link]

Klepper K, Sandve G, Abul O, Johansen J and Drabløs F (2008) "Assessment of composite motif discovery methods".
BMC Bioinformatics 9 : 123 [link]

Annet:

     Her kan du finne min personlige hjemmeside.

     Og her er en liste over alle spennende artikler som jeg foreløpig har lest i forbindelse med doktorgrads-studiene.

     Her er alle fagene jeg har tatt som student.

Last update 2013-09-10