Mon raisonnement part de ceci:
Conditions nécessaires du cours
La vidéo du cours 3.1 annonce:
- Une région codante ne peut se situer qu’entre deux stop consécutifs dans la même phase
- Une distance minimale entre les 2 codons stop est requise pour coder une protéine suffisamment longue. Typiquement 300 nucléotides (100 AA)
Conditions nécesssaires pour moi:
De ce que j’ai appris dans ce mooc, les conditions nécessaires me paraissent plutôt les suivantes:
- Une région codante ne peut se situer qu’entre un start et un stop consécutifs dans la même phase
- Une distance minimale entre les codons start et stop est requise pour coder une protéine suffisamment longue (par défaut=300)
D’où un algorithme plus simple (voir ci-après).
Question:
Mais alors pourquoi l’ORF? Une raison biologique ou bioinformatique particulière?
Bref, je ne comprends pas la nécessité de l’ORF
Merci beaucoup de votre réponse
Annexe
Algorithme:
(N’hésitez pas à me corriger si je me suis trompé, je vous en remercie.)
indexStop, indexStart, indexDNA, iGene: integer
Gene: array [1:*, 1:2] of integer
/* indexDNA <- 1 */
iGene <- 1
indexStart <- 0
repeat
indexStart <- NextStartCodon (indexDNA)
if indexStart > 0 then
indexStop <- NextStopCodon (indexStart+3)
if indexStop > 0 then
Length = IndexStop - IndexStart + 1
if Length ≥ LengthMin then
Gene [iGene, 1] ← indexStart
Gene [iGene, 2] ← indexStop
iGene ← iGene +1
endif
endif
endif
indexDNA <- max (indexStart, indexStop, indexDNA+3)
until (indexStart = 0) or (indexDNA > LengthSequence)
Python:
Une demonstration python concluante, me semble-t-il, est ici: https://nbhosting.inria.fr/snapshots/bioinfo/cfdfced7de359bc6b265304c8c3a5aac72088ddf.html , d’après l’exercice “Recherche de régions codantes sur une phase” de la section 3.2. “Un algorithme simple de prédiction de gènes.”