Quelle est l’exacte utilité de l’ORF?

zenjo

Mon raisonnement part de ceci:

Conditions nécessaires du cours

La vidéo du cours 3.1 annonce:

Une région codante ne peut se situer qu’entre deux stop consécutifs dans la même phase
Une distance minimale entre les 2 codons stop est requise pour coder une protéine suffisamment longue. Typiquement 300 nucléotides (100 AA)

Conditions nécesssaires pour moi:

De ce que j’ai appris dans ce mooc, les conditions nécessaires me paraissent plutôt les suivantes:

Une région codante ne peut se situer qu’entre un start et un stop consécutifs dans la même phase
Une distance minimale entre les codons start et stop est requise pour coder une protéine suffisamment longue (par défaut=300)

D’où un algorithme plus simple (voir ci-après).

Question:

Mais alors pourquoi l’ORF? Une raison biologique ou bioinformatique particulière?
Bref, je ne comprends pas la nécessité de l’ORF

Merci beaucoup de votre réponse

Annexe

Algorithme:

(N’hésitez pas à me corriger si je me suis trompé, je vous en remercie.)

indexStop, indexStart, indexDNA, iGene: integer
Gene: array [1:*, 1:2] of integer
/* indexDNA <- 1 */
iGene <- 1
indexStart <- 0

repeat
    indexStart <- NextStartCodon (indexDNA)
    if indexStart > 0 then
        indexStop <- NextStopCodon (indexStart+3)
        if indexStop > 0 then
            Length = IndexStop - IndexStart + 1
            if Length ≥ LengthMin then
                Gene [iGene, 1] ← indexStart
              Gene [iGene, 2] ← indexStop
               iGene ← iGene +1
           endif
        endif
    endif
    indexDNA <- max (indexStart, indexStop, indexDNA+3)
until (indexStart = 0) or (indexDNA > LengthSequence)

Python:

Une demonstration python concluante, me semble-t-il, est ici: https://nbhosting.inria.fr/snapshots/bioinfo/cfdfced7de359bc6b265304c8c3a5aac72088ddf.html , d’après l’exercice “Recherche de régions codantes sur une phase” de la section 3.2. “Un algorithme simple de prédiction de gènes.”

FRechenmann

Ne pas oublier que le triplet ATG code la méthionine quand il apparaît dans une région codante.

Autrement dit, tout triplet ATG, même en phase et en amont d’un codon STOP, n’est pas obligatoirement un codon START.

zenjo

Bonjour M Rechenmann,

je vous remercie de votre réponse; cependant, celle-ci vaut pareillement que l’on cherche des ORF, puis un codon start dans ces ORF, ou bien que l’on cherche directement des régions start puis stop.

De plus, l’algorithme ORF implique que si un gène existe avant le 1er stop découvert, il ne sera pas prédit (alors qu’il le sera si l’on cherche directement un start suivi d’un stop).

Décidément, je continue à penser qu’il y a une raison que je ne comprends pas.

Bien cordialement,
Robert Sebille.

FRechenmann

La notion explicite d’ORF, telle qu’elle est présentée dans ce MOOC, n’est effectivement pas indispensable à la mise en œuvre d’un algorithme simple de prédiction de gènes dans une séquence génomique bactérienne. Votre propre algorithme en est l’illustration.

Il s’agit néanmoins d’une notion très souvent présentée en bioinformatique, et à connaître à ce titre.

Dans le contexte de ce MOOC, elle permet de plus, me semble-t-il, de bien faire comprendre la démarche de prédiction de régions codantes.

zenjo

Bonjour M Rechenmann,

ORF:

D’accord. et je poursuis le mooc dans ce sens.

Ceci est indiscutable!

J’espère un jour trouver, pour mon information, une explication à la notion d’ORF, mais ça n’est pas du tout une question urgente, ni bloquante. Juste de la curiosité.

je vous remercie de vos patientes réponses,
bien cordialement,
Robert Sebille.

Jubilat

Une précision: est-ce que le triplet start est inclus dans l’ORF (pour le comptage des bases) Les 3 du triplet start sont prises en considération dans les 300, par ex? Merci.

FRechenmann

A l’étape d’identification des ORF (au sens retenu dans ce MOOC), l’occurrence de triplets START n’intervient pas. Seuls les triplets STOP sont pris en compte.