Bonjour,
Les algorithmes exposés partent de l’hypothèse que la région non codante de l’ORF (entre le 1er triplet STOP et le triplet START suivant) est également organisée en triplets de nucléotides. Est-ce une réalité biologique ? Sait-on pourquoi ? Pourquoi cette région de l’ORF ne pourrait elle pas avoir un nombre quelconque de nucléotides (pas forcement un multiple de 3), puisque de toute façon elle n’est pas codante?
Merci d’avance
Triplets dans la région non codante de l’ORF


La démarche de prédiction de régions codantes exposée dans ce MOOC consiste en premier lieu à identifier des ORF, c’est-à-dire des portions de la séquence ADN délimitées par 2 triplets STOP en phase, ne contenant aucun triplet STOP en phase, et de longueur supérieure à un certain seuil. Au sein de chacune de ces ORF, l’algorithme recherche un triplet START en phase le plus « à gauche » et déclare que la région codante est délimitée par ce triplet START et le triplet STOP qui délimite l’ORF en 3’.
Par conception même de la démarche de recherche, la séquence entre le STOP en 5’ et le triplet START retenu est en phase.
Ceci étant, une fois la prédiction faite, cette considération de phase sur la séquence en amont du codon START retenu n’est plus pertinente.

Donc on pourrait avoir une séuence avec un codon stop + 100 bases non-codantes + 300 bases codantes + 1 codon stop qui ne soit pas détecté par l’algorithme de ce MOOC comme un ORF mais qui correspondrait à une situation biologique ?

La région codante que vous décrivez sera identifiée comme telle par l’algorithme dès lors qu’elle apparaît au sein d’une ORF délimitée en amont (5’) par un triplet STOP en phase (qui ne sera pas le triplet STOP que vous mentionnez, celui-ci n’étant pas dans la même phase que les triplets de la région codante, du fait de l’intervalle de 100 bases).