Qu'est-ce qu'un fichier SAM ?
Un fichier SAM , ou fichier d'alignement / carte de séquence , est un format de texte pour le stockage des séquences biologiques alignées sur une séquence de référence. Il est couramment utilisé dans les applications de bioinformatique telles que l'assemblage du génome, les appels variants et l'analyse de l'expression des gènes.
Un fichier SAM se compose de deux sections principales:
Section d'en-tête: Cette section contient des informations sur la séquence de référence et les séquences alignées, telles que l'espèce, le chromosome et la longueur de séquence.
Section d'alignement: Cette section contient l'alignement des séquences sur la séquence de référence. Chaque ligne de la section d'alignement correspond à une seule lecture alignée.
Les informations d'alignement dans un fichier SAM sont représentées à l'aide d'une série de champs, chacune ayant une signification spécifique. Certains des domaines les plus importants comprennent:
- QName: l'identifiant unique de la lecture
- RNAME: le nom de la séquence de référence à laquelle la lecture est alignée
- POS: La position de la première base de la lecture qui est alignée sur la séquence de référence
- MAPQ: La qualité de cartographie, qui est une mesure de la confiance dans l'alignement
- Cigar: La corde de cigare, qui code les opérations d'alignement (par exemple, match, insertion, suppression)
- SEQ: la séquence de lecture
- Quali: le score de qualité PHRed pour chaque base de la lecture
Les fichiers SAM sont lisibles par l'homme, mais ils peuvent également être compressés dans un format binaire appelé BAM (alignement binaire / carte) pour un stockage et un traitement plus efficaces.
Voici un exemple d'un enregistrement de fichier SAM :
QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<
Cet enregistrement indique qu'une lecture nommée "read1" est alignée sur le chromosome 1 en position 100 avec une qualité de cartographie de 60. La chaîne de cigare "100m" indique que la lecture entière correspond à la séquence de référence. Les champs RNEXT et PNEXT sont définis sur "*" et 0, respectivement, indiquant que la lecture ne fait pas partie d'une lecture par paire. Le champ TLEN est de 100, ce qui indique que la lecture est de 100 bases de long. Le champ SEQ contient la séquence de lecture et le champ Qual contient les scores de qualité PHRED pour chaque base dans la lecture.
Les fichiers SAM sont un outil précieux pour les chercheurs en bioinformatique, car ils fournissent un format standardisé pour stocker et échanger des données d'alignement. Ils sont largement utilisés dans une variété d'applications, et ils sont susceptibles de continuer à être un outil important pour de nombreuses années à venir.
Différents types de fichiers qui peuvent utiliser le. SAM Extension?
. SAM peut également être un exemple de fichier MOD EDIT . Il s'agit d'un format de fichier utilisé par le logiciel d'édition audio MOD Edit. Mod Edit est un programme de création et de modification des modules musicaux, qui sont de petits fichiers qui contiennent des données musicales dans un format compressé. Les fichiers SAM PLE MOD EDIT contiennent les données audio brutes pour les Sam Ple utilisés dans un module.
Voici un tableau résumant les différents types de fichiers qui peuvent utiliser le. Extension SAM :
Type de fichier | Description |
---|
Document Ami Pro | Un document de traitement de texte créé par Samna Ami Pro |
Exemple de fichier LMHOSTS | Un exemple de fichier pour le fichier LMHOSTS, qui mappe les adresses IP aux noms d'hôte |
Mod Modifier un exemple de fichier | Un exemple de fichier pour le logiciel d'édition audio MOD Edit |
Fichier d'alignement de séquence / carte (SAM) | Un format de texte pour stocker des séquences biologiques alignées sur une séquence de référence |
Le type de fichier spécifique de a. Le fichier SAM peut généralement être déterminé par le contexte dans lequel il est trouvé. Par exemple, si le fichier est situé dans un dossier qui contient d'autres fichiers audio, il s'agit probablement d'un fichier SAM PLE MOD Modifier. Si le fichier est situé dans un dossier contenant d'autres fichiers de données biologiques, il s'agit probablement d'un fichier SAM .
Comment ouvrir un fichier SAM ?
Les fichiers SAM peuvent être ouverts à l'aide d'une variété d'éditeurs de texte et de logiciels de bioinformatique. Certaines options populaires incluent:
Notepad ++: un éditeur de texte gratuit et open-source qui peut gérer de grands fichiers SAM .
Samtools: un outil autonome pour le traitement des fichiers SAM et BAM.
Geneious: un progiciel commercial bioinformatique avec une interface utilisateur graphique pour afficher et analyser les fichiers SAM .
Comment convertir un fichier SAM ?
Les fichiers SAM peuvent être convertis en une variété d'autres formats, notamment BAM , SAMGZ et BED . Certaines options populaires pour convertir les fichiers SAM incluent:
Samtools: peut convertir les fichiers SAM en formats BAM, SAM GZ et LED.
BedTools: peut convertir les fichiers SAM au format de lit.
Picard: une boîte à outils Bioinformatics basée sur Java qui comprend des outils pour convertir les fichiers SAM en différents formats.
Différence entre les fichiers SAM et BAM?
Les fichiers SAM et BAM sont tous deux des formats de stockage de séquences biologiques alignées sur une séquence de référence. La principale différence entre les deux formats est que les fichiers SAM sont des fichiers texte lisibles par l'homme, tandis que les fichiers BAM sont des fichiers binaires. Cela rend les fichiers BAM nettement plus petits et plus rapides à lire et à traiter. Cependant, les fichiers BAM ne peuvent pas être directement modifiés dans un éditeur de texte, donc les fichiers SAM sont toujours utiles pour l'inspection humaine et l'édition.
Comment créer un fichier SAM ?
Les fichiers SAM peuvent être créés à l'aide d'une variété de packages de logiciels bioinformatiques. Certaines options populaires incluent:
BWA: un outil pour aligner les lectures courtes sur une séquence de référence.
Bowtie2: Un autre outil populaire pour aligner les lectures courtes sur une séquence de référence.
Novoalign : un aligneur commercial avec une réputation de vitesse et de précision.
Comment lire un fichier SAM ?
Les fichiers SAM peuvent être lus à l'aide d'une variété d'éditeurs de texte et de logiciels de bioinformatique. Certaines options populaires incluent:
Notepad ++: peut afficher les fichiers SAM dans un format lisible par l'homme.
Outils SAM : peut lire les fichiers SAM et extraire des informations spécifiques, telles que les lectures alignées ou les scores de qualité de cartographie.
Geneious: peut fournir une vue graphique des informations d'alignement dans un fichier SAM .
Parties d'un fichier SAM ?
Un fichier SAM se compose de deux sections principales:
Section d'en-tête: contient des métadonnées sur la séquence de référence et les lectures alignées, telles que l'espèce, le chromosome et la longueur de séquence.
Section d'alignement: contient l'alignement des lectures sur la séquence de référence. Chaque ligne de la section d'alignement correspond à une seule lecture alignée.
Problèmes courants avec les fichiers SAM ?
Certains problèmes courants qui peuvent survenir avec les fichiers SAM incluent:
DUPLICATE LECTES: LECTES SUR LE SÉRÉVENIE DE RÉFÉRENCE MARCHETS.
LECTURES NON MAPPAGES: Des lectures qui ne peuvent pas être alignées sur la séquence de référence.
Alignements incorrects: alignements qui ne sont pas exacts ou qui ne reflètent pas les véritables relations biologiques entre les lectures et la séquence de référence.
Ces problèmes peuvent survenir en raison de divers facteurs, tels que des erreurs de séquençage, une faible couverture ou des structures génomiques complexes. La résolution de ces problèmes nécessite souvent des techniques et des outils de bioinformatique spécialisés