Wat is een SAM -bestand?
Een SAM- bestand, of sequentie-uitlijning/kaartbestand , is een op tekst gebaseerd formaat voor het opslaan van biologische sequenties die zijn uitgelijnd met een referentiesequentie. Het wordt vaak gebruikt in bioinformatische toepassingen zoals genoomassemblage, variantaanroepen en genexpressieanalyse.
Een SAM -bestand bestaat uit twee hoofdsecties:
Sectie van de koptekst: deze sectie bevat informatie over de referentiesequentie en de uitgelijnde sequenties, zoals de soort, chromosoom en sequentielengte.
Uitlijningssectie: deze sectie bevat de uitlijning van de sequenties op de referentiesequentie. Elke regel in het uitlijningsgedeelte komt overeen met een enkele uitgelijnde lezing.
De uitlijningsinformatie in een SAM -bestand wordt weergegeven met behulp van een reeks velden, die elk een specifieke betekenis hebben. Enkele van de belangrijkste velden zijn:
- Qname: de unieke identificatie voor de lezen
- RNAME: De naam van de referentiereeks waaraan de lezing is uitgelijnd
- POS: de positie van de eerste honk in de lees die is uitgelijnd met de referentiereeks
- MAPQ: De kaartkwaliteit, die een maat is voor het vertrouwen in de afstemming
- Sigaren: de sigaarsnoer, die codeert voor de uitlijningsactiviteiten (bijv. Match, invoeging, verwijdering)
- SEQ: De read -reeks
- Qual: De Phred Quality Score voor elke basis in de Read
SAM- bestanden zijn door mensen leesbaar, maar ze kunnen ook worden gecomprimeerd in een binair formaat genaamd BAM (binaire uitlijning/kaart) voor efficiëntere opslag en verwerking.
Hier is een voorbeeld van een SAM -bestandsrecord:
QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<
Dit record geeft aan dat een lees met de naam "Read1" is uitgelijnd met chromosoom 1 op positie 100 met een kaartkwaliteit van 60. De sigarenstring "100m" geeft aan dat de hele lezing overeenkomt met de referentiereeks. De velden RNEXT en PNEXT zijn ingesteld op respectievelijk "*" en 0, wat aangeeft dat de lees geen deel uitmaakt van een gepaarde-end gelezen. Het TLEN -veld is 100, wat aangeeft dat de lezing 100 basen lang is. Het SEQ -veld bevat de leesreeks en het Qual -veld bevat de pHred -kwaliteitsscores voor elke basis in de lees.
SAM -bestanden zijn een waardevol hulpmiddel voor bio -informatica -onderzoekers, omdat ze een gestandaardiseerd formaat bieden voor het opslaan en uitwisselen van uitlijningsgegevens. Ze worden veel gebruikt in verschillende toepassingen, en ze zullen waarschijnlijk nog vele jaren een belangrijk hulpmiddel blijven.
Verschillende bestandstypen die de. Sam Extension?
. SAM kan ook een mod -bewerkingsbestand van MOD bewerken zijn. Het is een bestandsformaat dat wordt gebruikt door de MOD EDIT -audiobewerkingssoftware. MOD EDIT is een programma voor het maken en bewerken van muziekmodules, die kleine bestanden zijn die muziekgegevens bevatten in een gecomprimeerd formaat. Mod bewerken sam pley -bestanden bevatten de onbewerkte audiogegevens voor de samples die in een module worden gebruikt.
Hier is een tabel die de verschillende bestandstypen samenvat die de. SAM -uitbreiding:
Bestandstype | Beschrijving |
---|
Ami Pro -document | Een tekstverwerkingsdocument gemaakt door Samna Ami Pro |
Lmhosts voorbeeldbestand | Een voorbeeldbestand voor het LMHOSTS -bestand, dat IP -adressen toewijst aan hostnamen |
Mod bewerken voorbeeldbestand | Een voorbeeldbestand voor de MOD Edit -audiobewerkingssoftware |
Sequentie -uitlijning/kaart (SAM) -bestand | Een op tekst gebaseerd formaat voor het opslaan van biologische sequenties die zijn afgestemd op een referentiesequentie |
Het specifieke bestandstype van a. SAM -bestand kan meestal worden bepaald door de context waarin het wordt gevonden. Als het bestand zich bijvoorbeeld bevindt in een map die andere audiobestanden bevat, is dit waarschijnlijk een mod -bewerkingsbestand bewerken. Als het bestand zich bevindt in een map die andere biologische gegevensbestanden bevat, is dit waarschijnlijk een SAM -bestand.
Hoe open je een SAM -bestand?
SAM -bestanden kunnen worden geopend met behulp van verschillende teksteditors en softwarepakketten voor bioinformatica. Sommige populaire opties zijn onder meer:
Notepad ++: een gratis en open-source teksteditor die grote SAM- bestanden aankan.
Samtools: een zelfstandige tool voor het verwerken van SAM- en BAM -bestanden.
Geneious: een commercieel bioinformatica softwarepakket met een grafische gebruikersinterface voor het bekijken en analyseren van SAM -bestanden.
Hoe converteer ik een SAM -bestand?
SAM -bestanden kunnen worden geconverteerd naar verschillende andere formaten, waaronder BAM , Samgz en Bed . Enkele populaire opties voor het converteren van SAM -bestanden zijn onder meer:
Samtools: kan SAM -bestanden converteren naar BAM-, SAM GZ- en bedformaten.
Bedtools: kan SAM -bestanden converteren naar bedformaat.
Picard: een op Java gebaseerde bioinformatica-toolkit met tools voor het converteren van SAM- bestanden naar verschillende formaten.
Verschil tussen SAM- en BAM -bestanden?
SAM- en BAM -bestanden zijn beide formaten voor het opslaan van biologische sequenties die zijn uitgelijnd met een referentiesequentie. Het primaire verschil tussen de twee formaten is dat SAM- bestanden door mensen leesbare tekstbestanden zijn, terwijl BAM-bestanden binaire bestanden zijn. Dit maakt BAM -bestanden aanzienlijk kleiner en sneller om te lezen en te verwerken. BAM -bestanden kunnen echter niet direct worden bewerkt in een teksteditor, dus SAM -bestanden zijn nog steeds nuttig voor menselijke inspectie en bewerking.
Hoe maak ik een SAM -bestand?
SAM -bestanden kunnen worden gemaakt met behulp van verschillende bioinformatica -softwarepakketten. Sommige populaire opties zijn onder meer:
BWA: Een hulpmiddel voor het uitlijnen van korte leest op een referentievolgorde.
Bowtie2: Een ander populair hulpmiddel voor het uitlijnen van korte lezingen op een referentievolgorde.
NovoAlign : een commerciële uitlijning met een reputatie voor zijn snelheid en nauwkeurigheid.
Hoe lees ik een SAM -bestand?
SAM -bestanden kunnen worden gelezen met behulp van verschillende teksteditors en softwarepakketten voor bioinformatica. Sommige populaire opties zijn onder meer:
Notepad ++: kan SAM- bestanden weergeven in een door de mens leesbaar formaat.
SAM Tools: kan SAM -bestanden lezen en specifieke informatie extraheren, zoals de uitgelijnde lezingen of de scores van het toewijzingskwaliteit.
Geneious: kan een grafische weergave geven van de uitlijningsinformatie in een SAM -bestand.
Delen van een SAM -bestand?
Een SAM -bestand bestaat uit twee hoofdsecties:
Sectie van de koptekst: bevat metadata over de referentiesequentie en de uitgelijnde lezingen, zoals de soort, chromosoom en sequentielengte.
Afstemming Sectie: bevat de afstemming van de lezingen op de referentiereeks. Elke regel in het uitlijningsgedeelte komt overeen met een enkele uitgelijnde lezing.
Veel voorkomende problemen met SAM -bestanden?
Enkele veel voorkomende problemen die kunnen optreden bij SAM -bestanden zijn:
Duplicaat leest: leest die meerdere keren uitlijnen op de referentiereeks.
UNMOPPTEERDEN: leest die niet kunnen worden uitgelijnd met de referentiesequentie.
Onjuiste uitlijningen: uitlijningen die niet nauwkeurig zijn of die niet de ware biologische relaties tussen de lezingen en de referentiesequentie weerspiegelen.
Deze problemen kunnen ontstaan door verschillende factoren, zoals sequentiefouten, lage dekking of complexe genomische structuren. Het aanpakken van deze problemen vereist vaak gespecialiseerde bioinformatica -technieken en tools