Cos'è un file SAM ?
Un file SAM , o file di allineamento/mappa della sequenza , è un formato basato sul testo per la memorizzazione di sequenze biologiche allineate a una sequenza di riferimento. È comunemente usato in applicazioni bioinformatiche come l'assemblaggio del genoma, la chiamata variante e l'analisi dell'espressione genica.
Un file SAM è costituito da due sezioni principali:
Sezione di intestazione: questa sezione contiene informazioni sulla sequenza di riferimento e sulle sequenze allineate, come la specie, il cromosoma e la lunghezza della sequenza.
Sezione di allineamento: questa sezione contiene l'allineamento delle sequenze alla sequenza di riferimento. Ogni riga nella sezione di allineamento corrisponde a una singola lettura allineata.
Le informazioni di allineamento in un file SAM sono rappresentate utilizzando una serie di campi, ognuno dei quali ha un significato specifico. Alcuni dei campi più importanti includono:
- QNAME: l'identificatore univoco per la lettura
- RNAME: il nome della sequenza di riferimento a cui è allineata la lettura
- POS: la posizione della prima base nella lettura che è allineata alla sequenza di riferimento
- MAPQ: la qualità della mappatura, che è una misura della fiducia nell'allineamento
- Cigar: The Cigar String, che codifica le operazioni di allineamento (ad es. Match, Insertion, Eletion)
- Seq: la sequenza di lettura
- Qual: il punteggio di qualità del Phred per ogni base nella lettura
I file SAM sono leggibili dall'uomo, ma possono anche essere compressi in un formato binario chiamato BAM (allineamento binario/mappa) per archiviazione ed elaborazione più efficienti.
Ecco un esempio di record di file SAM :
QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<
Questo record indica che una lettura denominata "read1" è allineata al cromosoma 1 in posizione 100 con una qualità di mappatura di 60. La stringa di sigaro "100m" indica che l'intera lettura corrisponde alla sequenza di riferimento. I campi RNEXT e PNEXT sono impostati su "*" e 0, rispettivamente, indicando che la lettura non fa parte di una lettura di fascia abbinata. Il campo Tlen è 100, indicando che la lettura è lunga 100 basi. Il campo SEQ contiene la sequenza di lettura e il campo CHI contiene i punteggi di qualità Phred per ciascuna base nella lettura.
I file SAM sono uno strumento prezioso per i ricercatori bioinformatici, in quanto forniscono un formato standardizzato per lo stoccaggio e lo scambio di dati di allineamento. Sono ampiamente utilizzati in una varietà di applicazioni e è probabile che continuino a essere uno strumento importante per molti anni a venire.
Diversi tipi di file che possono utilizzare il. Sam Extension?
. SAM può anche essere un file di esempio di modifica mod . È un formato di file utilizzato dal software di modifica audio di modifica mod. Mod Edit è un programma per la creazione e la modifica di moduli musicali, che sono piccoli file che contengono dati musicali in un formato compresso. MOD Modifica i file sam ple contengono i dati audio grezzi per i sam ple utilizzati in un modulo.
Ecco una tabella che riassume i diversi tipi di file che possono utilizzare il. Sam Extension:
Tipo di file | Descrizione |
---|
Documento AMI Pro | Un documento di elaborazione testi creata da samna ami pro |
File di esempio LMHOSTS | Un file di esempio per il file LMHOSTS, che mappa gli indirizzi IP per i nomi host |
MOD Modifica file di esempio | Un file di esempio per il software di modifica audio modifica mod |
File di allineamento/mappa (SAM) di sequenza | Un formato basato sul testo per la memorizzazione di sequenze biologiche allineate a una sequenza di riferimento |
Il tipo di file specifico di a. Il file SAM può di solito essere determinato dal contesto in cui viene trovato. Ad esempio, se il file si trova in una cartella che contiene altri file audio, è probabile che un file Mod Modifica sam ple. Se il file si trova in una cartella che contiene altri file di dati biologici, è probabile che un file SAM .
Come aprire un file SAM ?
I file SAM possono essere aperti utilizzando una varietà di editor di testo e pacchetti software di bioinformatica. Alcune opzioni popolari includono:
Notepad ++: un editor di testo gratuito e open source in grado di gestire grandi file SAM .
Samtools: uno strumento autonomo per l'elaborazione di file SAM e BAM.
Geneious: un pacchetto software di bioinformatica commerciale con un'interfaccia utente grafica per la visualizzazione e l'analisi dei file SAM .
Come convertire un file SAM ?
I file SAM possono essere convertiti in una varietà di altri formati, tra cui BAM , SAMGZ e BED . Alcune opzioni popolari per la conversione di file SAM includono:
Samtools: può convertire i file SAM in formati BAM, SAM GZ e letto.
BedTools: può convertire i file SAM in formato da letto.
Picard: un toolkit di bioinformatica basato su Java che include strumenti per la conversione di file SAM in vari formati.
Differenza tra i file SAM e BAM?
I file SAM e BAM sono entrambi formati per la memorizzazione di sequenze biologiche allineate a una sequenza di riferimento. La differenza principale tra i due formati è che i file SAM sono file di testo leggibili dall'uomo, mentre i file BAM sono file binari. Ciò rende i file BAM significativamente più piccoli e più veloci da leggere ed elaborare. Tuttavia, i file BAM non possono essere modificati direttamente in un editor di testo, quindi i file SAM sono ancora utili per l'ispezione e la modifica umana.
Come creare un file SAM ?
I file SAM possono essere creati utilizzando una varietà di pacchetti software di bioinformatica. Alcune opzioni popolari includono:
BWA: uno strumento per allineare brevi letture a una sequenza di riferimento.
Bowtie2: un altro strumento popolare per allineare brevi letture a una sequenza di riferimento.
Novoalign : un allineatore commerciale con una reputazione per la sua velocità e precisione.
Come leggere un file SAM ?
I file SAM possono essere letti utilizzando una varietà di editor di testo e pacchetti software di bioinformatica. Alcune opzioni popolari includono:
Notepad ++: può visualizzare i file SAM in un formato leggibile dall'uomo.
Strumenti SAM : possono leggere i file SAM ed estrarre informazioni specifiche, come le letture allineate o i punteggi di qualità della mappatura.
Geneious: può fornire una vista grafica delle informazioni di allineamento in un file SAM .
Parti di un file SAM ?
Un file SAM è costituito da due sezioni principali:
Sezione di intestazione: contiene metadati sulla sequenza di riferimento e le letture allineate, come la specie, il cromosoma e la lunghezza della sequenza.
Sezione di allineamento: contiene l'allineamento delle letture alla sequenza di riferimento. Ogni riga nella sezione di allineamento corrisponde a una singola lettura allineata.
Problemi comuni con i file SAM ?
Alcuni problemi comuni che possono verificarsi con i file SAM includono:
Letture duplicate: letture che si allineano alla sequenza di riferimento più volte.
Letture non mappate: letture che non possono essere allineate alla sequenza di riferimento.
Allineamenti errati: allineamenti che non sono accurati o che non riflettono le vere relazioni biologiche tra le letture e la sequenza di riferimento.
Questi problemi possono sorgere a causa di vari fattori, come errori di sequenziamento, bassa copertura o strutture genomiche complesse. Affrontare questi problemi spesso richiede tecniche e strumenti bioinformatici specializzati