O que é um arquivo SAM ?
Um arquivo SAM , ou arquivo de alinhamento/mapa de sequência , é um formato baseado em texto para armazenar sequências biológicas alinhadas a uma sequência de referência. É comumente usado em aplicações bioinformáticas, como montagem de genoma, chamada variante e análise de expressão gênica.
Um arquivo SAM consiste em duas seções principais:
Seção do cabeçalho: Esta seção contém informações sobre a sequência de referência e as seqüências alinhadas, como espécies, cromossomo e comprimento da sequência.
Seção de alinhamento: Esta seção contém o alinhamento das seqüências à sequência de referência. Cada linha na seção de alinhamento corresponde a uma única leitura alinhada.
As informações de alinhamento em um arquivo SAM são representadas usando uma série de campos, cada um dos quais tem um significado específico. Alguns dos campos mais importantes incluem:
- Qname: o identificador exclusivo para a leitura
- Rname: o nome da sequência de referência à qual a leitura está alinhada
- POS: A posição da primeira base na leitura que está alinhada à sequência de referência
- MAPQ: A qualidade do mapeamento, que é uma medida da confiança no alinhamento
- Cigarro: a corda do charuto, que codifica as operações de alinhamento (por exemplo, correspondência, inserção, exclusão)
- SEQ: a sequência de leitura
- Qual: a pontuação da qualidade phred para cada base na leitura
Os arquivos SAM são legíveis por humanos, mas também podem ser compactados em um formato binário chamado BAM (alinhamento/mapa binário) para armazenamento e processamento mais eficientes.
Aqui está um exemplo de um registro de arquivo SAM :
QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<
Este registro indica que uma leitura chamada "Read1" está alinhada ao cromossomo 1 na posição 100 com uma qualidade de mapeamento de 60. A corda do charuto "100m" indica que a leitura inteira corresponde à sequência de referência. Os campos RNext e Pnext estão definidos como "*" e 0, respectivamente, indicando que a leitura não faz parte de uma leitura de extremidade pareada. O campo TLEN é 100, indicando que a leitura tem 100 bases de comprimento. O campo SEQ contém a sequência de leitura e o campo Qual contém as pontuações da qualidade Phred para cada base na leitura.
Os arquivos SAM são uma ferramenta valiosa para pesquisadores de bioinformática, pois fornecem um formato padronizado para armazenar e trocar dados de alinhamento. Eles são amplamente utilizados em uma variedade de aplicações e provavelmente continuarão sendo uma ferramenta importante para muitos anos.
Diferentes tipos de arquivos que podem usar o. Extensão SAM ?
. SAM também pode ser um arquivo de amostra de edição mod . É um formato de arquivo usado pelo software de edição de áudio de edição mod. O Mod Edit é um programa para criar e editar módulos de música, que são pequenos arquivos que contêm dados musicais em um formato compactado. Os arquivos de edição de modos SAM contêm os dados de áudio bruto para os SAM PLEs usados em um módulo.
Aqui está uma tabela resumindo os diferentes tipos de arquivos que podem usar o. Extensão SAM :
Tipo de arquivo | Descrição |
---|
Documento ami pro | Um documento de processamento de texto criado por Samna Ami Pro |
LMHOSTS Arquivo de amostra | Um arquivo de amostra para o arquivo lmhosts, que mapeia endereços IP para nomes de hosts |
Mod Editar Arquivo de Amostra | Um arquivo de amostra para o software de edição de áudio de edição de modificação |
Arquivo de alinhamento/mapa de sequência (SAM) | Um formato baseado em texto para armazenar sequências biológicas alinhadas a uma sequência de referência |
O tipo de arquivo específico de a. O arquivo SAM geralmente pode ser determinado pelo contexto em que é encontrado. Por exemplo, se o arquivo estiver localizado em uma pasta que contém outros arquivos de áudio, é provável que seja um arquivo Sam PLE editar mod. Se o arquivo estiver localizado em uma pasta que contiver outros arquivos de dados biológicos, provavelmente será um arquivo SAM .
Como abrir um arquivo SAM ?
Os arquivos SAM podem ser abertos usando uma variedade de editores de texto e pacotes de software de bioinformática. Algumas opções populares incluem:
Notepad ++: um editor de texto gratuito e de código aberto que pode lidar com grandes arquivos SAM .
Samtools: uma ferramenta independente para processar arquivos SAM e BAM.
Geneious: um pacote comercial de software de bioinformática com uma interface gráfica do usuário para visualizar e analisar arquivos SAM .
Como converter um arquivo SAM ?
Os arquivos SAM podem ser convertidos em vários outros formatos, incluindo BAM , Samgz e Bed . Algumas opções populares para converter arquivos SAM incluem:
Samtools: pode converter arquivos SAM em formatos BAM, SAM GZ e BED.
Bedtools: pode converter arquivos SAM em formato de cama.
Picard: um kit de ferramentas de Bioinformatics baseado em Java que inclui ferramentas para converter arquivos SAM em vários formatos.
Diferença entre os arquivos SAM e BAM?
Os arquivos SAM e BAM são ambos formatos para armazenar sequências biológicas alinhadas a uma sequência de referência. A principal diferença entre os dois formatos é que os arquivos SAM são arquivos de texto legíveis por humanos, enquanto os arquivos BAM são arquivos binários. Isso torna os arquivos BAM significativamente menores e mais rápidos para ler e processar. No entanto, os arquivos BAM não podem ser editados diretamente em um editor de texto, portanto os arquivos SAM ainda são úteis para inspeção e edição humana.
Como criar um arquivo SAM ?
Os arquivos SAM podem ser criados usando uma variedade de pacotes de software bioinformática. Algumas opções populares incluem:
BWA: Uma ferramenta para alinhar leituras curtas a uma sequência de referência.
Bowtie2: Outra ferramenta popular para alinhar leituras curtas a uma sequência de referência.
Novoalign : um alinhador comercial com uma reputação de sua velocidade e precisão.
Como ler um arquivo SAM ?
Os arquivos SAM podem ser lidos usando uma variedade de editores de texto e pacotes de software de bioinformática. Algumas opções populares incluem:
Notepad ++: pode exibir arquivos SAM em um formato legível pelo homem.
Ferramentas SAM : pode ler os arquivos SAM e extrair informações específicas, como as leituras alinhadas ou as pontuações da qualidade do mapeamento.
Geneious: pode fornecer uma visão gráfica das informações de alinhamento em um arquivo SAM .
Partes de um arquivo SAM ?
Um arquivo SAM consiste em duas seções principais:
Seção de cabeçalho: contém metadados sobre a sequência de referência e as leituras alinhadas, como espécies, cromossomo e comprimento da sequência.
Seção de alinhamento: contém o alinhamento das leituras à sequência de referência. Cada linha na seção de alinhamento corresponde a uma única leitura alinhada.
Problemas comuns com arquivos SAM ?
Alguns problemas comuns que podem ocorrer com os arquivos SAM incluem:
Leia duplicada: lê que se alinham à sequência de referência várias vezes.
Leituras não mapeadas: leituras que não podem ser alinhadas à sequência de referência.
Alinhamentos incorretos: alinhamentos que não são precisos ou que não refletem as verdadeiras relações biológicas entre as leituras e a sequência de referência.
Esses problemas podem surgir devido a vários fatores, como erros de seqüenciamento, baixa cobertura ou estruturas genômicas complexas. Abordar esses problemas geralmente requer técnicas e ferramentas especializadas de bioinformática