.SAM - Extensión de archivo

.sam es el archivo de alineación/mapa de secuencia o el archivo de muestra de edición de mod ...

Característica Descripción
Formato Basado en texto
Objetivo Almacena secuencias biológicas alineadas con una secuencia de referencia
Aplicaciones Ensamblaje del genoma, llamadas variantes, análisis de expresión génica
Elementos clave Sección de encabezado, sección de alineación
Sección de encabezado Contiene metadatos sobre la secuencia de referencia y las lecturas alineadas
Sección de alineación Comprende registros de alineación individual para cada lectura
Ventajas Legible por humanos, fácilmente accesible
Limitaciones El tamaño del archivo puede ser grande
Formato alternativo Archivo BAM (alineación binaria/mapa): procesamiento más pequeño y más rápido

¿Qué es un archivo SAM ?

Un archivo SAM , o archivo de alineación/mapa de secuencia , es un formato basado en texto para almacenar secuencias biológicas alineadas con una secuencia de referencia. Se usa comúnmente en aplicaciones bioinformáticas como el ensamblaje del genoma, las llamadas variantes y el análisis de expresión génica.

Un archivo SAM consta de dos secciones principales:

  1. Sección de encabezado: esta sección contiene información sobre la secuencia de referencia y las secuencias alineadas, como la especie, el cromosoma y la longitud de la secuencia.

  2. Sección de alineación: esta sección contiene la alineación de las secuencias a la secuencia de referencia. Cada línea en la sección de alineación corresponde a una sola lectura alineada.

La información de alineación en un archivo SAM se representa utilizando una serie de campos, cada uno de los cuales tiene un significado específico. Algunos de los campos más importantes incluyen:

  • Qname: el identificador único para la lectura
  • Rname: el nombre de la secuencia de referencia a la que está alineada la lectura
  • POS: la posición de la primera base en la lectura que está alineada con la secuencia de referencia
  • MAPQ: La calidad de mapeo, que es una medida de la confianza en la alineación
  • CIRO: La cadena de cigarros, que codifica las operaciones de alineación (por ejemplo, coincidencia, inserción, eliminación)
  • SEQ: La secuencia de lectura
  • Qual: el puntaje de calidad Phred para cada base en la lectura

Los archivos SAM son legibles por humanos, pero también se pueden comprimir en un formato binario llamado BAM (alineación binaria/mapa) para un almacenamiento y procesamiento más eficientes.

Aquí hay un ejemplo de un registro de archivo SAM :

 QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<

Este registro indica que una lectura llamada "Read1" está alineada con el cromosoma 1 en la posición 100 con una calidad de mapeo de 60. La cadena de cigarros "100m" indica que la lectura completa coincide con la secuencia de referencia. Los campos RNEXT y PNEXT se establecen en "*" y 0, respectivamente, lo que indica que la lectura no es parte de una lectura de extremo emparejado. El campo TLEN es de 100, lo que indica que la lectura tiene 100 bases de largo. El campo SEQ contiene la secuencia de lectura, y el campo QUAL contiene los puntajes de calidad de Phred para cada base en la lectura.

Los archivos SAM son una herramienta valiosa para los investigadores bioinformáticos, ya que proporcionan un formato estandarizado para almacenar e intercambiar datos de alineación. Se usan ampliamente en una variedad de aplicaciones, y es probable que sigan siendo una herramienta importante en muchos años.

Diferentes tipos de archivos que pueden usar el. ¿Extensión Sam ?

. SAM también puede ser un archivo de muestra de edición mod . Es un formato de archivo utilizado por el software de edición de audio edit de mod. Mod Edit es un programa para crear y editar módulos musicales, que son archivos pequeños que contienen datos musicales en formato comprimido. Los archivos MOD Edit SAM contienen los datos de audio sin procesar para los SAM PLE utilizados en un módulo.

Aquí hay una tabla que resume los diferentes tipos de archivos que pueden usar el. Extensión SAM :

Tipo de archivo Descripción
Documento AMI Pro Un documento de procesamiento de textos creado por Samna AMI Pro
Archivo de muestra lmhosts Un archivo de muestra para el archivo LMHosts, que mapea las direcciones IP a los nombres de host
Mod Editar archivo de muestra Un archivo de muestra para el software de edición de audio editar mod
Archivo de alineación/mapa de secuencia (SAM) Un formato basado en texto para almacenar secuencias biológicas alineadas con una secuencia de referencia

El tipo de archivo específico de a. El archivo SAM generalmente se puede determinar por el contexto en el que se encuentra. Por ejemplo, si el archivo se encuentra en una carpeta que contiene otros archivos de audio, es probable que sea un archivo de edición de modificación de mod. Si el archivo se encuentra en una carpeta que contiene otros archivos de datos biológicos, es probable que sea un archivo SAM .

¿Cómo abrir un archivo SAM ?

Los archivos SAM se pueden abrir utilizando una variedad de editores de texto y paquetes de software de bioinformática. Algunas opciones populares incluyen:

  • Notepad ++: un editor de texto gratuito y de código abierto que puede manejar archivos SAM grandes.

  • SamTools: una herramienta independiente para procesar archivos SAM y BAM.

  • GENEUOSO: un paquete de software de bioinformática comercial con una interfaz gráfica de usuario para ver y analizar archivos SAM .

¿Cómo convertir un archivo SAM ?

Los archivos SAM se pueden convertir a una variedad de otros formatos, incluidos BAM , SAMGZ y Bed . Algunas opciones populares para convertir archivos SAM incluyen:

  • SamTools: puede convertir los archivos SAM a formatos BAM, SAM GZ y Bed.

  • Bedtools: puede convertir los archivos SAM en formato de cama.

  • Picard: un kit de herramientas bioinformática basado en Java que incluye herramientas para convertir archivos SAM a varios formatos.

¿Diferencia entre los archivos SAM y BAM?

Los archivos SAM y BAM son formatos para almacenar secuencias biológicas alineadas con una secuencia de referencia. La principal diferencia entre los dos formatos es que los archivos SAM son archivos de texto legibles por humanos, mientras que los archivos BAM son archivos binarios. Esto hace que los archivos BAM sean significativamente más pequeños y rápidos para leer y procesar. Sin embargo, los archivos BAM no se pueden editar directamente en un editor de texto, por lo que los archivos SAM siguen siendo útiles para la inspección y edición humana.

¿Cómo crear un archivo SAM ?

Los archivos SAM se pueden crear utilizando una variedad de paquetes de software bioinformáticos. Algunas opciones populares incluyen:

  • BWA: una herramienta para alinear lecturas cortas a una secuencia de referencia.

  • Bowtie2: otra herramienta popular para alinear lecturas cortas a una secuencia de referencia.

  • Novoalign : un alineador comercial con una reputación por su velocidad y precisión.

¿Cómo leer un archivo SAM ?

Los archivos SAM se pueden leer utilizando una variedad de editores de texto y paquetes de software bioinformáticos. Algunas opciones populares incluyen:

  • Notepad ++: puede mostrar archivos SAM en un formato legible por humanos.

  • Herramientas SAM : puede leer archivos SAM y extraer información específica, como las lecturas alineadas o los puntajes de calidad de mapeo.

  • GENEUOSO: puede proporcionar una vista gráfica de la información de alineación en un archivo SAM .

Partes de un archivo SAM ?

Un archivo SAM consta de dos secciones principales:

  1. Sección del encabezado: contiene metadatos sobre la secuencia de referencia y las lecturas alineadas, como las especies, el cromosoma y la longitud de la secuencia.

  2. Sección de alineación: contiene la alineación de las lecturas a la secuencia de referencia. Cada línea en la sección de alineación corresponde a una sola lectura alineada.

¿Problemas comunes con los archivos SAM ?

Algunos problemas comunes que pueden ocurrir con los archivos SAM incluyen:

  • Lecturas duplicadas: lecturas que se alinean con la secuencia de referencia varias veces.

  • Lecturas no mapeadas: lecturas que no se pueden alinear con la secuencia de referencia.

  • Alineaciones incorrectas: alineaciones que no son precisas o que no reflejan las verdaderas relaciones biológicas entre las lecturas y la secuencia de referencia.

Estos problemas pueden surgir debido a varios factores, como errores de secuenciación, baja cobertura o estructuras genómicas complejas. Abordar estos problemas a menudo requiere técnicas y herramientas bioinformáticas especializadas

The 1000 Genomes Project

Biological Sequence

Text-based file

Extensión de nuevos archivos Actualizado recientemente Archivos de imagen 3D Archivos de audio Archivos de copia de seguridad Archivos CAD Archivos RAW de cámara Archivos comprimidos Archivos de datos Archivos de base de datos Archivos de desarrollador Archivos de imagen de disco Archivos codificados Archivos ejecutables Archivos de fuentes Archivos SIG Archivos del juego Archivos varios Archivos de diseño de página Archivos de complemento Archivos de imagen ráster Archivos de configuración Archivos de hoja de cálculo Archivos de sistema Archivos de texto Archivos de imagen vectorial Archivos de vídeo Archivos web Archivos de libros electrónicos