Что такое файл SAM ?
Файл SAM , или файл выравнивания последовательности/карты , является текстовым форматом для хранения биологических последовательностей, выровненных с эталонной последовательности. Он обычно используется в приложениях биоинформатики, таких как сборка генома, вызов варианта и анализ экспрессии генов.
Файл SAM состоит из двух основных разделов:
Раздел заголовка: В этом разделе содержится информация о эталонной последовательности и выровненных последовательностях, таких как виды, хромосома и длина последовательности.
Раздел выравнивания: Этот раздел содержит выравнивание последовательностей с эталонной последовательности. Каждая строка в разделе выравнивания соответствует одному выровненному чтению.
Информация о выравнивании в файле SAM представлена с использованием ряда полей, каждая из которых имеет определенное значение. Некоторые из наиболее важных полей включают:
- Qname: уникальный идентификатор для чтения
- Rname: имя эталонной последовательности, на которую выровнен чтение
- POS: позиция первой базы в чтении, которая выровнена с эталонной последовательности
- MAPQ: качество картирования, которое является мерой уверенности в выравнивании
- Сигара: строка сигар, которая кодирует операции выравнивания (например, совпадение, вставка, удаление)
- SEQ: последовательность чтения
- Qual: оценка качества Phred для каждой базы в чтении
Файлы SAM читают человеку, но они также могут быть сжаты в двоичный формат, называемый BAM (бинарное выравнивание/карта) для более эффективного хранения и обработки.
Вот пример записи файла SAM :
QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<
Эта запись указывает на то, что чтение с именем «read1» выровнен с хромосомой 1 в положении 100 с качеством отображения 60. Сигарная строка «100M» указывает на то, что вся чтение соответствует эталонной последовательности. Поля RNEXT и PNEXT устанавливаются на «*» и 0, соответственно, указывая на то, что чтение не является частью чтения парного конца. Поле TLEN составляет 100, что указывает на то, что чтение длиной 100 баз. Поле SEQ содержит последовательность чтения, а поле Qual содержит оценки качества Phred для каждой базы в чтении.
Файлы SAM являются ценным инструментом для исследователей биоинформатики, поскольку они предоставляют стандартизированный формат для хранения и обмена данными выравнивания. Они широко используются в различных приложениях, и они, вероятно, будут оставаться важным инструментом в течение многих лет.
Различные типы файлов, которые могут использовать. SAM Extension?
Полем SAM также может быть образцом MOD EDIT . Это формат файла, используемый программным обеспечением редактирования звука мода. Mod Edit - это программа для создания и редактирования музыкальных модулей, которые представляют собой небольшие файлы, которые содержат музыкальные данные в сжатом формате. Мод редактирует Sam Ple -файлы содержат необработанные аудиоданные для Sam Ples, используемых в модуле.
Вот таблица, обобщающая различные типы файлов, которые могут использовать. Расширение SAM :
Тип файла | Описание |
---|
AMI PRO DOCUMT | Документ обработки текста, созданный Samna Ami Pro |
LMHOSTS Пример файла | Пример файла для файла LMHOSTS, который отображает IP -адреса с именами хоста. |
Мод редактировать пример файла | Пример файла для программного обеспечения для редактирования звука мода |
Файл выравнивания последовательности/карта (SAM) | Текстовый формат для хранения биологических последовательностей, выровненных с эталонной последовательности |
Конкретный тип файла a. Файл SAM обычно может быть определен в контексте, в котором он найден. Например, если файл находится в папке, содержащей другие аудиофайлы, это, вероятно, мод редактирует файл Sam Ple. Если файл находится в папке, которая содержит другие биологические файлы данных, это, вероятно, файл SAM .
Как открыть файл SAM ?
Файлы SAM могут быть открыты с использованием различных текстовых редакторов и биоинформатических программных пакетов. Некоторые популярные варианты включают:
Блокнот ++: бесплатный текстовый редактор с открытым исходным кодом, который может обрабатывать большие файлы SAM .
Samtools: автономный инструмент для обработки файлов SAM и BAM.
Geneious: коммерческий программный пакет биоинформатики с графическим пользовательским интерфейсом для просмотра и анализа файлов SAM .
Как преобразовать файл SAM ?
Файлы SAM могут быть преобразованы в различные другие форматы, включая BAM , SAMGZ и BED . Некоторые популярные параметры для преобразования файлов SAM включают в себя:
Samtools: могут преобразовать файлы SAM в BAM, Sam GZ и форматы кроватей.
BedTools: может преобразовать файлы SAM в формат кровати.
PICARD: инструментарий биоинформатики на основе Java, который включает в себя инструменты для преобразования файлов SAM в различные форматы.
Разница между файлами SAM и BAM?
Файлы SAM и BAM являются форматами для хранения биологических последовательностей, выровненных по эталонной последовательности. Основное различие между двумя форматами заключается в том, что файлы SAM являются читаемыми человеком текстовыми файлами, в то время как файлы BAM являются двоичными файлами. Это делает файлы BAM значительно меньше и быстрее для чтения и обработки. Тем не менее, файлы BAM не могут быть непосредственно отредактированы в текстовом редакторе, поэтому файлы SAM по -прежнему полезны для человеческого осмотра и редактирования.
Как создать файл SAM ?
Файлы SAM могут быть созданы с использованием различных программных пакетов биоинформатики. Некоторые популярные варианты включают:
BWA: инструмент для выравнивания коротких чтений в эталонную последовательность.
Bowtie2: еще один популярный инструмент для выравнивания коротких чтений с эталонной последовательности.
NovoAlign : коммерческий выравниватель с репутацией за скорость и точность.
Как прочитать файл SAM ?
Файлы SAM можно прочитать, используя различные текстовые редакторы и программные пакеты биоинформатики. Некоторые популярные варианты включают:
Notepad ++: может отображать файлы SAM в читаемой человеке формате.
Инструменты SAM : могут прочитать файлы SAM и извлечь конкретную информацию, такую как выровненные чтения или оценки качества отображения.
Geneious: может предоставить графическое представление информации о выравнивании в файле SAM .
Части файла SAM ?
Файл SAM состоит из двух основных разделов:
Раздел заголовка: содержит метаданные о эталонной последовательности и выровненных чтениях, таких как виды, хромосома и длина последовательности.
Раздел выравнивания: содержит выравнивание чтения с эталонной последовательности. Каждая строка в разделе выравнивания соответствует одному выровненному чтению.
Общие проблемы с файлами SAM ?
Некоторые общие проблемы, которые могут возникнуть с файлами SAM , включают:
Дублирующие чтение: чтения, которые соответствуют эталонной последовательности несколько раз.
Unceced Reads: чтения, которые не могут быть выровнены с эталонной последовательности.
Неправильные выравнивания: выравнивания, которые не являются точными или которые не отражают истинные биологические отношения между чтениями и эталонной последовательности.
Эти проблемы могут возникнуть из -за различных факторов, таких как ошибки секвенирования, низкий охват или сложные геномные структуры. Решение этих проблем часто требует специализированных методов биоинформатики и инструментов