Co to jest plik SAM ?
Plik SAM lub plik wyrównania/mapy sekwencji to format tekstowy do przechowywania sekwencji biologicznych wyrównanych do sekwencji odniesienia. Jest powszechnie stosowany w aplikacjach bioinformatycznych, takich jak zestaw genomowy, wywołanie wariantu i analiza ekspresji genów.
Plik SAM składa się z dwóch głównych sekcji:
Sekcja nagłówka: Ta sekcja zawiera informacje o sekwencji referencyjnej i wyrównanych sekwencjach, takich jak gatunek, chromosom i długość sekwencji.
Sekcja wyrównania: Ta sekcja zawiera wyrównanie sekwencji do sekwencji odniesienia. Każda linia w sekcji wyrównania odpowiada pojedynczej wyrównanego odczytu.
Informacje o wyrównaniu w pliku SAM są reprezentowane przy użyciu serii pól, z których każde ma określone znaczenie. Niektóre z najważniejszych dziedzin obejmują:
- QName: Unikalny identyfikator odczytu
- RNAME: Nazwa sekwencji odniesienia, do której odczyt jest wyrównany
- POS: Pozycja pierwszej bazy w odczycie, która jest wyrównana do sekwencji odniesienia
- MAPQ: Jakość mapowania, która jest miarą zaufania do wyrównania
- Cygaro: ciąg cygar, który koduje operacje wyrównania (np. Dopasowanie, wstawienie, usuwanie)
- SEQ: Sekwencja odczytu
- QUAL: Phred Quality Ocena dla każdej bazy w odczytaniu
Pliki SAM można czytać człowieka, ale można je również sprężyć w format binarny o nazwie BAM (wyrównanie binarne/mapa) w celu bardziej wydajnego przechowywania i przetwarzania.
Oto przykład rekordu pliku SAM :
QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<
Ten rekord wskazuje, że odczyt o nazwie „Read1” jest wyrównany do chromosomu 1 w pozycji 100 z jakością mapowania 60. ciąg cygar „100m” wskazuje, że cały odczyt pasuje do sekwencji odniesienia. Pola RNEXT i PNEXT są ustawione odpowiednio na „*” i 0, co wskazuje, że odczyt nie jest częścią odczytu sparowanego. Pole Tlen wynosi 100, co wskazuje, że odczyt ma 100 podstaw. Pole SEQ zawiera sekwencję odczytu, a pola Qual zawiera wyniki jakości phred dla każdej bazy w odczycie.
Pliki SAM są cennym narzędziem dla badaczy bioinformatycznych, ponieważ zapewniają znormalizowany format przechowywania i wymiany danych wyrównania. Są one szeroko stosowane w różnych aplikacjach i prawdopodobnie będą nadal ważnym narzędziem przez wiele lat.
Różne typy plików, które mogą korzystać z. Sam rozszerzenie?
. SAM może być również przykładem próbki edycji modu . Jest to format pliku używany przez oprogramowanie do edycji audio MOD EDIT. MOD EDIT to program tworzenia i edytowania modułów muzycznych, które są małymi plikami zawierającymi dane muzyczne w formacie skompresowanym. Pliki Edytuj MOD PLEM zawierają surowe dane audio dla samych używanych w module.
Oto tabela podsumowująca różne typy plików, które mogą korzystać z. Sam rozszerzenie:
Typ pliku | Opis |
---|
Dokument AMI Pro | Dokument przetwarzania tekstu utworzony przez Samna Ami Pro |
Plik próbki LMHOSTS | Przykładowy plik pliku LMHosts, który mapuje adresy IP na nazwy hostów |
Mod Edytuj przykładowy plik | Przykładowy plik dla oprogramowania edycji audio MOD edytuj |
Plik wyrównania/mapy sekwencji (SAM) | Format tekstowy do przechowywania sekwencji biologicznych wyrównany do sekwencji referencyjnej |
Określony typ pliku a. Plik SAM może być zwykle określony przez kontekst, w którym się znajduje. Na przykład, jeśli plik znajduje się w folderze zawierającym inne pliki audio, prawdopodobnie jest to plik edycji modu . Jeśli plik znajduje się w folderze zawierającym inne pliki danych biologicznych, prawdopodobnie jest to plik SAM .
Jak otworzyć plik SAM ?
Pliki SAM można otworzyć za pomocą różnych edytorów tekstu i pakietów oprogramowania Bioinformatics. Niektóre popularne opcje obejmują:
Notepad ++: Edytor tekstu bezpłatnego i open source, który może obsługiwać duże pliki SAM .
SamTools: samodzielne narzędzie do przetwarzania plików SAM i BAM.
Geneous: komercyjny pakiet oprogramowania bioinformatycznego z graficznym interfejsem użytkownika do przeglądania i analizy plików SAM .
Jak przekonwertować plik SAM ?
Pliki SAM można przekonwertować na różne inne formaty, w tym BAM , SAMGZ i BED . Niektóre popularne opcje konwersji plików SAM obejmują:
SAMTOOLS: może konwertować pliki SAM na BAM, Sam GZ i formaty łóżka.
BedTools: może przekonwertować pliki SAM na format łóżka.
Picard: Zestaw narzędzi Bioinformatics oparty na Javie, który zawiera narzędzia do konwersji plików SAM w różne formaty.
Różnica między plikami SAM i BAM?
Pliki SAM i BAM są formatami do przechowywania sekwencji biologicznych zgodnych z sekwencją odniesienia. Podstawową różnicą między tymi dwoma formatami jest to, że pliki SAM są plikami tekstowymi czytnymi przez ludzi, a pliki BAM są plikami binarnymi. To sprawia, że pliki BAM są znacznie mniejsze i szybsze do czytania i przetwarzania. Jednak pliki BAM nie mogą być bezpośrednio edytowane w edytorze tekstu, więc pliki SAM są nadal przydatne do kontroli ludzkiej i edycji.
Jak utworzyć plik SAM ?
Pliki SAM można tworzyć przy użyciu różnych pakietów oprogramowania Bioinformatics. Niektóre popularne opcje obejmują:
BWA: Narzędzie do wyrównania krótkich odczytów do sekwencji odniesienia.
BOWTIE2: Kolejne popularne narzędzie do wyrównania krótkich odczytów do sekwencji odniesienia.
Novoalign : komercyjny wyrównanie z reputacją swojej szybkości i dokładności.
Jak odczytać plik SAM ?
Pliki SAM można odczytać przy użyciu różnych edytorów tekstu i pakietów oprogramowania Bioinformatics. Niektóre popularne opcje obejmują:
Notepad ++: może wyświetlać pliki SAM w formacie czytelnym człowieka.
SAM Tools: może odczytać pliki SAM i wyodrębniać określone informacje, takie jak wyrównane odczyty lub wyniki jakości mapowania.
Geneous: może dostarczyć graficzny widok informacji o wyrównaniu w pliku SAM .
Części pliku SAM ?
Plik SAM składa się z dwóch głównych sekcji:
Sekcja nagłówka: zawiera metadane dotyczące sekwencji odniesienia i wyrównanych odczytów, takich jak gatunek, chromosom i długość sekwencji.
Sekcja wyrównania: Zawiera wyrównanie odczytów do sekwencji odniesienia. Każda linia w sekcji wyrównania odpowiada pojedynczej wyrównanego odczytu.
Powszechne problemy z plikami SAM ?
Niektóre powszechne problemy, które mogą wystąpić w przypadku plików SAM , obejmują:
Duplikat odczytuje: odczyty, które są wielokrotnie zgodne z sekwencją odniesienia.
Nieprzestrzegane odczyty: Odczyty, których nie można dostosować do sekwencji odniesienia.
Nieprawidłowe wyrównania: Wyrównania, które nie są dokładne lub nie odzwierciedlają prawdziwych relacji biologicznych między odczytami a sekwencją odniesienia.
Problemy te mogą powstać z powodu różnych czynników, takich jak błędy sekwencjonowania, niski zasięg lub złożone struktury genomowe. Rozwiązanie tych problemów często wymaga specjalistycznych technik i narzędzi bioinformatycznych