Tệp SAM là gì?
Tệp SAM hoặc tệp căn chỉnh trình tự/bản đồ , là một định dạng dựa trên văn bản để lưu trữ các chuỗi sinh học được căn chỉnh theo chuỗi tham chiếu. Nó thường được sử dụng trong các ứng dụng tin sinh học như lắp ráp bộ gen, gọi biến thể và phân tích biểu hiện gen.
Tệp SAM bao gồm hai phần chính:
Phần tiêu đề: Phần này chứa thông tin về trình tự tham chiếu và các chuỗi được liên kết, chẳng hạn như loài, nhiễm sắc thể và độ dài trình tự.
Phần căn chỉnh: Phần này chứa sự liên kết của các chuỗi với chuỗi tham chiếu. Mỗi dòng trong phần căn chỉnh tương ứng với một lần đọc được căn chỉnh duy nhất.
Thông tin căn chỉnh trong tệp SAM được thể hiện bằng một loạt các trường, mỗi trường có một ý nghĩa cụ thể. Một số lĩnh vực quan trọng nhất bao gồm:
- Qname: Mã định danh duy nhất cho đọc
- RNAME: Tên của chuỗi tham chiếu mà đọc được căn chỉnh
- POS: Vị trí của cơ sở đầu tiên trong lần đọc được căn chỉnh theo trình tự tham chiếu
- MAPQ: Chất lượng ánh xạ, là thước đo niềm tin vào sự liên kết
- Xì gà: chuỗi xì gà, mã hóa các hoạt động căn chỉnh (ví dụ: khớp, chèn, xóa)
- SEQ: Trình tự đọc
- Qual: Điểm chất lượng Phred cho mỗi cơ sở trong lần đọc
Các tệp SAM có thể đọc được của con người, nhưng chúng cũng có thể được nén vào định dạng nhị phân gọi là BAM (căn chỉnh nhị phân/bản đồ) để lưu trữ và xử lý hiệu quả hơn.
Dưới đây là một ví dụ về bản ghi tệp SAM :
QNAMERNAMEPOSMAPQCIGARRNEXTPNEXTTLENSEQQUAL read1chr110060100M*0100TGGATACCCCAATTTACTGACTTACTTGACTT<<<<<<<<<
Bản ghi này chỉ ra rằng một lần đọc có tên "Read1" được căn chỉnh với nhiễm sắc thể 1 ở vị trí 100 với chất lượng ánh xạ là 60. Chuỗi xì gà "100m" chỉ ra rằng toàn bộ đọc phù hợp với chuỗi tham chiếu. Các trường RNEXT và PNEXT được đặt thành "*" và 0, tương ứng, chỉ ra rằng lần đọc không phải là một phần của lần đọc kết thúc được ghép nối. Trường tlen là 100, chỉ ra rằng số đọc dài 100 cơ sở. Trường SEQ chứa chuỗi đọc và trường Qualt chứa điểm chất lượng Phred cho từng cơ sở trong lần đọc.
SAM Files là một công cụ có giá trị cho các nhà nghiên cứu tin sinh học, vì chúng cung cấp một định dạng tiêu chuẩn để lưu trữ và trao đổi dữ liệu căn chỉnh. Chúng được sử dụng rộng rãi trong một loạt các ứng dụng và chúng có khả năng tiếp tục là một công cụ quan trọng trong nhiều năm tới.
Các loại tệp khác nhau có thể sử dụng. Mở rộng Sam ?
. Sam cũng có thể là một tệp mẫu chỉnh sửa mod . Đây là một định dạng tệp được sử dụng bởi phần mềm chỉnh sửa âm thanh Mod EDIT. Mod EDIT là một chương trình để tạo và chỉnh sửa các mô -đun âm nhạc, là các tệp nhỏ chứa dữ liệu âm nhạc ở định dạng nén. Mod EDIT SAM PLE FILE chứa dữ liệu âm thanh thô cho các ples SAM được sử dụng trong một mô -đun.
Dưới đây là một bảng tóm tắt các loại tệp khác nhau có thể sử dụng. Tiện ích mở rộng Sam :
Loại tệp | Sự miêu tả |
---|
Tài liệu ami pro | Một tài liệu xử lý văn bản được tạo bởi samna ami pro |
Tệp mẫu LMHOSTS | Một tệp mẫu cho tệp LMHOSTS, bản đồ địa chỉ IP thành tên máy chủ |
Mod EDIT Tệp mẫu | Một tệp mẫu cho phần mềm chỉnh sửa âm thanh mod chỉnh sửa |
Sắp xếp chuỗi/bản đồ (SAM) | Một định dạng dựa trên văn bản để lưu trữ các chuỗi sinh học được căn chỉnh theo trình tự tham chiếu |
Loại tệp cụ thể của a. Tệp SAM thường có thể được xác định bởi bối cảnh mà nó được tìm thấy. Ví dụ: nếu tệp được đặt trong một thư mục chứa các tệp âm thanh khác, thì có khả năng tệp sam ple chỉnh sửa mod. Nếu tệp được đặt trong một thư mục có chứa các tệp dữ liệu sinh học khác, nó có khả năng là một tệp SAM .
Làm thế nào để mở một tệp SAM ?
Các tệp SAM có thể được mở bằng một loạt các biên tập viên văn bản và các gói phần mềm Bioinformatics. Một số tùy chọn phổ biến bao gồm:
Notepad ++: Trình chỉnh sửa văn bản miễn phí và nguồn mở có thể xử lý các tệp SAM lớn.
SAMTOOLS: Một công cụ độc lập để xử lý các tệp SAM và BAM.
Geneious: Gói phần mềm tin sinh học thương mại với giao diện người dùng đồ họa để xem và phân tích các tệp SAM .
Làm thế nào để chuyển đổi một tệp SAM ?
Các tập tin SAM có thể được chuyển đổi thành nhiều định dạng khác, bao gồm BAM , SAMGZ và BED . Một số tùy chọn phổ biến để chuyển đổi các tệp SAM bao gồm:
Samtools: Có thể chuyển đổi các tệp SAM thành định dạng BAM, SAM GZ và giường.
Bedtools: Có thể chuyển đổi tệp SAM sang định dạng giường.
PICARD: Bộ công cụ tin sinh học dựa trên Java bao gồm các công cụ để chuyển đổi các tệp SAM sang các định dạng khác nhau.
Sự khác biệt giữa các tệp SAM và BAM?
Các tệp Sam và BAM đều là các định dạng để lưu trữ các chuỗi sinh học được căn chỉnh theo trình tự tham chiếu. Sự khác biệt chính giữa hai định dạng là các tệp SAM là các tệp văn bản có thể đọc được của con người, trong khi các tệp BAM là các tệp nhị phân. Điều này làm cho các tệp BAM nhỏ hơn đáng kể và nhanh hơn để đọc và xử lý. Tuy nhiên, các tệp BAM không thể được chỉnh sửa trực tiếp trong trình soạn thảo văn bản, vì vậy các tệp SAM vẫn hữu ích cho việc kiểm tra và chỉnh sửa của con người.
Làm thế nào để tạo một tệp SAM ?
Các tệp SAM có thể được tạo bằng nhiều gói phần mềm tin sinh học. Một số tùy chọn phổ biến bao gồm:
BWA: Một công cụ để sắp xếp các lần đọc ngắn theo trình tự tham chiếu.
Bowtie2: Một công cụ phổ biến khác để sắp xếp các lần đọc ngắn theo trình tự tham chiếu.
Novoalign : Một người sắp xếp thương mại với danh tiếng về tốc độ và độ chính xác của nó.
Làm thế nào để đọc một tệp SAM ?
SAM FILE có thể được đọc bằng cách sử dụng nhiều biên tập viên văn bản và các gói phần mềm tin sinh học. Một số tùy chọn phổ biến bao gồm:
Notepad ++: Có thể hiển thị các tệp SAM ở định dạng có thể đọc được của con người.
Công cụ SAM : Có thể đọc các tệp SAM và trích xuất thông tin cụ thể, chẳng hạn như các lần đọc được căn chỉnh hoặc điểm chất lượng ánh xạ.
Geneious: Có thể cung cấp một cái nhìn đồ họa về thông tin căn chỉnh trong tệp SAM .
Các bộ phận của tệp SAM ?
Tệp SAM bao gồm hai phần chính:
Phần tiêu đề: Chứa siêu dữ liệu về trình tự tham chiếu và các lần đọc phù hợp, chẳng hạn như loài, nhiễm sắc thể và chiều dài trình tự.
Phần căn chỉnh: Chứa sự liên kết của các lần đọc với chuỗi tham chiếu. Mỗi dòng trong phần căn chỉnh tương ứng với một lần đọc được căn chỉnh duy nhất.
Các vấn đề phổ biến với các tệp SAM ?
Một số vấn đề phổ biến có thể xảy ra với các tệp SAM bao gồm:
Sao chép đọc: Đọc phù hợp với chuỗi tham chiếu nhiều lần.
Đọc chưa được đọc: Các lần đọc không thể được căn chỉnh theo trình tự tham chiếu.
Sự sắp xếp không chính xác: Sắp xếp không chính xác hoặc không phản ánh các mối quan hệ sinh học thực sự giữa các lần đọc và trình tự tham chiếu.
Những vấn đề này có thể phát sinh do các yếu tố khác nhau, chẳng hạn như lỗi giải trình tự, độ bao phủ thấp hoặc cấu trúc bộ gen phức tạp. Giải quyết những vấn đề này thường đòi hỏi các kỹ thuật và công cụ tin sinh học chuyên ngành