8.7K Views
December 10, 21
スライド概要
mRNA-Seq のリードデータのクオリティチェックについてまとめたもの。
社会人になり、アフリカに行き、そして大学に戻ってきたピチピチの博士課程学生(専門:環境科学)である。博士号はまだない。バイオインフォマティクスの諸々についてふわっふわっと説明したい。
mRNA-Seq 解析の流れをざっくりと説明してみた mRNA-Seq 解析 クオリティチェック編 2021/12/02 ⽔産⽣物環境学(九州⼤学) ⾼井優⽣
まず初めにこれだけは⾔っておきたいです どんな解析ツールを使うとしても
マニュアルを しっかりと 読んでください
これが⼀番基本です 「できなーい」と⾔ってる⼈の 99.999% は マニュアルを読んでません
「読んだし︕」と⾔い張る⼈もいますが 読んでません それは ⾒ただけです
もう⼀度⾔います
マニュアルを しっかりと 読んでください
mRNA-Seq 解析の流れをざっくりと説明してみた mRNA-Seq 解析 クオリティチェック編 2021/12/02 ⽔産⽣物環境学(九州⼤学) ⾼井優⽣
クオリティチェックとフィルタリング 使⽤するソフトウェア︓fastp(0.23.1)、FastQC(v0.11.9) リードデータの中にはクオリティが微妙なリードやシーケンスの際に使⽤したアダプター配列のリードなど 解析の際に邪魔になってしまうリードが混ざっている(ことがある)ので、それを除去します fastp ・最近開発されたソフトウェア ・クオリティチェックとフィルタリングが同時にできる優れもの ・直感的に理解しやすい ・FastQC で⾒てたあのパラメータが⾒たい︕ってなるときがある FastQC ・昔からあるクオリティチェック⽤ソフトウェア ・直感的に理解しやすい ・fastp で出てくるパラメータが⾒たい︕ってなるときがある fastp も FastQC も⼀⻑⼀短あるので、僕は両⽅使ってます(両⽅使う必要があるかは分かりません) FastQC …⽣データのレポート(FastQC) ⽣データ fastp FastQC …解析⽤データのレポート(FastQC) 解析⽤データ …⽣データのレポート(fastp) …解析⽤データのレポート(fastp) どんだけレポート⾒るんだ︕って なりそうだけど
fastp フィルタリング&クオリティチェック
クオリティチェックとフィルタリング 使⽤するソフトウェア︓fastp(0.23.1)、FastQC(v0.11.9) fastp で使うオプションはこんな感じ オプション 指定する内容の⼤まかな説明 -i ⽣データのフォワード側リード(_1.fq みたいなやつ) -I ⽣データのリバース側リード(_2.fq みたいなやつ) -o フィルタリング後のフォワード側リードを保存する場所(ファイル名) -O フィルタリング後のリバース側リードを保存する場所(ファイル名) --html 結果レポートの html ファイルの保存場所(ファイル名) --json 結果レポートの json ファイルの保存場所(ファイル名) 実際に使うとこんな感じ ubuntu@ubuntu-man$ fastp -i /media/ubuntu/VG20211025-4/VG20211024-4_2/C1_1.fq.gz \ > -I /media/ubuntu/VG20211025-4/VG20211024-4_2/C1_2.fq.gz \ > -o /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/cleaned_C1_1.fq.gz \ > -O /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/cleaned_C1_2.fq.gz \ > --html /home/ubuntu/takai/00_Java_ANTandMP/01_QC/fastp_C1.html \ > --json /home/ubuntu/takai/00_Java_ANTandMP/01_QC/fastp_C1.json
FastQC クオリティチェック
クオリティチェックとフィルタリング 使⽤するソフトウェア︓fastp(0.23.1)、FastQC(v0.11.9) FastQC で使うオプションはこんな感じ オプション 指定する内容の⼤まかな説明 なし クオリティチェックをするリードの場所(ファイル名) -o 結果レポートを保存する場所(ディレクトリ) 実際に使うとこんな感じ ubuntu@ubuntu-man$ fastqc /media/ubuntu/VG20211025-4/VG20211024-4_2/C1_1.fq.gz \ > -o /home/ubuntu/takai/00_Java_ANTandMP/01_QC という感じで、全サンプルのクオリティチェックと フィルタリングを For ⽂でぶん回します
For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂
結果の確認 fastp & FastQC
クオリティチェックの結果(fastp) 使⽤するソフトウェア︓fastp(0.23.1)、FastQC(v0.11.9) このぐちゃぐちゃはライブラリ調整(DNase による断⽚化)の際に ⽣じるテクニカルバイアスらしいけど、下流の解析には影響しない そうなのでここのトリミングはしない(⼈が多い) FastQC の公式ドキュメントにも明⾔されているから⾃信もってよし 細かい内容は 公式ドキュメントを 参照
クオリティチェックの結果(FastQC) 使⽤するソフトウェア︓fastp(0.23.1)、FastQC(v0.11.9) fastp でのフィルタリング前(⽣データ) fastp でのフィルタリング後(解析⽤データ) お分かりいただけただろうか ちょびっとあったアダプター配列が fastp の フィルタリングによって除去されたのである レポートに出⼒される詳細な結果についての説明は FastQC の公式ドキュメントを読んでください ただ⼀点伝えておくと、これはあくまで⼀般的な観点からクオリティを評価したものなので 「警告︕」「失敗︕」になったとしても「いや、それはね、この⽣物はこういう特徴があるから」みたいな 説明ができればそれはそれで良いです