歡迎來到裝配圖網! | 幫助中心 裝配圖網zhuangpeitu.com!
裝配圖網
ImageVerifierCode 換一換
首頁 裝配圖網 > 資源分類 > PPT文檔下載  

《數據處理流程》PPT課件.ppt

  • 資源ID:3173283       資源大?。?span id="tu5hwhr" class="font-tahoma">1.33MB        全文頁數:36頁
  • 資源格式: PPT        下載積分:9.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復下載(系統自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

《數據處理流程》PPT課件.ppt

,數據處理流程,計算機集群,測序控制PC,測序儀,1.控制測序過程決定測序長度、填加試劑、控制溫度、控制反應時間、拍照2.圖像分析對測序儀拍照的圖片進行圖像分析,得到亮點的光強度和坐標3.basecalling由光強度得到堿基序列,4.數據傳輸將basecalling結果(二進制文件bcl)傳輸到計算機集群的存儲上,5.數據處理將bcl文件轉化為后續(xù)信息分析所使用的文本文件(fastq,qseq)6.index拆分7.數據質量分析8.數據備份9.后續(xù)信息分析.,圖像分析及basecalling基本原理,Cycle1Cycle2Cycle3,對A發(fā)出的光拍照,對C發(fā)出的光拍照,對G發(fā)出的光拍照,對T發(fā)出的光拍照,圖像分析及basecalling基本原理,Cycle1Cycle2Cycle3,由4個cluster得到4條序列:ATA.CCT.GCG.GAC.,圖像分析,對每個圖片獨立的處理圖像銳化對圖片進行快速傅里葉變換(FFT),在傅里葉空間乘以濾波函數后反變換識別cluster/亮點信噪比(亮度/背景值)大于閾值的亮點區(qū)域計算亮點光強度和位置坐標在亮點區(qū)域,對光強度進行二維插值,求出最大光強度,以及最大光強度對應的位置坐標,將同一個tile的所有圖片中的亮點坐標對齊重疊不同圖片之間存在偏移/拉伸/壓縮(offset)系統、穩(wěn)定的:4種光折射率不同、濾波片不同、光路不同,所以造成成像的偏移/拉伸/壓縮,可利用crosstalk,計算出偏移/拉伸/壓縮的數值(offset參數)偶然、隨機的:flowcell表面不平、自動調整焦距、機械移動不夠精確、隨機振動,可利用crosstalk解決,CrosstalkAC光譜間有交疊,GT光譜間有交疊,所以:堿基A的圖片中包含C發(fā)出的光堿基C的圖片中包含A發(fā)出的光堿基T的圖片中包含G發(fā)出的光不利:不能直接比較光強度大小而得到堿基有利:利用圖片中共同的亮點,將所有圖片對齊重疊,解決offset問題,圖像分析流程,TemplateGeneration利用AC之間的crosstalk、GT之間的crosstalk,將前2個cycle的圖片,與第一個cycle的A的圖片對齊重疊,確定所有cluster的位置坐標(x,y),RegistrationandIntensityExtraction對于每一個cycle:將4張圖片(ACGT)中的所有亮點與cluster坐標(x,y)對應,計算每個cluster的4種光強度,對每個圖片獨立的處理圖像銳化、識別cluster/亮點、計算亮點光強度和位置坐標,TemplateGeneration利用AC之間的crosstalk、GT之間的crosstalk,將前2個cycle的圖片,與第一個cycle的A的圖片對齊重疊,確定所有cluster的位置坐標(x,y),圖像分析結果,Basecalling,Crosstalk校正4種光強度歸一化(用DNA樣品計算參數),Phasing/Prephasing校正(用DNA樣品計算參數),對于每個cluster:在每個cycle中,比較4種光強度,光強度最大的就是當前cycle測到的堿基,各cycle測到的堿基連起來組成這個cluster的堿基序列;計算每個堿基的質量值,4種光強度歸一化,A,C,G,T,phasing,Sequencingprimer,prephasing,Basecalling結果:qseq文件,每一行表示一條reads(一個cluster)每行有11列,tab分隔:機器編號、run序號、Lane號、Tile號、X坐標、Y坐標、index標志、read1/read2標志、堿基序列、質量序列、是否通過默認的質量篩選標準Single-end(SE)測序:1個qseq文件Pair-end(PE)測序:2個qseq文件分別存放read1和read2的數據;2個文件的同一行屬于同一個cluster每條序列(reads)長度=上機測序循環(huán)(cycle)數量;測序cycle數量受測序試劑盒的試劑量限制,對于GA有:36SE、36+7/8SEindex、45PE、36+7+45PEindex、76PE、74+7+76PEindex、73+8+76PEindex、101PE、101+7/8+101PEindex等對于Hiseq:91PE、91+8+91PEindex、101PE、101+8+101PEindex,Basecalling結果:qseq文件,fastq文件,每4行表示一條reads(一個cluster)第一行:序列ID,包含index序列及read1或read2標志:第二行:堿基序列,大寫“ACGTN”第三行:“+”,省略了序列ID第四行:質量值序列:字符的ASCII碼值-64=質量值Single-end(SE)測序:1個fastq文件Pair-end(PE)測序:2個fastq文件分別存放read1和read2的數據;Read1的fastq文件*1.fq中第一條reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_Read2的fastq文件*2.fq中第一條reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA+QVVVVYVYWWYPWYYTYYWUYYYVVWW,質量值FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_表示方法Illumina:字符的ASCII值-64=質量值(Sanger:字符的ASCII值-33=質量值)范圍GAIllumina1.3+(09年3月之后):2,35B,cGAIllumina1.0(09年3月之前):-5,40;,hHiseq:2:38B,f質量值與錯誤率理論關系:Q=-10log10(e)質量值計算方法:根據光強信號信噪比、光強度衰減、GC含量等參數,計算質量值,fastq文件,fastq文件,每條序列(reads)長度read1和read2分別去除了最后一個堿基,即:36SE有效長度為35101PE有效長度為100(read1)+100(read2)101+8+101PEindex有效長度為100(read1)+100(read2)Read1中所有reads長度相同,Read2中所有reads長度相同,但是Read1和Read2長度可以不相同,取決于上機測序循環(huán)(cycle)數量質量篩選(PF):Illumina標準流程輸出的fastq文件,去除了qseq文件中沒有通過默認質量篩選標準的低質量序列(reads)GA正常PF比例:DNA8090%,RNA7085%每個Lane的正常產量范圍:GA2030MPFreadsRead1和Read2各有2030MHiseq6080MPFreadsRead1和Read2各有6080M堿基總產量=Read1的產量+Read2的產量=reads數量(Read1的長度+Read2的長度),fastq文件產量(GA),fastq文件產量(HiseqvsGA),文庫質控問題1:Pair-end關系,800bp及以下文庫,與參考序列比較或者:總之,Read1,Read2與參考序列比對結果:一正(F)一反(R),且F的位點坐標小于R的位點坐標,Read1,總之,Read1,Read2于參考序列比對結果:一正(F)一反(R),且F的位點坐標小于R的位點坐標文庫插入片段長度,F,2100檢測報告文庫長度分布,與參考序列比對得到insert-size分布,正常insert-size分布,基因組DNA,外顯子,PCR-free文庫,異常insert-size分布,2K及以上文庫,文庫質控問題1:Pair-end關系,與參考序列比較或者:總之,Read1,Read2于參考序列比對結果:一正(F)一反(R),且F的位點坐標大于R的位點坐標,正常insert-size分布,2K,56K,PCR-free文庫,10K,異常insert-size分布,文庫問題2:adapter污染,空載:adapter與adapter直接連接,中間沒有插入片段,導致read1測到3adapter,read2測到5adapter的反向互補reads尾部測到adapter插入片段過短插入片段長度小于上機測序循環(huán)(cycle)數,導致read1尾部測到3adapter,read2尾部測到5adapter的反向互補,adapter空載較多導致堿基含量波動,客戶PCR引物污染導致堿基含量波動,文庫質控問題3:文庫隨機性,GC含量偏差:實驗技術(打斷、PCR、測序)本身特點,導致高GC和低GC區(qū)域測序覆蓋度偏低,甚至某些區(qū)域覆蓋不到;PCR-free建庫技術可減少PCR帶來的隨機性問題duplicationPCR擴增出很多一模一樣的母版分子,測序結果中很多條reads是一樣的;基因組自身重復序列含量高導致duplication偏高;數據量越大,duplication比例越高,文庫質控問題4:其它物種、樣品污染,測序質控問題,rawCluster密度正常rawCluster密度:2030萬/GAtile,200350萬/HiSeqtileCluster制備時,控制文庫濃度,達到適當的rawCluster密度密度過低產量低;密度過高質量差樣品差異:200小片段能夠容忍的密度較高,800bp片段以及RNA樣品、特殊樣品,應適當降低密度通過默認質量篩選標準比例(PF)用read1前25cycle的信噪比進行篩選;正常PF比例:DNA>80%,RNA>70%;rawCluster密度越高,PF比例越低;當rawCluster密度超高時,圖像分析識別出的rawCluster數量小于真實值,此時PF比例會低于正常;,測序質控問題,光強度信號受到環(huán)境溫度、測序儀溫度控制、測序儀聚焦、CS試劑、測序試劑、樣品等因素共同影響;測序長度越長,光強度降低越多;堿基含量不均勻的樣品,光強度會有波動,但屬于正常堿基含量樣品本身測序問題導致有偏向性的測序錯誤質量值Q20:質量值大于等于20的堿基數量/所有堿基數量reads尾部質量低Error-rate與參考序列比較,能夠map的reads中:錯誤的堿基數量/(正確的+錯誤的堿基總數);與參考序列質量有關;人、小片段文庫:101PE1%2%環(huán)化大片段error-rate高于小片段文庫reads尾部error-rate高,正常光強度、堿基含量、質量值、Error-rate,異常光強度、堿基含量、質量值、Error-rate,異常光強度與堿基含量,

注意事項

本文(《數據處理流程》PPT課件.ppt)為本站會員(za****8)主動上傳,裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知裝配圖網(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。




關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網版權所有   聯系電話:18123376007

備案號:ICP2024067431-1 川公網安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網,我們立即給予刪除!