立教大学 立教セカンドステージ大学 Newsletter RIKKYO SECOND … · 2014-03-03 · でも、深層心 の中の重い堆積物を思い切って捨てようと決心してみま
Nanopore シーケンサと深層学習を用いた 新型コロナウィル …Nanopore...
Transcript of Nanopore シーケンサと深層学習を用いた 新型コロナウィル …Nanopore...
-
Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析
生命データサイエンス分野 講師上田 宏生
新型コロナウイルス感染症対応HPCI臨時課題
-
駒場第2キャンパス
東京大学先端科学技術研究センター 講師
上田 宏生 (Hiroki Ueda)
略歴2000年 8月 カナダ ブリティッシュコロンビア州立 ビクトリア大学卒業2002年12月 首都圏コンピュータ技術者協同組合2003年 3月 金沢工業大学大学院工学研究科 修士課程修了2006年 9月 日本バイオ情報産業化コンソーシアム登録研究員2010年 4月 株式会社 インテック研究所 研究員2013年 9月 東京大学大学院工学系研究科博士課程修了2015年 4月 富士通株式会社未来医療開発センター 研究員2018年 3月 東京大学先端科学技術研究センター 講師
-生命情報若手アライアンス 生命データサイエンス分野PI2018年 9月 国立がん研究センター特任研究員(兼任)
https://www.lsbm.org/
https://www.lsbm.org/
-
CNN (畳み込みニューラルネットワーク)を用いた学習
Conv
olut
ion
SEN
et
GAP
and
Soft
max
Max
poo
ling
Conv
olut
ion
Max
po
olin
g
Gus
sian
noise
クラス分類・距離分類
修飾部位検出
GPUによる計算 (HPCI -ABCI)
(研究の概要) Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析
ウィルスゲノム
ナノポアシーケンサウィルス
RNA
修飾あり
ウィルスRNA
修飾なし
DNA
IN VITRORNA
-
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
世界中で新型コロナウィルスの配列解析が行われ、ウィルスが変異を繰り返していることが分かっている。配列解析はウィルスの毒性や感染力を評価する上で必要。ウィルスが変異するとワクチンが効かないことや、ワクチンの副作用が増強されること(抗体依存性感染増強ADE)が懸念されており、ワクチンや薬剤の開発においても配列解析が重要である。
出展GISAID
新型コロナウィルスの進化
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
-
KOREA England
Australia
KOREA
4402 T -> C5062 G -> T8782 C -> T28144 T -> C
Australia
19065 T -> C22303 T -> G26144 G ->T29750 Del 10
England
8782 C -> T18488 T -> C23605 T -> G28144 T -> C29596 A -> G
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
Covid19 Direct RNA Sequence from 3 groups
Wohan
Wohan
Wohan
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
-
RNA修飾とは
出展:New Twists in Detecting mRNA Modification Dynamics Ina Anreiter et. al. ,Trends in Biotechnology ,Available online 1 July 2020
RNAウィルスである新型コロナウィルスのゲノムは、約3万のA,C,G,Uの4つの塩基から構成されており、これらが変異して進化する。
RNAには化学的な修飾が起こり、塩基の機能が変化する。RNA修飾は100種類以上知られているが、新型コロナウィルス SERS-COV2 には2種類のRNAメチル化修飾酵素(nsp-14,nsp16)がコードされており、5’Cap 構造、5mC (メチル化) が知られている他、韓国のグループにより新規修飾の可能性が示唆されている。
出展: Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020
5’Cap
5mC
UnknownMod ?
RNA修飾の役割:5’Cap 構造を作成することで、細胞内の自然免疫系から逃れる。また、3’ のメチル化により、分解系から逃れる、タンパクとの結合、転写活性の変化などの役割が考えられるが、RNA化学修飾の部位と種類についての詳細は分かっていない。
2’-O-M, m7G-M
-
新型コロナウィルスRNA修飾解析の意義
1.RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.
2.(新規)RNA修飾が新たな創薬のターゲットになりうる.
3.mRNAワクチン作成の際に重要な情報となる.(5’Cap, メチル化による免疫、分解回避)
-
新型コロナウィルスRNA修飾解析の意義
1.RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.
現在は、ウィルスを分類する上でRNA塩基修飾は加味されていない。
より詳細な分類は、ウィルスの種類ごとのオーダーメイド治療につながる。
また、ウィルス特性の変化をより詳細に捉えられる可能性がある。
-
新型コロナウィルスRNA修飾解析の意義
2.(新規)RNA修飾が新たな創薬のターゲットになりうる.
5’Cap
5‘Cap構造はRNAの増殖に必須の構造。それ以外にも、ウィルスのライフサイクルにおいて重要な修飾は、阻害薬のターゲットになりうる。
出展: Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020
-
新型コロナウィルスRNA修飾解析の意義3.mRNAワクチン作成の際に重要な情報となる.
(5’Cap, メチル化による免疫、分解回避)26 candidate vaccines in clinical evaluationDRAFT landscape of COVID-19 candidate vaccines – 31 July 2020
※mRNAワクチンは有力なワクチン作成の方法
出展:moderna社5’Cap AAAAA
S-protein※実際のウィルスのRNAをミミックすることで、自然免疫系や分解から保護し、有効なワクチンを作成することが期待できる
ViralVector Inactivated mRNA ProteinSubunit DNA VLP
ウィルスベクター
RNAワクチン
不活化ワクチン
タンパクサブユニット
DNAワクチン
-
nanopore シーケンサを用いた新型コロナウィルスRNA修飾解析法
-
RNA修飾解析の方法
RT-PCR+通常のシーケンサ
RNA修飾の情報はRT-PCRの過程で失われるため、通常のシーケンサは使えない
質量分析器
存在するRNA修飾の種類を特定することは可能であるが、位置情報を特定することは困難
ナノポアシーケンサ
https://nanoporetech.com/jp/how-it-works
RNA1分子ごとに解析が可能。修飾塩基は異なる電流値として検出される。
複雑な大量データの解析が課題となる
ウィルスRNA
RT-PCR (逆転写)
DNA
DNAシーケンサによる解析
RNA修飾
消失
ウィルスRNA
位置情報 消失
イオン化MS/MS
https://nanoporetech.com/jp/how-it-works
-
NanoporeシーケンサによるRNA修飾解析の方法ナノポアシーケンサ
https://nanoporetech.com/jp/how-it-works
シグナル
深層学習(RNN)
AUCGGGACUCUUC…
塩基配列
塩基修飾
ウィルスRNA
増幅を介さないDirect RNA Sequence~70 base/sec
GigaScience,Haotian Teng et al Chiron: Translating nanopore raw signal directly into nucleotide sequence using deep learning
https://nanoporetech.com/jp/how-it-works
-
CNN (畳み込みニューラルネットワーク)を用いた学習
Conv
olut
ion
SEN
et
GAP
and
Soft
max
Max
poo
ling
Conv
olut
ion
Max
po
olin
g
Gus
sian
noise
クラス分類・距離分類
修飾部位検出
ナノポアシーケンサ
ウィルスRNA
ウィルスゲノム
深層学習を用いた新手法の開発
比較
修飾あり
ウィルスRNA
修飾なし
DNA
IN VITRORNA
GPUによる計算 (HPCI -ABCI)
ABCI3,750/7,000 CPUノード時間7TB storage最大32ノードを同時使用を使用(8/6時点)
RT-PCR
-
Stephenson et alKSStats従来手法
nanoDoc新手法
テストデータ(rRNA)を用いた 検証
深層学習を使用することで、従来手法より高精度なRNA塩基修飾検出を可能にした。
新手法AUC=0.96
深層学習を用いない従来手法1AUC=0.89
電流差のみAUC=0.79
RNA塩基修飾箇所
ゲノム位置
スコア False positive rate
True
pos
itive
rate
ROC Curve
Yeast 18S rRNA
https://www.biorxiv.org/content
-
Direct RNA Sequence, 既報データの再解析
Kim et al, The architecture of SARS-CoV-2 transcriptome , Cell 2000
Viehweger et al, Direct RNA nanopore sequencing offull-length coronavirus genomesprovides novel insights into structuralvariants and enables modification analysis
Genome Research 2019
Sequen
ce IDVirus DRS kit size
Mappe
d reads
/numbe
r of
read
Tombo
mappe
d %
DRS
Invitro
Transc
ript
Mass
Spec
SQK-
RNA002
1,456,24
9 /
1,593,62
4
91.30%
R9.4.1 (in vitro) 64.90%
570,916/
879,679
(Infected
)
SQK-
RNA002
198,765
/
680,347
29.20%
R9.4.1(Infected
)4.50%
19,394 /
430,923(Viron)
SERS-
COV2
SQK-
RNA002
496,027
/
1,520,31
9
BetaCo
V/Englan
d/02/202
0
MIN106
D R9
(Infected
)
R9.4
✔Davidso
n et al
EPI_ISL_
407073
(GISAID
)
✔ 160GB 32.60%
Taiaroa
et al
MT0075
44.1
SERS-
COV2
Australia
/VIC01/2
020
✔ 130GB
Kim et
al
MT0398
90.1
SERS-
COV2
isolate
SNU01/
✔ 730GB ✔
시트1
RT primers for in vitro transcription
RTprimer-1TGTTTCTTCTGCATGTGCGAGC4399 4420
RTprimer-2GAAATCTTTAACGTTCCATATC 8398 8419
RTprimer-3TGCATTGTTGATAATGTTGTTG12400 12421
RTprimer-4TGAGTCACATCTGTGACATCAC 16400 16421
RTprimer-5AATCTTCTAATTCAAAAGGTGA20401 20422
RTprimer-6TGACCACATCTTGAAGTTTTCC24398 24419
RTprimer-7AGTATTATTGGGTAAACCTTGG 28399 28420
RTprimer-8TTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29880
PCR primers for in vitro transcription
IVT-frag1-FCCCCTAATACGACTCACTATAGGATTAAAGGTTTATACCTTCC1 20
IVT-frag1-RTTTTTTTTTTTTTTTTTTTTTCAAAGCCAAAAATTTATTTACAAGC2305 2329
IVT-frag2-FCCCCTAATACGACTCACTATAGGGCTAACTAACATCTTTGGCACTG2100 2123
IVT-frag2-RTTTTTTTTTTTTTTTTTTTTTGTTTCTTCTGCATGTGCGAGC4399 29891
IVT-frag3&4-FCCCCTAATACGACTCACTATAGGGTTACAACAACTCTGGAAGAAAC 3980 4002
IVT-frag3-RTTTTTTTTTTTTTTTTTTTTTTGGTTTTGTGCTCCAAAGAC6300 6319
IVT-frag4-RTTTTTTTTTTTTTTTTTTTTGAAATCTTTAACGTTCCATATC8398 8420
IVT-frag5-FCCCCTAATACGACTCACTATAGGGTTACTAGATCAGGCATTAGTGTCTG7975 8000
IVT-frag5-RTTTTTTTTTTTTTTTTTTTTTTTAAGCTTAAGTACACAATTTTGC10300 10323
IVT-frag6-FCCCCTAATACGACTCACTATAGGCATCTGGTAAAGTTGAGGGTTG10080 10101
IVT-frag6-RTTTTTTTTTTTTTTTTTTTTTGCATTGTTGATAATGTTGTTG12400 12422
IVT-frag7-FCCCCTAATACGACTCACTATAGGGAAGCCTTTGAAAAAATGGTTTC11981 12003
IVT-frag7-RTTTTTTTTTTTTTTTTTTTTTTTTGGGTGGTATGTCTGATCCC14309 14330
IVT-frag8-FCCCCTAATACGACTCACTATAGGCAATGGTAACTGGTATGATTTCGG14076 14099
IVT-frag8-RTTTTTTTTTTTTTTTTTTTTTGAGTCACATCTGTGACATCAC
IVT-frag9-FCCCCTAATACGACTCACTATAGGGATATCGTAAAAACAGATGGTACAC15976 16000
IVT-frag9-RTTTTTTTTTTTTTTTTTTTTTACCCCTCGACATCGAAGCC18301 18319
IVT-frag10-FCCCCTAATACGACTCACTATAGGACTGGGTTACATCCTACACAGG18085 18106
IVT-frag10-RTTTTTTTTTTTTTTTTTTTTAATCTTCTAATTCAAAAGGTGA20401 20422
IVT-frag11-FCCCCTAATACGACTCACTATAGGCACTGTCTTTTTTGATGGTAGAGTTG19977 20002
IVT-frag11-RTTTTTTTTTTTTTTTTTTTTTAATCACCAGGAGTCAAATAACTTC22299 22322
IVT-frag12-FCCCCTAATACGACTCACTATAGGGCCTTTTCTTATGGACCTTGAAGG22081 22104
IVT-frag12-RTTTTTTTTTTTTTTTTTTTTTGACCACATCTTGAAGTTTTCC24398 29891
IVT-frag13-FCCCCTAATACGACTCACTATAGGTTACCAGATCCATCAAAACCAAGC23978 24001
IVT-frag13-RTTTTTTTTTTTTTTTTTTTTTCGAAAGCAAGAAAAAGAAGTACGC26291 26314
IVT-frag14-FCCCCTAATACGACTCACTATAGGTCTACAATAAAATTGTTGATGAGCC26087 26111
IVT-frag14-RTTTTTTTTTTTTTTTTTTTTAGTATTATTGGGTAAACCTTGG28399 28420
IVT-frag15-FCCCCTAATACGACTCACTATAGGACCATATGTAGTTGATGACCCGTG27980 28003
IVT-frag15-RTTTTTTTTTTTTTTTTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29894
PCR primers for reverse transcription and PCR
Primer #1-3-FCAAACCAACCAACTTTCGATCTCTTGTA28 55
Primer #1-RTAAACTCTGAACTCACTTTCCATCC22017 22041
Primer #2-RAGTGTTATAAACACTATTGCCGCAAC27703 27728
Primer #3-RTGAGTCACATCTGTGACATCAC16400 16421
Primer #4-FATTCTAGTCTTACTATTAAGAAACCTAATG 6570 6599
Primer #4-RATGTAGTTACGAGAATTCATTCTGC29613 2963
Sheet1
Sequence IDVirusDRSkitsizeMapped reads /number of readTombo mapped %DRS Invitro TranscriptMass Spec
Kim et alMT039890.1SERS-COV2 isolate SNU01/✔SQK-RNA002730GB1,456,249 / 1,593,62491.30%✔
46478(in vitro)64.90%
570,916/879,679
(Infected)
Taiaroa et alMT007544.1SERS-COV2 Australia/VIC01/2020✔SQK-RNA002130GB198,765 / 680,34729.20%
46478(Infected)4.50%
19,394 / 430,923
(Viron)
Davidson et alEPI_ISL_407073 (GISAID)SERS-COV2✔SQK-RNA002160GB496,027 / 1,520,31932.60%✔
BetaCoV/England/02/2020MIN106D R9 (Infected)
R9.4
-
nanoDoc: RNA modification detection using Nanopore raw reads with Deep One-Class Classificationhttps://www.biorxiv.org/content/10.1101/2020.09.13.295089v1
新型コロナウィルスデータの解析
研究成果の一部をbiorxivで公開
-
まとめ・RNA修飾部位を高精度に検出する深層学習の手法を開発
・海外3グループのデータを再解析を完了
・既知のNタンパク領域のRNA修飾を確認他の領域については検証が必要。
-
今後の予定• シグナルの詳細解析による塩基修飾の種類の推定• 解析手法、解析結果の発表
スライド番号 1スライド番号 2スライド番号 3新型コロナウィルスの進化Covid19 Direct RNA Sequence from 3 groupsRNA修飾とは新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義�nanopore シーケンサを用いた�新型コロナウィルスRNA修飾解析法�RNA修飾解析の方法NanoporeシーケンサによるRNA修飾解析の方法深層学習を用いた新手法の開発スライド番号 15Direct RNA Sequence, 既報データの再解析スライド番号 17まとめ今後の予定スライド番号 1スライド番号 2