Nanopore シーケンサと深層学習を用いた 新型コロナウィル …Nanopore...

19
Nanopore シーケンサと深層学習を用いた 新型コロナウィルスRNA塩基修飾の解析 生命データサイエンス分野 講師 上田 宏生 新型コロナウイルス感染症対応HPCI臨時課題

Transcript of Nanopore シーケンサと深層学習を用いた 新型コロナウィル …Nanopore...

  • Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析

    生命データサイエンス分野 講師上田 宏生

    新型コロナウイルス感染症対応HPCI臨時課題

  • 駒場第2キャンパス

    東京大学先端科学技術研究センター 講師

    上田 宏生 (Hiroki Ueda)

    略歴2000年 8月 カナダ ブリティッシュコロンビア州立 ビクトリア大学卒業2002年12月 首都圏コンピュータ技術者協同組合2003年 3月 金沢工業大学大学院工学研究科 修士課程修了2006年 9月 日本バイオ情報産業化コンソーシアム登録研究員2010年 4月 株式会社 インテック研究所 研究員2013年 9月 東京大学大学院工学系研究科博士課程修了2015年 4月 富士通株式会社未来医療開発センター 研究員2018年 3月 東京大学先端科学技術研究センター 講師

    -生命情報若手アライアンス 生命データサイエンス分野PI2018年 9月 国立がん研究センター特任研究員(兼任)

    https://www.lsbm.org/

    https://www.lsbm.org/

  • CNN (畳み込みニューラルネットワーク)を用いた学習

    Conv

    olut

    ion

    SEN

    et

    GAP

    and

    Soft

    max

    Max

    poo

    ling

    Conv

    olut

    ion

    Max

    po

    olin

    g

    Gus

    sian

    noise

    クラス分類・距離分類

    修飾部位検出

    GPUによる計算 (HPCI -ABCI)

    (研究の概要) Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析

    ウィルスゲノム

    ナノポアシーケンサウィルス

    RNA

    修飾あり

    ウィルスRNA

    修飾なし

    DNA

    IN VITRORNA

  • https://www.gisaid.org/epiflu-applications/next-hcov-19-app/

    世界中で新型コロナウィルスの配列解析が行われ、ウィルスが変異を繰り返していることが分かっている。配列解析はウィルスの毒性や感染力を評価する上で必要。ウィルスが変異するとワクチンが効かないことや、ワクチンの副作用が増強されること(抗体依存性感染増強ADE)が懸念されており、ワクチンや薬剤の開発においても配列解析が重要である。

    出展GISAID

    新型コロナウィルスの進化

    https://www.gisaid.org/epiflu-applications/next-hcov-19-app/

  • KOREA England

    Australia

    KOREA

    4402 T -> C5062 G -> T8782 C -> T28144 T -> C

    Australia

    19065 T -> C22303 T -> G26144 G ->T29750 Del 10

    England

    8782 C -> T18488 T -> C23605 T -> G28144 T -> C29596 A -> G

    https://www.gisaid.org/epiflu-applications/next-hcov-19-app/

    Covid19 Direct RNA Sequence from 3 groups

    Wohan

    Wohan

    Wohan

    https://www.gisaid.org/epiflu-applications/next-hcov-19-app/

  • RNA修飾とは

    出展:New Twists in Detecting mRNA Modification Dynamics Ina Anreiter et. al. ,Trends in Biotechnology ,Available online 1 July 2020

    RNAウィルスである新型コロナウィルスのゲノムは、約3万のA,C,G,Uの4つの塩基から構成されており、これらが変異して進化する。

    RNAには化学的な修飾が起こり、塩基の機能が変化する。RNA修飾は100種類以上知られているが、新型コロナウィルス SERS-COV2 には2種類のRNAメチル化修飾酵素(nsp-14,nsp16)がコードされており、5’Cap 構造、5mC (メチル化) が知られている他、韓国のグループにより新規修飾の可能性が示唆されている。

    出展: Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020

    5’Cap

    5mC

    UnknownMod ?

    RNA修飾の役割:5’Cap 構造を作成することで、細胞内の自然免疫系から逃れる。また、3’ のメチル化により、分解系から逃れる、タンパクとの結合、転写活性の変化などの役割が考えられるが、RNA化学修飾の部位と種類についての詳細は分かっていない。

    2’-O-M, m7G-M

  • 新型コロナウィルスRNA修飾解析の意義

    1.RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.

    2.(新規)RNA修飾が新たな創薬のターゲットになりうる.

    3.mRNAワクチン作成の際に重要な情報となる.(5’Cap, メチル化による免疫、分解回避)

  • 新型コロナウィルスRNA修飾解析の意義

    1.RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.

    現在は、ウィルスを分類する上でRNA塩基修飾は加味されていない。

    より詳細な分類は、ウィルスの種類ごとのオーダーメイド治療につながる。

    また、ウィルス特性の変化をより詳細に捉えられる可能性がある。

  • 新型コロナウィルスRNA修飾解析の意義

    2.(新規)RNA修飾が新たな創薬のターゲットになりうる.

    5’Cap

    5‘Cap構造はRNAの増殖に必須の構造。それ以外にも、ウィルスのライフサイクルにおいて重要な修飾は、阻害薬のターゲットになりうる。

    出展: Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020

  • 新型コロナウィルスRNA修飾解析の意義3.mRNAワクチン作成の際に重要な情報となる.

    (5’Cap, メチル化による免疫、分解回避)26 candidate vaccines in clinical evaluationDRAFT landscape of COVID-19 candidate vaccines – 31 July 2020

    ※mRNAワクチンは有力なワクチン作成の方法

    出展:moderna社5’Cap AAAAA

    S-protein※実際のウィルスのRNAをミミックすることで、自然免疫系や分解から保護し、有効なワクチンを作成することが期待できる

    ViralVector Inactivated mRNA ProteinSubunit DNA VLP

    ウィルスベクター

    RNAワクチン

    不活化ワクチン

    タンパクサブユニット

    DNAワクチン

  • nanopore シーケンサを用いた新型コロナウィルスRNA修飾解析法

  • RNA修飾解析の方法

    RT-PCR+通常のシーケンサ

    RNA修飾の情報はRT-PCRの過程で失われるため、通常のシーケンサは使えない

    質量分析器

    存在するRNA修飾の種類を特定することは可能であるが、位置情報を特定することは困難

    ナノポアシーケンサ

    https://nanoporetech.com/jp/how-it-works

    RNA1分子ごとに解析が可能。修飾塩基は異なる電流値として検出される。

    複雑な大量データの解析が課題となる

    ウィルスRNA

    RT-PCR (逆転写)

    DNA

    DNAシーケンサによる解析

    RNA修飾

    消失

    ウィルスRNA

    位置情報 消失

    イオン化MS/MS

    https://nanoporetech.com/jp/how-it-works

  • NanoporeシーケンサによるRNA修飾解析の方法ナノポアシーケンサ

    https://nanoporetech.com/jp/how-it-works

    シグナル

    深層学習(RNN)

    AUCGGGACUCUUC…

    塩基配列

    塩基修飾

    ウィルスRNA

    増幅を介さないDirect RNA Sequence~70 base/sec

    GigaScience,Haotian Teng et al Chiron: Translating nanopore raw signal directly into nucleotide sequence using deep learning

    https://nanoporetech.com/jp/how-it-works

  • CNN (畳み込みニューラルネットワーク)を用いた学習

    Conv

    olut

    ion

    SEN

    et

    GAP

    and

    Soft

    max

    Max

    poo

    ling

    Conv

    olut

    ion

    Max

    po

    olin

    g

    Gus

    sian

    noise

    クラス分類・距離分類

    修飾部位検出

    ナノポアシーケンサ

    ウィルスRNA

    ウィルスゲノム

    深層学習を用いた新手法の開発

    比較

    修飾あり

    ウィルスRNA

    修飾なし

    DNA

    IN VITRORNA

    GPUによる計算 (HPCI -ABCI)

    ABCI3,750/7,000 CPUノード時間7TB storage最大32ノードを同時使用を使用(8/6時点)

    RT-PCR

  • Stephenson et alKSStats従来手法

    nanoDoc新手法

    テストデータ(rRNA)を用いた 検証

    深層学習を使用することで、従来手法より高精度なRNA塩基修飾検出を可能にした。

    新手法AUC=0.96

    深層学習を用いない従来手法1AUC=0.89

    電流差のみAUC=0.79

    RNA塩基修飾箇所

    ゲノム位置

    スコア False positive rate

    True

    pos

    itive

    rate

    ROC Curve

    Yeast 18S rRNA

    https://www.biorxiv.org/content

  • Direct RNA Sequence, 既報データの再解析

    Kim et al, The architecture of SARS-CoV-2 transcriptome , Cell 2000

    Viehweger et al, Direct RNA nanopore sequencing offull-length coronavirus genomesprovides novel insights into structuralvariants and enables modification analysis

    Genome Research 2019

    Sequen

    ce IDVirus DRS kit size

    Mappe

    d reads

    /numbe

    r of

    read

    Tombo

    mappe

    d %

    DRS

    Invitro

    Transc

    ript

    Mass

    Spec

    SQK-

    RNA002

    1,456,24

    9 /

    1,593,62

    4

    91.30%

    R9.4.1 (in vitro) 64.90%

    570,916/

    879,679

    (Infected

    )

    SQK-

    RNA002

    198,765

    /

    680,347

    29.20%

    R9.4.1(Infected

    )4.50%

    19,394 /

    430,923(Viron)

    SERS-

    COV2

    SQK-

    RNA002

    496,027

    /

    1,520,31

    9

    BetaCo

    V/Englan

    d/02/202

    0

    MIN106

    D R9

    (Infected

    )

    R9.4

    ✔Davidso

    n et al

    EPI_ISL_

    407073

    (GISAID

    )

    ✔ 160GB 32.60%

    Taiaroa

    et al

    MT0075

    44.1

    SERS-

    COV2

    Australia

    /VIC01/2

    020

    ✔ 130GB

    Kim et

    al

    MT0398

    90.1

    SERS-

    COV2

    isolate

    SNU01/

    ✔ 730GB ✔

    시트1

    RT primers for in vitro transcription

    RTprimer-1TGTTTCTTCTGCATGTGCGAGC4399 4420

    RTprimer-2GAAATCTTTAACGTTCCATATC 8398 8419

    RTprimer-3TGCATTGTTGATAATGTTGTTG12400 12421

    RTprimer-4TGAGTCACATCTGTGACATCAC 16400 16421

    RTprimer-5AATCTTCTAATTCAAAAGGTGA20401 20422

    RTprimer-6TGACCACATCTTGAAGTTTTCC24398 24419

    RTprimer-7AGTATTATTGGGTAAACCTTGG 28399 28420

    RTprimer-8TTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29880

    PCR primers for in vitro transcription

    IVT-frag1-FCCCCTAATACGACTCACTATAGGATTAAAGGTTTATACCTTCC1 20

    IVT-frag1-RTTTTTTTTTTTTTTTTTTTTTCAAAGCCAAAAATTTATTTACAAGC2305 2329

    IVT-frag2-FCCCCTAATACGACTCACTATAGGGCTAACTAACATCTTTGGCACTG2100 2123

    IVT-frag2-RTTTTTTTTTTTTTTTTTTTTTGTTTCTTCTGCATGTGCGAGC4399 29891

    IVT-frag3&4-FCCCCTAATACGACTCACTATAGGGTTACAACAACTCTGGAAGAAAC 3980 4002

    IVT-frag3-RTTTTTTTTTTTTTTTTTTTTTTGGTTTTGTGCTCCAAAGAC6300 6319

    IVT-frag4-RTTTTTTTTTTTTTTTTTTTTGAAATCTTTAACGTTCCATATC8398 8420

    IVT-frag5-FCCCCTAATACGACTCACTATAGGGTTACTAGATCAGGCATTAGTGTCTG7975 8000

    IVT-frag5-RTTTTTTTTTTTTTTTTTTTTTTTAAGCTTAAGTACACAATTTTGC10300 10323

    IVT-frag6-FCCCCTAATACGACTCACTATAGGCATCTGGTAAAGTTGAGGGTTG10080 10101

    IVT-frag6-RTTTTTTTTTTTTTTTTTTTTTGCATTGTTGATAATGTTGTTG12400 12422

    IVT-frag7-FCCCCTAATACGACTCACTATAGGGAAGCCTTTGAAAAAATGGTTTC11981 12003

    IVT-frag7-RTTTTTTTTTTTTTTTTTTTTTTTTGGGTGGTATGTCTGATCCC14309 14330

    IVT-frag8-FCCCCTAATACGACTCACTATAGGCAATGGTAACTGGTATGATTTCGG14076 14099

    IVT-frag8-RTTTTTTTTTTTTTTTTTTTTTGAGTCACATCTGTGACATCAC

    IVT-frag9-FCCCCTAATACGACTCACTATAGGGATATCGTAAAAACAGATGGTACAC15976 16000

    IVT-frag9-RTTTTTTTTTTTTTTTTTTTTTACCCCTCGACATCGAAGCC18301 18319

    IVT-frag10-FCCCCTAATACGACTCACTATAGGACTGGGTTACATCCTACACAGG18085 18106

    IVT-frag10-RTTTTTTTTTTTTTTTTTTTTAATCTTCTAATTCAAAAGGTGA20401 20422

    IVT-frag11-FCCCCTAATACGACTCACTATAGGCACTGTCTTTTTTGATGGTAGAGTTG19977 20002

    IVT-frag11-RTTTTTTTTTTTTTTTTTTTTTAATCACCAGGAGTCAAATAACTTC22299 22322

    IVT-frag12-FCCCCTAATACGACTCACTATAGGGCCTTTTCTTATGGACCTTGAAGG22081 22104

    IVT-frag12-RTTTTTTTTTTTTTTTTTTTTTGACCACATCTTGAAGTTTTCC24398 29891

    IVT-frag13-FCCCCTAATACGACTCACTATAGGTTACCAGATCCATCAAAACCAAGC23978 24001

    IVT-frag13-RTTTTTTTTTTTTTTTTTTTTTCGAAAGCAAGAAAAAGAAGTACGC26291 26314

    IVT-frag14-FCCCCTAATACGACTCACTATAGGTCTACAATAAAATTGTTGATGAGCC26087 26111

    IVT-frag14-RTTTTTTTTTTTTTTTTTTTTAGTATTATTGGGTAAACCTTGG28399 28420

    IVT-frag15-FCCCCTAATACGACTCACTATAGGACCATATGTAGTTGATGACCCGTG27980 28003

    IVT-frag15-RTTTTTTTTTTTTTTTTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29894

    PCR primers for reverse transcription and PCR

    Primer #1-3-FCAAACCAACCAACTTTCGATCTCTTGTA28 55

    Primer #1-RTAAACTCTGAACTCACTTTCCATCC22017 22041

    Primer #2-RAGTGTTATAAACACTATTGCCGCAAC27703 27728

    Primer #3-RTGAGTCACATCTGTGACATCAC16400 16421

    Primer #4-FATTCTAGTCTTACTATTAAGAAACCTAATG 6570 6599

    Primer #4-RATGTAGTTACGAGAATTCATTCTGC29613 2963

    Sheet1

    Sequence IDVirusDRSkitsizeMapped reads /number of readTombo mapped %DRS Invitro TranscriptMass Spec

    Kim et alMT039890.1SERS-COV2 isolate SNU01/✔SQK-RNA002730GB1,456,249 / 1,593,62491.30%✔

    46478(in vitro)64.90%

    570,916/879,679

    (Infected)

    Taiaroa et alMT007544.1SERS-COV2 Australia/VIC01/2020✔SQK-RNA002130GB198,765 / 680,34729.20%

    46478(Infected)4.50%

    19,394 / 430,923

    (Viron)

    Davidson et alEPI_ISL_407073 (GISAID)SERS-COV2✔SQK-RNA002160GB496,027 / 1,520,31932.60%✔

    BetaCoV/England/02/2020MIN106D R9 (Infected)

    R9.4

  • nanoDoc: RNA modification detection using Nanopore raw reads with Deep One-Class Classificationhttps://www.biorxiv.org/content/10.1101/2020.09.13.295089v1

    新型コロナウィルスデータの解析

    研究成果の一部をbiorxivで公開

  • まとめ・RNA修飾部位を高精度に検出する深層学習の手法を開発

    ・海外3グループのデータを再解析を完了

    ・既知のNタンパク領域のRNA修飾を確認他の領域については検証が必要。

  • 今後の予定• シグナルの詳細解析による塩基修飾の種類の推定• 解析手法、解析結果の発表

    スライド番号 1スライド番号 2スライド番号 3新型コロナウィルスの進化Covid19 Direct RNA Sequence from 3 groupsRNA修飾とは新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義�nanopore シーケンサを用いた�新型コロナウィルスRNA修飾解析法�RNA修飾解析の方法NanoporeシーケンサによるRNA修飾解析の方法深層学習を用いた新手法の開発スライド番号 15Direct RNA Sequence, 既報データの再解析スライド番号 17まとめ今後の予定スライド番号 1スライド番号 2