我们专注短读长测序平台的碱基识别(Basecall)任务。任务的关键特征是:
-
输入数据:
$\mathbf{X} \in \mathcal{R}^{(T \times N \times C)}$ ,其中-
$T$ : 表示测序循环数目,范围在$50 \sim 1000$ -
$N$ : 表示 DNA 分子数目,范围在$10^7 \sim 10^{11}$ -
$D$ : 表示输入信号的维度,范围在$2 \sim 10^2$
-
-
输出数据:
$\mathbf{Y} \in \{a, t, c, g\}^{(N \times T)}$ ,即 N 条长度为 T 的基因序列