Genomic epidemiology of the early stages of SARS-CoV-2 outbreak in Russia

Russia ranks fourth in the number of confirmed COVID-19 cases globally. In our new preprint, we perform the first (to my knowledge) study of the genomic epidemiology of SARS-CoV-2 in Russia in March-April. This is based on 211 genomes from 25 (out of the 85) Russia’s regions.

Key findings:

  • 67 independent introductions (probably more), mostly from Europe;
  • 9 Russian transmission lineages;
  • phylogeographic positions of samples match direct travel data. In 9 out of 13 cases, it is consistent with the country of origin, including 3 cases when the country of origin is uniquely and correctly identified (France, Switzerland and Saudi Arabia).
  • no trace of export outside Russia.

Additionally, we study a large nosocomial cluster – the Vreden hospital in Saint Petersburg. Over 700 patients and medical staff stayed there locked down for over a month; over 400 got infected. We find that the virus was introduced into the hospital up to 4 times; each introduction gave rise to an outbreak of its own, with initial Rt~4, later reduced to ~1.

To count introductions, we use the (limited) direct data on travel that we have. We split our Russian samples into five distinct groups, depending on their phylogenetic position relative to other Russian and non-Russian samples (see figure):

For Russian singletons and Russian transmission lineages, we used maximum parsimony, assuming that they each result from a distinct introduction.

For stem clusters, stem-derived singletons and stem-derived transmission lineages, it’s more complex. For example, the pattern in the left panel in the figure above could result from anywhere between 1 and 8 distinct introductions, depending on which of the transmissions corresponding to the ancestral node occurred prior to introduction, and which in Russia.

Facing a similar problem (on a much larger UK dataset), Pybus et al. (Preliminary analysis of SARS-CoV-2 importation & establishment of UK transmission lineages) assumed that the ancestral state was non-UK, so that each transmission lineage resulted from a distinct introduction. It would be tempting to use a similar simple rule to estimate the number of introductions for stem clusters and stem-derived singletons.

However, from travel data, we see that no simple rule would work. E.g., for some of the stem-derived transmission lineages, we know that most individuals haven’t travelled:

(Russian flag means no travel), suggesting that this lineage could have resulted from transmission within Russia. In other lineages, however, we see multiple individuals who have travelled:


To address this as well as we can, we use a mixed approach. We assume that the number of introductions for each of the categories above is proportional to the fraction of individuals who have travelled, among all individuals with travel history. This gives us ~0.33 imports per stem-derived transmission lineage; ~0.14 imports per stem-derived singleton; and ~0.36 imports per sequence in a stem cluster. For details, see here:

This yields our estimate of 67 introductions overall giving rise to the sampled diversity.

Добрый день!
Хочется уточнить некоторые моменты касательно применения BD Skyline для оценки эпидемических параметров.
К сожалению, на MCC дереве не отображена апостериорная вероятность существования узлов. Как показывает практика, получаемые сиквенсы SARS-CoV-2 весьма гомогенны, и если узлам на дереве не соответствует достаточная поддержка, то ветвление можно считать случайным, как и оцениваемые эпид. параметры с использованием упомянутой модели.

Также в вашей работе не содержится данных об оценке временного сигнала (temporal signal) в последовательностях, чтобы иметь основание для применения молекулярных часов. 52 сиквенсов SARS-CoV-2 может оказаться недостаточно для оценки времени дивергенции.

С уважением,
Артём Б.

Добрый день, Артём,

на MCC дереве нас интересуют в первую очередь глубокие ветвления, которые и обсуждаются в тексте. Эти внутренние узлы поддерживаются ручным анализом мутаций и ML деревом. Также специально был проведён анализ всего датасета и двух его подмножеств, чтобы датировать их. Тем не менее мы обдумаем возможность отображения апостериорных вероятностей на узлах MCC дерева, спасибо за предложение.

Что касается молекулярных часов, то мы использовали сильное априорное распределение на clockrate. Для этого мы использовали апостериорную оценку этого параметра из анализа британской эпидемии, которая была получена из большого датасета, как описано в Методах.

С уважением,