Помимо самого по себе соотношения
d
N
/
d
S
dN/dS, часто можно встретить значение
Z
=
d
N
−
d
S
V
a
r
(
d
N
−
d
S
)
Z=
Var(dN−dS)
dN−dS
, где
V
a
r
(
d
N
−
d
S
)
Var(dN−dS) оценивается из данных с использованием выборок по принципу Jackknife. Интерпретируется это значение аналогично
d
N
/
d
S
dN/dS, но нейтральная эволюция соответствует
Z
=
0
Z=0, а не
d
N
/
d
S
=
1
dN/dS=1.
Допустим, Вы проанализировали большое количество последовательностей одного белок-кодирующего гена у представителей некоторого вида. Результат множественного выравнивания последовательностей представлен в файле sequences_to_dNdS.fa.
Используя графический интерфейс MEGAX (или другой инструмент по вашему выбору) рассчитайте значение
Z
(
d
N
−
d
S
)
Z(dN−dS) для этого гена. Находится ли ген под действием отбора? Если да, то в каком направлении действует отбор?
Приведите в ответе значение статистики
Z
(
d
N
−
d
S
)
Z(dN−dS), округленное до сотых, и ответ на вопрос о давлении отбора (один вариант из трех: "нет", "да,положительный" или "да,отрицательный"). Используйте при расчете большое количество повторений bootstrap (1,000 и более). Пользуйтесь рассмотренным нами в видео методом - "Nei-Gojobori (Jukes-Cantor)"
Пример правильной записи ответа: 1.40,нет,положительный
Кратко: у нас есть задача посчитать Z(dN − dS) для гена по выравниванию sequences_to_dNdS.fa, используя метод Nei-Gojobori (JC69) и большой бутстрэп (1000+ повторений). Нейтральная эволюция соответствует Z = 0. Значение Z — это Z-статистика для разности dN и dS, которая оценивается по распределению bootstrap-репликат. В итоге нужно выдать: значение Z, знак и вывод об отборе (нет / да, положительный / да, отрицательный). Я не могу напрямую запустить MEGA X или прочитать ваш файл, но дам подробную пошаговую инструкцию и формат вывода, чтобы вы могли привести итоговый ответ.
Что именно будем считать и как интерпретировать
- dN: число замещений нон-синсономных (несинсовых) изменений.
- dS: число замещений синсономных изменений.
- dN − dS: разность. При нейтральной эволюции она стремится к 0.
- Z(dN − dS): стандартированная разность. Обычно Z рассчитывают как (dN − dS) / SE(dN − dS), где SE оценивают через бутстрэп (или jackknife). Нейтральность даст Z ≈ 0; положительный Z — признак положительного отбора, отрицательный — отрицательного отбора.
- Bootstrap по данным: повторяемый подсчёт dN − dS на разных бутстрэп-выборках выравнивания (чаще по сайтам/позициям или по участкам кодона). Из распределения получаем SE (или Var) и наблюдаемое значение dN − dS на полном наборе. Затем Z = (dN − dS)_obs / SEBootstrap.
Пошаговая инструкция (MEGA X, или аналогичный инструмент)
0) Подготовка данных
- Убедитесь, что sequences_to_dNdS.fa содержит одно кодонное выравнивание на весь последовательности-ген. Желательно, чтобы выравнивание было во Frame, без рамок и без стоп-кодонов в общем наборе.
- Если нужно, переведите данные в формат, который поддерживает ваш инструмент (MEGA X умеет работать с FASTA/MEGA-форматами). Убедитесь, что все чтения имеют одинаковую длину по кодонам.
1) Откройте файл и проверьте выравнивание
- Загрузите sequences_to_dNdS.fa в MEGA X.
- Убедитесь, что выравнивание корректно кодонно-выстроено (правильный фазовый сдвиг и отсутствие гапов в рамке кодона, кроме допустимых).
2) Рассчёт dN и dS методом Nei-Gojobori (JC69)
- Найдите функцию расчёта dN/dS. В MEGA X она обычно называется что-то вроде: Analysis → Estimate Rates of Substitution / dN/dS, или Selection Analysis → dN/dS (Nei-Gojobori, JC69). Выберите:
- Методику: Nei-Gojobori (JC69).
- Подход: dN и dS (не только их отношение, а сами значения).
- Примените JC69 как модель замещений.
- Включите бутстрэппинг:
- Bootstrapping: включите опцию Bootstrap (1000 повторений и более). Часто можно выбрать степенность бутстрэппинга по сайтам (sites) — это стандартный подход для бутстрэпирования в выравниваниях.
- Укажите желаемое число реплик (1000–2000 и более; пусть будет 1000+).
- Запустите анализ. По завершении вы получите:
- Значения dN и dS для исходного набора (без бутстрэппов).
- Значения dN − dS для каждого бутстрэп-replicate (если программа предоставляет прямо dN − dS по каждой реплике; если нет, можно вычислить их вручную: для каждого репликационного набора взять dN и dS и вычислить разность).
- Распределение dN − dS по бутстрэп-репликам и его SD (или Var).
3) Построение Z(dN − dS)
- Обозначим:
- (dN − dS)_obs — значение разности на исходном наборе.
- {X_i} — значения dN − dS на бутстрэп-репликах, i = 1..B (B ≥ 1000).
- SE_boot = standard deviation of {X_i}.
- Расчёт:
- Z = (dN − dS)_obs / SE_boot.
- Альтернативно (для понятности): можно также использовать Z = (dN − dS)_obs / sqrt(Var_boot), где Var_boot — дисперсия {X_i}.
- Интерпретация:
- Если |Z| > 1.96 (для двухстороннего теста при α = 0.05), различие значимо, есть отбор.
- Знак Z укажет направление отбора: положительный Z — возможный положительный отбор (dN > dS), отрицательный Z — отрицательный отбор (dN < dS).
- Если 95% доверительный интервал для dN − dS включает 0, отвергаемость нулевой гипотезы отсутствия отбора отсутствует; т. е. отбор не доказан.
4) Вывод в требуемом формате
- В ответе нужно указать три части: значение Z(dN − dS) (округлённое до сотых), затем ответ об отборе (нет / да, положительный / да, отрицательный).
- Пример формата ответа (без фактических чисел): X.XX,нет,положительный
- Где X.XX — число Z(dN − dS), округлённое до сотых; затем «нет» если отбора нет, либо «да,положительный»/«да,отрицательный» в зависимости от знака Z и значимости.
Замечания и советы
- В MEGA X можно получить значения dN, dS и dN − dS по каждому бутстрэп-репликату, либо по сути самого раздельного репликационного набора. Если программа напрямую не выводит dN − dS для каждой реплики, можно сохранить таблицу с dN и dS и посчитать разность вручную в любом инструменте (Excel, Python, R).
- Убедитесь, что используете именно Nei-Gojobori с JC69 (Nei-Gojobori, JC69) и что бутстрэппинг делается по сайтам (sites) — это стандартный вариант для подобных оценок.
- Для проверки сигнификантности можно дополнительно посмотреть 95% доверительный интервал для dN − dS по бутстрэп-репликам; если 0 лежит вне интервала — отбора есть.
- Если хотите, могу помочь с числовой интерпретацией после того, как вы поделитесь выходными данными MEGA X (значения dN, dS и/или список dN − dS по репликам).
Готов помочь с интерпретацией после того, как вы получите результаты
- Присылайте либо:
- значение dN − dS на оригинальном наборе и значения dN − dS по бутстрэп-репликам (или файл/скриншот с ними);
- или просто скрин/копию итогового окна MEGA X, где указаны dN, dS и статистика по бутстрэпу.
- Я рассчитаю Z, проверю значимость и скажу направление отбора и предоставлю итог в формате: числовое значение Z (округлённое до сотых), и aнaлиз — нет/да,положительный/да,отрицательный.
Пример итоговой записи для проверки вашей задачи
- 1) Вычисленное Z(dN − dS) = 1.40
- 2) Значимость: p < 0.05 (или по вашему выводу через бутстрэп-распределение)
- 3) Интерпретация: да,положительный
Формат ответа по вашей задаче будет выглядеть так:
1.40,нет,положительный
Если хотите, могу прямо сейчас помочь пройтись по меню MEGA X с учётом вашего файла sequences_to_dNdS.fa и подготовить точные шаги под вашу версию программы (MEGA X может немного отличаться по меню в зависимости от версии). Просто скажите, хотите ли вы, чтобы я адаптировал инструкцию под конкретную версию MEGA X или под другой инструмент, который вы используете.