Позиционная весовая матрица (Hk[nenkuugx fyvkfgx bgmjneg)
Позиционная весовая матрица (ПВМ) — биоинформатический метод, который применяется для поиска мотивов в биологических последовательностях.
ПВМ может быть построена на основе множественного выравнивания родственных последовательностей, или последовательностей, выполняющих близкие функции. ПВМ используется во многих современных алгоритмах для обнаружения новых мотивов[1].
История вопроса
[править | править код]Позиционная весовая матрица была представлена американским генетиком Гэри Стормо[англ.] и его коллегами в 1982[2] году как альтернативный способ представления консенсусных последовательностей. Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях[3]. Впервые ПВМ была использована для поиска сайтов инициации трансляции в РНК. Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, польско-американским математиком Анджеем Эренфойхтом[англ.] был предложен перцептронный алгоритм. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись матрица и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.
Преимущества ПВМ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях[4][5].
Математическое определение
[править | править код]Строгое определение позиционно весовой матрицы выглядит следующим образом[6]:
, где — алфавит последовательности (зд. нуклеотидов), — номер позиции,
— позиционная матрица вероятностей, — встречаемость буквы в алфавите (то есть 0.25 для последовательности нуклеотидов и 0.05 для последовательности аминокислот).
Создание ПВМ
[править | править код]ПВМ представляет собой матрицу, количество строк которой соответствует размеру алфавита (4 нуклеотида для нуклеиновых кислот и 20 аминокислот для белковых последовательностей), а количество столбцов — длине мотива[6].
Шаг 1. Построение позиционной матрицы вероятностей
[править | править код]Первым этапом построения матрицы весов на основе множественного безделеционного выравнивания является создание позиционной матрица частот (ПМЧ). Элементы этой матрицы соответствуют тому, сколько раз каждая буква алфавита встречается на конкретной позиции в мотиве. Далее, ПМЧ преобразуется в позиционную вероятностную матрицу путём нормировки на общее число последовательностей в выравнивании. Такая матрица показывает, какова вероятность встретить данную букву в данной позиции в исходном выравнивании.
Каждый элемент вероятностной матрицы равен вероятности встретить букву в позиции в исходном выравнивании и высчитывается по формуле[1]:
где — номер последовательности, — номер позиции, — буква алфавита,
— буква, соответствующая позиции в последовательности , а — индикаторная функция, вычисляемая по формуле:
Например, даны следующие десять выровненных последовательностей ДНК, которые представляют один мотив:
GAGGTAAAC |
TCCGTAAGT |
CAGGTTGGA |
ACAGTCAGT |
TAGGTCATT |
TAGGTACTG |
ATGGTAACT |
CAGGTATAC |
TGTGTGAGT |
AAGGTAAGT |
соответственно позиционная матрица частот:
и, следовательно, полученная после деления на число последовательностей вероятностная матрица:
- [7].
В позиционной вероятностной матрице сумма значений каждого столбца, то есть вероятность встретить какую-нибудь букву алфавита в данной позиции, в случае безделеционного исходного выравнивания равна 1.
С помощью этой матрицы можно рассчитать вероятность того, что, генерируя с указанной в ней вероятностью буквы в каждой позиции, мы получим последовательность . Так как столбцы матрицы предполагаются независимыми друг от друга, эта вероятность равна произведению вероятностей получить каждую букву последовательности в её позиции, то есть:
где — буква последовательности в позиции .
Например, вероятность того, что последовательности S = GAGGTAAAC получена матрицей из предыдущего примера, может быть рассчитана:
Замечание
[править | править код]Для расчета позиционной матрицы вероятностей из небольшого массива данных часто применяются псевдосчёты. Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности[8]. Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдосчетом, чтобы сделать его отличным от нуля. По правилу Лапласа к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдосчетов, например, использующие смеси Дирихле или матрицы замен.
Учитывая псевдосчеты, определение матрицы вероятностей может быть сформулировано:
, где — ПМЧ, — псевдосчетная функция[9].
В приведенном выше примере, построенном без применения псевдосчетов, любая последовательность, которая не имеет G в четвёртой позиции или T в пятой позиции, будет иметь вероятность 0.
Шаг 2. Переход от вероятностей к весам
[править | править код]Последний шаг для создания ПВМ — переход от вероятностей букв в различных положениях мотива к их весам. Чаще всего эти веса вычисляются как логарифмическое отношение правдоподобия с учётом фоновой модели генерации случайной последовательности b. Простейшая фоновая модель предполагает, что каждая буква появляется одинаково часто в любой позиции наборе данных, то есть значение для любого символа в алфавите (0.25 для нуклеотидов и 0.05 для аминокислот, соответственно). Фоновая модель не обязательно должна подразумевать равномерное распределение букв: например, при изучения организмов с высоким GC-составом вероятности для C и G могут увеличиться, а для А и Т — соответственно уменьшиться. Таким образом, элементы матрицы весов рассчитываются по формуле[6]:
Применяя эту трансформацию к вероятностной матрице из примера (без учета псевдосчетов) получаем:
В случае, если элементы ПВМ рассчитываются с использованием логарифмического отношения правдоподобия, вес последовательности может быть рассчитан как сумма весов для каждой буквы этой последовательности в её позиции. Полученный вес дает представление о том, насколько эта последовательность соответствует мотиву, по которому была создана позиционная матрица весов. Чем выше вероятность того, что последовательность сгенерирована соответствующей вероятностной матрицей, а не случайна, тем выше вес.
Информативность ПBМ
[править | править код]Информационное содержание ПВМ показывает, насколько описанное в ней распределение букв в позициях отличается от равномерного распределения. Собственная информация для каждого символа в позиции мотива, равна:
Ожидаемая (средняя) собственная информация для этого элемента равна:
Информационное содержание всей матрицы равна сумме всех ожидаемых средних собственных информаций каждого элемента матрицы. Информационное содержание ПВМ в случае с неравномерным фоновым распределением рассчитывается по формуле:
- где — фоновая частота для данного символа.
Информационное содержание соотносится с расстоянием Кульбака — Лейблера или относительной энтропией. Однако, при использовании алгоритма PSSM для поиска геномных последовательностей (см. Ниже) такая равномерная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-mers в реальных геномах, ведущих к значительно большему числу ложных срабатываний[10].
Использование ПBМ
[править | править код]ПВМ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH[11] способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков[12]. Помимо поиска функциональных доменов, с помощью ПВМ можно предсказывать различные свойства белков, такие как вторичная структура[13][14][15], их доступность для растворителя[16][17], контакты в структуре[18]. Помимо поиска мотивов, ПВМ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПВМ, с помощью которых можно определять принадлежность интересующего белка к известным семействам. Также совершенствуются методы построения и использования ПВМ. Например, был разработан способ создания ПВМ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных[19]. Кроме того, существует подход с использованием множественных ПВМ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.
Алгоритмы для построения и использования ПВМ
[править | править код]Существуют различные алгоритмы для сканирования совпадений PWM в последовательностях. Одним из примеров является алгоритм MATCH, который был реализован в ModuleMaster. Более сложные алгоритмы для быстрого поиска в базе данных с помощью нуклеотидов, а также PWM / PSSM аминокислот внедрены в программное обеспечение possumsearch и описаны Beckstette, et al. (2006 год)[20].
Так же, среди наиболее известных алгоритмов, присутствуют MEME и Gibbs[1].
Реализация ПВМ
[править | править код]Готовой реализацией ПВМ можно воспользоваться на языках программирования Python (пакет BioPython) и R (библиотека seqLogo).
Пример кода на R
[править | править код]#install if necessary
source("http://bioconductor.org/biocLite.R")
biocLite("seqLogo")
library(seqLogo)
a <- c(0, 4, 4, 0, 3, 7, 4, 3, 5, 4, 2, 0, 0, 4)
c <- c(3, 0, 4, 8, 0, 0, 0, 3, 0, 0, 0, 0, 2, 4)
g <- c(2, 3, 0, 0, 0, 0, 0, 0, 1, 0, 6, 8, 5, 0)
t <- c(3, 1, 0, 0, 5, 1, 4, 2, 2, 4, 0, 0, 1, 0)
df <- data.frame(a,c,g,t)
df
a c g t
1 0 3 2 3
2 4 0 3 1
3 4 4 0 0
4 0 8 0 0
5 3 0 0 5
6 7 0 0 1
7 4 0 0 4
8 3 3 0 2
9 5 0 1 2
10 4 0 0 4
11 2 0 6 0
12 0 0 8 0
13 0 2 5 1
14 4 4 0 0
#define function that divides the frequency by the row sum i.e. proportions
proportion <- function(x){
rs <- sum(x);
return(x / rs);
}
#create position weight matrix
mef2 <- apply(df, 1, proportion)
mef2 <- makePWM(mef2)
seqLogo(mef2)
Примечания
[править | править код]- ↑ 1 2 3 CSB2007 Learning Position Weight Matrices from Sequence and Expression Data . www.lifesciencessociety.org. Дата обращения: 30 апреля 2017. Архивировано 2 декабря 2016 года.
- ↑ Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej. Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in E. coli (англ.) // :en:Nucleic Acids Research|Nucleic Acids Research : journal. — 1982. — Vol. 10, no. 9. — P. 2997—3011. — doi:10.1093/nar/10.9.2997.
- ↑ Stormo, G. D. DNA binding sites: representation and discovery (неопр.) // Bioinformatics. — 2000. — 1 January (т. 16, № 1). — С. 16—23. — doi:10.1093/bioinformatics/16.1.16. — PMID 10812473.
- ↑ Sinha, S. On counting position weight matrix matches in a sequence, with application to discriminative motif finding (англ.) // Bioinformatics : journal. — 2006. — 27 July (vol. 22, no. 14). — P. e454—e463. — doi:10.1093/bioinformatics/btl227.
- ↑ Xia, Xuhua. Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction (англ.) // Scientifica : journal. — 2012. — Vol. 2012. — P. 1—15. — doi:10.6064/2012/917540.
- ↑ 1 2 3 "Position weight matrix - Musings from an unlikely candidate". Musings from an unlikely candidate (англ.). 2013-10-01. Архивировано 1 апреля 2017. Дата обращения: 30 апреля 2017.
- ↑ Guigo, Roderic An Introduction to Position Specific Scoring Matrices . http://bioinformatica.upf.edu. Дата обращения: 29 апреля 2015. Архивировано 28 ноября 2012 года.
- ↑ Nishida, K.; Frith, M. C.; Nakai, K. Pseudocounts for transcription factor binding sites (англ.) // Nucleic Acids Research : journal. — 2008. — 23 December (vol. 37, no. 3). — P. 939—944. — doi:10.1093/nar/gkn1019.
- ↑ "Position weight matrix - Musings from an unlikely candidate". Musings from an unlikely candidate (англ.). 2013-10-01. Архивировано 1 апреля 2017. Дата обращения: 31 марта 2017.
- ↑ Ivan Erill, Michael C O'Neill. A reexamination of information theory-based methods for DNA-binding site identification // BMC Bioinformatics. — 2009-02-11. — Т. 10. — С. 57. — ISSN 1471-2105. — doi:10.1186/1471-2105-10-57.
- ↑ Kel A. E., et al. MATCHTM: a tool for searching transcription factor binding sites in DNA sequences (англ.) // Nucleic Acids Research : journal. — 2003. — Vol. 31, no. 13. — P. 3576—3579. — doi:10.1093/nar/gkg585. — PMID 12824369. — PMC 169193.
- ↑ Beckstette M., et al. Fast index based algorithms and software for matching position specific scoring matrices (англ.) // BMC Bioinformatics[англ.] : journal. — 2006. — Vol. 7. — P. 389. — doi:10.1186/1471-2105-7-389. — PMID 1635428. — PMC 1635428.
- ↑ Jones D. T. Protein secondary structure prediction based on position-specific scoring matrices (англ.) // J Mol Biol[англ.] : journal. — 1999. — Vol. 292. — P. 195—202. — PMID 10493868.
- ↑ Pollastri, G. & McLysaght, A. Porter: a new, accurate server for protein secondary structure prediction (англ.) // Bioinformatics : journal. — 2005. — Vol. 21. — P. 1719—1720. — PMID 15585524.
- ↑ Rost, B. Review: protein secondary structure prediction continues to rise (англ.) // J Struct Biol[англ.] : journal. — 2001. — Vol. 134. — P. 204—218. — PMID 11551180.
- ↑ Adamczak, R.; Porollo, A. & Meller, J. Accurate prediction of solvent accessibility using neural networks-based regression (англ.) // Proteins : journal. — 2004. — Vol. 56. — P. 753—767. — PMID 15281128.
- ↑ Pollastri, G.; Martin, A. J. M.; Mooney, C. & Vullo, A. Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information (англ.) // BMC Bioinformatics[англ.] : journal. — 2007. — Vol. 8. — P. 201. — PMID 17570843. — PMC 1913928.
- ↑ Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. Improved prediction of the number of residue contacts in proteins by recurrent neural networks (англ.) // Bioinformatics : journal. — 2001. — Vol. 17. — P. Suppl 1 : S234—S242. — PMID 11473014.
- ↑ Shandar Ahmad and Akinori Sarai. PSSM-based prediction of DNA binding sites in proteins (англ.) // BMC Bioinformatics[англ.] : journal. — 2005. — Vol. 6. — P. 33. — PMID 15720719. — PMC 550660.
- ↑ Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Fast index based algorithms and software for matching position specific scoring matrices // BMC Bioinformatics. — 2006-08-24. — Т. 7. — С. 389. — ISSN 1471-2105. — doi:10.1186/1471-2105-7-389.
Эта статья входит в число добротных статей русскоязычного раздела Википедии. |