Эта статья входит в число хороших статей

ChIP-seq (ChIP-seq)

Перейти к навигации Перейти к поиску

ChIP-seq — метод анализа ДНК-белковых взаимодействий, основанный на иммунопреципитации хроматина (ChIP) и высокоэффективном секвенировании ДНК. Метод был разработан для изучения модификаций гистонов по всему геному[1][2], а также поиска мест связывания транскрипционных факторов[3]. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был ChIP-on-chip[англ.], сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах[4].

Диаграмма, иллюстрирующая ChIP-seq

Иммунопреципитация хроматина (ChIP)

[править | править код]

Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках[5]. Типичная методика включает в себя следующие стадии[5]:

  • образование обратимых сшивок между ДНК и взаимодействующими с ней белками (обычно с помощью обработки формальдегидом)
  • выделение ДНК и расщепление на фрагменты ультразвуком или эндонуклеазами
  • осаждение специфическими к исследуемому белку антителами, пришитыми к белкам A/G на поверхности магнитных бусин
  • разрушение сшивок между белком и ДНК, очистка ДНК

В результате выделится вся ДНК, но образец будет обогащён фрагментами, с которыми был связан исследуемый белок[5].

Секвенирование

[править | править код]

Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения[6]. В ChIP-seq чаще используется одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов)[7]. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150—500 п .н., а полученные риды чаще всего имеют длину 50 п. н.[7]

Биоинформатический анализ

[править | править код]

Биоинформатический анализ включает в себя следующие стадии[5]:

  • Фильтрация чтений с низким качеством
Для фильтрации полученных ридов можно использовать программные пакеты FastQС и FastX ToolKit[8]. Определение качества чтений базируется на Phred quality score[англ.] — весе, который присваивается каждому нуклеотиду при его прочтении. Для оценки и улучшения качества ридов могут быть использованы такие программные пакеты, как Gencore, FQStat, Picard и Cutadapt. Gencore удаляет повторяющиеся риды, оставляя один консенсусный. Благодаря этому на выходе получаются более чистые данные чем в случае простого удаления дубликатов. Picard — набор инструментов позволяющий работать с альтернативными форматами: SAM / BAM / CRAM и VCF. FQStat — автономный, независимый от платформы программный пакет инструментом, который оценивает качество файлов FASTQ с помощью параллельного программирования. Помимо этого Illumina предоставлят внутреннюю услугу по проверке качества ридов Illumina chastity filter.
Также для улучшения качества чтений может быть полезен «тримминг» — обрезание концов чтений с низким качеством, получающихся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг производится с помощью программы Trimmomatic[9].
  • Картирование чтений на геном
Картирование представляет собой определение того, какой именно участок и какой хромосомы был прочитан данным конкретным чтением. Для картирования чтений на геном могут использоваться такие программные пакеты, как BWA, Bowtie, Bowtie 2 и GSNAP[6].
  • Фильтрация артефактов и чтений, откартированных в несколько мест
Чтения, получаемые в результате массивного параллельного секвенирования, обычно имеют небольшую длину (100—200 нуклеотидов), тогда как в средней эукариотической хромосоме порядка 100 миллионов нуклеотидов. Картирование чтений на геном не всегда представляет собой тривиальную задачу из-за наличия в геноме эукариот большого числа повторов (например, LINE[англ.] и SINE — повторы, составляющие соответственно 17 % и 11 % от последовательности ДНК человека), и, таким образом, чтения повторов могут картироваться сразу в нескольких местах. Обычно для анализа (например, транскрипционных факторов) достаточно уникально откартированных ридов, однако в некоторых случаях в анализ включают и риды, картированные на несколько участков[7]. В качестве альтернативы для поправки на потерянный в плохо картируемых областях сигнал может использоваться картируемость — показатель, зависящий от различных параметров эксперимента и анализа, в том числе от длины ридов и программ, используемых для обработки данных[10].
Для фильтрации может быть использован программный пакет SAMTools[11][6].
  • Определение качества картирования
После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был)[6].
Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования, неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.).
Для определения всего вышеперечисленного используется программный пакет CHANCE[8].
  • Выявление сайтов связывания
После картирования ридов на геном для выявления сайтов (участков) связывания вначале оценивается уровень покрытия. Далее выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдение баланса между чувствительностью и специфичностью[8].
Некоторые из программных пакетов, которые можно использовать для решения этой задачи — SPP, PeakSeq[10], MACS, MACS 2, UGENE[6]. Результатом работы этих программ является список участков, отранжированный либо по величине абсолютного сигнала (то есть числу ридов), либо по значимости обогащения (например, по p-value или FDR[англ.]). Выбор подходящего метода зависит от изучаемого вида и белка и условий эксперимента. Разные программы используют разные предположения и допущения для вычисления p-value и FDR. Например, SPP и исходная версия MACS используют только данные эксперимента ChIP-Seq и контроля (при его наличии), в то время как MOSAiCS учитывает показатель картируемости и GC-состав. Поэтому сравнивать результаты работы разных алгоритмов вызова пиков достаточно затруднительно. Многие работы по сопоставлению алгоритмов используют валидацию числа найденных пиков с помощью данных экспериментов ChIP-on-Chip, qPCR и т. д.[12][13][14]. Ситуация также осложняется плохой аннотированностью истинных сайтов связывания, поэтому при поиске пиков для белка с неизвестным сайтом связывания необходимо использовать отрицательные контроли[7].
  • Аннотация сайтов связывания
Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть промотор, участок начала транскрипции, межгенный участок и т. п.[6].
Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из геномных браузеров[англ.]; можно также получить текстовый файл с аннотацией с помощью Diffbind, CEAS или ChIPpeakAnno[8].
В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм MEME, Гиббс-семплер[8], ChIPMunk. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq[8].

Характеристики метода

[править | править код]

При дизайне эксперимента ChIP-seq и дальнейшем биоинформатическом анализе необходимо учитывать некоторые факторы и ограничения методики[7]:

Неравномерная фрагментация и контроль

[править | править код]

Доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее, поэтому соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и, следовательно, будут менее представлены в образце, что может привести к ложно-отрицательному результату[7].

Из-за неравномерной фрагментации и других факторов важно использовать правильный контроль. Консорциум ENCODE описывает два основных типа контролей[15]. В первом варианте в качестве контроля используется ДНК, выделенная из клеток в тех же условиях, но без преципитации (так называемый контроль входной («input») ДНК). Во втором типе проводится ещё один эксперимент ChIP с использованием антител, которые связывают незначимые внеядерные антигены (так называемый «IgG контроль»). В обоих случаях глубина секвенирования должна быть не меньше глубины эксперимента ChIP-seq[15].

Количество клеток

[править | править код]

У классической методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом. Для преодоления данного ограничения был разработан ряд методов, основанных на амплификации ДНК после ChIP-seq (например, nano-ChIP-seq). ChIP-seq отдельных клеток (англ. Single-cell ChIP-seq) очень сложен из-за фонового шума, вызванного неспецифическим связыванием антител, и к середине второго десятилетия XXI века была опубликована лишь одна работа, в которой Single-cell ChIP-seq осуществлён успешно. В этом исследовании использовали капельную микрофлюидику, и из-за низкого покрытия потребовалось отсеквенировать тысячи клеток, чтобы выявить клеточную гетерогенность[16].

Отношение сигнал/шум

[править | править код]

Отношение сигнал/шум (S/N) определяется числом и мощностью пиков, полученных для каждого образца, и может быть использовано для оценки уровня шума. Высокое значение S/N не гарантирует правильность определения сайтов связывания, а всего лишь отражает наличие большого количества участков генома, на которые откартировалось много ридов[7]. Для определения этого показателя ENCODE предлагает две метрики[15]:

  • доля ридов в пиках (fraction of reads in peaks, FRiP) положительно коррелирует с числом и интенсивностью пиков и определяется как FRiP = ¼ Npeak/Nnonred, где Npeak — число ридов, откартированных в районы пиков. К минусам этого показателя относится тот факт, что он зависит от глубины секвенирования и параметров поиска пиков, но в целом он положительно коррелирует с числом найденных пиков;
  • кросс-корреляционные профили (cross-correlation profiles, CCPs) используют кластеризацию ридов на основании кросс-корреляции Пирсона без предварительного поиска пиков, что отличает этот метод от FRiP.

Глубина секвенирования

[править | править код]

Глубина секвенирования (покрытие) — число уникальных ридов, откартированных на данный участок референсного генома. Глубина секвенирования влияет на выявление пиков: их число растёт с увеличением глубины секвенирования, так как с ростом числа ридов большее количество сайтов становится статистически значимым[17]. Поэтому для распознавания всех функциональных сайтов необходимо глубокое секвенирование[7].

Значение достаточного уровня покрытия зависит от отношения сигнал/шум антитела и может быть определено как глубина секвенирования, при которой отношение числа пиков из случайно взятой подвыборки ридов к числу пиков из полной выборки ридов выходит на плато. Такое насыщение может быть достигнуто не всегда (например, его нет для гистонов), и в таких случаях эта величина задаётся эмпирически[7].

Сложность библиотеки

[править | править код]

Сложность библиотеки (NRF) определяется как отношение числа необогащенных ридов Nnonred к общему числу откартированных ридов Nall. Необогащенные риды определяются как риды, откартированные на один и тот же участок генома T раз и меньше (значение T задаётся в качестве параметра). Обогащённые риды (риды, не вошедшие в Nnonred) не рассматриваются в дальнейшем анализе. Для человека параметр T обычно берут равным 1, так как ожидаемая глубина секвенирования в этом случае обычно намного меньше единицы. Для маленьких геномов глубина секвенирования может быть больше 1, поэтому стоит взять большее значение T. При сравнении показателя NRF для разных образцов, стоит помнить, что он зависит от общего количества откартированных ридов[7].

Показатель NRF уменьшается с увеличением глубины секвенирования библиотеки. При это в конечном итоге достигается точка, в которой сложность будет максимальна и будет происходить секвенирование одних и тех же фрагментов ДНК, амплифицированных с помощью ПЦР. Низкая сложность библиотеки может возникнуть, например, если в процессе иммунопреципитации выделяется очень небольшое количество ДНК[15].

Чувствительность

[править | править код]

Чувствительность технологии зависит от глубины секвенирования, длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений[6]. Для белков с бо́льшим числом сайтов связывания (РНК-полимераза III) потребуется до 60 миллионов чтений[6]. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений[6]. Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-Chip, в котором чувствительность не связана со стоимостью анализа[6].

Ещё одно отличие от ChIP-методов, основанных на ДНК-микрочипах, заключается в том, что точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-Chip данные ChIP-seq могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам[18].

Точность и специфичность

[править | править код]

Длина типичного участка связывания белка составляет 6—20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным. Кроме того, полученные библиотеки часто могут содержать участки ДНК, не связанной с исследуемым белком, что приводит к ошибкам в результатах. Существуют различные модификации метода, направленные на повышение точности (например, ChIP-exo). Качество эксперимента ChIP-seq также прямо зависит от специфичности антител и степени обогащения образца на стадии иммунопреципитации. Главными проблемами могут быть низкая реактивность антитела против нужного белка и/или кросс-реактивность по отношению к другим белкам. Консорциум ENCODE предлагает несколько методик для оценки специфичности антител[15].

Для осуществления иммунопреципитации также можно пришить к исследуемому белку эпитоп. Такой способ решает обе проблемы, возникающие при иммунопреципитации антителами, однако в этом случае пришиваемый тэг может влиять на исследуемый белок (например, изменять уровень его экспрессии или способность связывания)[15].

Альтернативные методы

[править | править код]

ChIP-on-chip[англ.], сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах[4], ранее был самым популярным методом для установления ДНК-белковых взаимодействий. Chip-seq и ChIP-on-chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq[4]. Сравнение методов Chip-seq и ChIP-on-Chip представлено в таблице[4]:

Показатель ChIP-seq ChIP-on-Chip
Количество исходной ДНК менее 10 нг 4 мкг
Гибкость метода да: полногеномный анализ любого отсеквенированного организма есть ограничения: доступность ДНК-микрочипов
Точность определения позиции участка связывания +/- 50 пн +/- 500 − 1000 пн
Чувствительность вариабельная: увеличивая количество чтений, можно увеличить чувствительность слабая: зависит от качества гибридизации
Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен) исключена: каждая молекула ДНК секвенируется отдельно может быть значительной, что сильно снижает точность анализа

DamID[англ.] (DNA adenine methyltransferase identification) позволяет картировать сайты ДНК-белковых взаимодействий в клетках эукариот. Для этого в клетках экспрессируется химерный белок, состоящий из интересующего белка и ДНК аденин метилтрансферазы (Dam) E. coli, которая метилирует аденины в последовательности GATC. У большинства эукариот эндогенное метилирование аденина в сайтах GATC не происходит. Когда исследуемый белок, слитый с Dam, связывается с ДНК или другими ДНК-ассоциированными белками, Dam метилирует остатки аденина в ДНК, окружающей сайт связывания, таким образом данный метод позволяет маркировать сайты взаимодействия целевого белка с ДНК и ДНК-ассоциированными белками. Чтобы идентифицировать последовательности, метилированные химерным белком, метилированные фрагменты селективно амплифицируются и гибридизуются на микрочипах[19].

Селективная амплификация метилированных фрагментов ДНК основана на специальном ПЦР-протоколе. Сначала ДНК, метилированная в сайтах GATC, разрезается между GAm and TC нуклеотидами рестриктазой DpnI. Расщепление с помощью DpnI приводит к образованию фрагментов ДНК с тупыми концами 5’ TC и 3’ GAm. После этого к полученным фрагментам лигируются двухцепочечные адапторы. Продукты лигирования затем расщепляются эндонуклеазой рестрикции DpnII[англ.]. DpnII разрезает ДНК по неметилированным сайтам GATC, благодаря этому впоследствии амплифицируются только фрагменты, фланкированные последовательно метилированными сайтами GATC (то есть сайтами, между которыми не встречаются неметилированные сайты GATC). Затем проводится ПЦР с праймерами, комплементарными к адапторам, и таким образом специфично амплифицируются геномные фрагменты с метилированными сайтами GATC по краям[20].

Модификации метода

[править | править код]

Со времени изобретения ChIP-Seq было придумано множество модификаций этого метода, которые позволяют более эффективно выполнять те или иные подзадачи.

Данный метод применяется для определения взаимодействий участков хроматина, расположенных на значительном удалении друг от друга в геноме[21]. В основе ChIA-PET лежит теория проксимального лигирования (англ. proximity ligation), гласящая, что концы участков хроматина, связанных с белковым комплексом, находящиеся рядом, будут лигироваться друг на друга с большей вероятностью, чем концы участков, находящихся в растворе или связанных с другим белковым комплексом.

Существует множество методов исследования дальних взаимодействий хроматина, но они требуют большого количества клеток для анализа. Для преодоления этого ограничения был разработан метод PLAC-seq (Proximity Ligation-Assisted ChIP-seq), в котором сшивка сближенных участков осуществляется в ядре до фрагментации хроматина и иммунопреципитации. PLAC-seq демонстрирует лучшую точность, эффективность и воспроизводимость по сравнению с ChIA-PET при определении дальних контактов в клетках млекопитающих[22].

Метод nano-ChIP-seq основан на том, что выделенная в ходе эксперимента ChIP ДНК амплифицируется с помощью ПЦР и уже после этого секвенируется[23]. Это позволяет проводить анализ на малом количестве клеток, обычно около 10 тысяч. Тем не менее, достаточное число клеток зависит от множества факторов, таких как эффективность антител и обогащённость образца целевым белком, поэтому в каких-то случаях может понадобиться больше 10 тысяч клеток[23].

ChIP-exo и ChIP-nexus

[править | править код]

Метод ChIP-exo[англ.] — модификация протокола ChIP-seq, позволяющая улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза[англ.] для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции на каком-то фиксированном расстоянии от места связывания белка[24]. Так как в результате эксперимента ChIP образуются ДНК-фрагменты обеих цепей, выровненные 5′ концы картируются на две позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз бо́льшим отношением сигнал-шум по сравнению с ChIP-seq и ChIP-on-Chip[24].

Модификацией протокола ChIP-exo является протокол ChIP-nexus[25] (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. Так же, как и в протоколе ChIP-exo, проводится обработка λ-экзонуклеазой, которая расщепляет ДНК с 5'-конца до физического препятствия в виде связанного с ДНК белка. После этого проводится внутримолекулярная циркуляризация ДНК, а затем релинеаризация путём обработки рестриктазой BamHI[25]. Таким образом по краям интересующего фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку[25].

Competition-ChIP — модификация протокола ChIP-seq, использующаяся для измерения относительной динамики связывания транскрипционных факторов с ДНК[26]. Идея метода основана на экспрессии двух копий изучаемого транскрипционного фактора с разными эпитопными метками. Одна из этих копий экспрессируется на постоянной основе, а экспрессия второй, выступающей в качестве конкурента, индуцибельна. Соотношение изоформ, ассоциированных с определёнными локусами, определяется либо с помощью ChIP-seq, либо ChIP-on-chip. Скорость замены конститутивно экспрессирующейся формы на индуцибельную позволяет рассчитать время пребывания исследуемого фактора на каждом сайте связывания.

CLIP-seq[англ.] (также известный как HITS-CLIP — high-throughput sequencing of RNA isolated by crosslinking immunoprecipitation) — метод исследования РНК-белковых взаимодействий и модификаций РНК in vivo[27].

DRIP-seq и DRIVE-seq

[править | править код]

R-петли — трехцепочечные структуры, образованные вытесненной одноцепочечной ДНК (оцДНК) и дуплексом РНК-оцДНК. In vivo на их долю приходится примерно 5-8 % генома. Через регуляцию связывания различных белков R-петли участвуют во многих клеточных процессах, таких как, например, дифференциация эмбриональных стволовых клеток[28]. Для исследования R-петель был разработан метод DRIP-seq[англ.] (DNA:RNA ImmunoPrecipitation and sequencing), который по сути очень похож на ChIP-Seq, но основан на использовании специфичных к R-петлям антител[29]. Другим способом исследования R-петель является метод DRIVE-seq (DNA:RNA In Vitro Enrichment and sequencing), в котором вместо антител используется инактивированная эндонуклеаза MBP-RNASEH1[29]. DRIVE-seq может быть использован для уточнения предсказаний, полученных с помощью DRIP-seq. Оба метода позволяют точно и практически количественно оценить число R-петель. Впервые DRIP-seq был использован для изучения R-петель в геноме человека: было показано, что большое их количество содержится в CpG островках[англ.] промоторов[29].

Метод CETCh-seq создан для того, чтобы при изучении ДНК-белковых взаимодействий преодолеть такую техническую проблему, как доступность подходящих для ChIP-seq экспериментов антител. С помощью геномного редактирования с использованием CRISPR/Cas9 к интересующим белкам, например, транскрипционным факторам, присоединяется эпитоп для дальнейшего распознавания подходящими антителами[30].

CUT&RUN[англ.] — модификация ChIP-seq, позволяющая сильно поднять соотношение сигнал/шум. Эффект достигается за счёт использования микрококковой нуклеазы, слитой с белком А, на стадии иммунопреципитации[31].

CUT&Tag[англ.] — метод, аналогичный CUT&RUN, однако вместо микрококковой нуклеазы используется транспозаза Tn5. Преимущество этого метода над CUT&RUN заключается в том, что он не требует лизирования клеток и фракционирования хроматина[32].

Применение

[править | править код]

ChIP-seq в принципе применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина. Типичным примером использования метода ChIP-seq является определение участков связывания транскрипционных факторов, ДНК-полимеразы, структурных белков, а также модификаций гистонов и структуры хроматина[6]. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов (DNase-Seq и FAIRE-Seq) для определения свободных от нуклеосом участков ДНК[6].

Поиск мотивов

[править | править код]

Одной из основных целей ChIP-seq экспериментов является поиск в последовательности ДНК мотивов для связывания белков. Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме[6]. Наиболее широко используемый инструмент для обнаружения мотивов — алгоритм MEME (Multiple EM for Motif Elicitation). Часто множество мотивов может быть найдено на основе одного датасета и анализ мотивов может быть проведён даже на ChIP-seq данных низкого качества, но значимость и достоверность таких мотивов будет ниже[33].

Поиск участков с биологической функцией

[править | править код]

Данные экспериментов ChIP-seq часто используются для определения регуляторных участков для интересующего локуса[15]. В частности, ChIP-seq широко используется для изучения бактериальных регулонов[34]. Для этого после нахождения участков связывания производится поиск предполагаемых регулируемых генов[34].

Дифференциальный анализ

[править | править код]

Определение различий между профилями ChIP-Seq при разных условиях производится после вызова пиков. Пики, полученные в разных экспериментах, сливаются затем в один список. Для дальнейшего определения участков-кандидатов часто используются программы для анализа дифференциальной экспрессии генов, например, DESeq2[35] и edgeR[36]. Эти программы способны проводить дифференциальный анализ, обрабатывая списки полученных пиков как списки «генов». Существуют также программы, разработанные специально для дифференциального анализа данных ChIP-Seq (например, DiffBind[37], ChIPComp[38], DBChIP[39]), которые работают по схожему принципу. Многие другие программы (например, PePr[40]) используют модели, не требующие предварительного вызова пиков[40].

Исследование состояния хроматина

[править | править код]

Метилирование ДНК и модификации гистонов претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Используются также общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных[33][41].

Анализ аллельного дисбаланса

[править | править код]

Всё больший интерес вызывает анализ данных ChIP-Seq со внутренним контролем по другому аллелю для выявления аллельного дисбаланса[42]. При этом данные, полученные из эксперимента ChIP-Seq, используются для поиска связи биологических сигналов с однонуклеотидными полиморфизмами (SNP)[42]. Данный анализ включает три стадии[43]:

  1. выравнивание ридов, то есть определение позиции в геноме и аллеля для каждого рида,
  2. подсчёт числа достоверно откартированных ридов для каждого SNP для каждого аллеля,
  3. ранжирование возможных SNP и статистическая оценка аллельного дисбаланса.

Для первых двух этапов важна правильная стратегия картирования ридов на референсный геном, так как необходимо отличать ошибки секвенирования от реально существующих аллелей. Для третьего этапа разработано несколько программ, использующих разные статистические тесты, например, AlleleDB[44], NPBin[42] и WASP[45].

Типы данных в энциклопедии ДНК элементов (ENCODE)

Базы данных

[править | править код]

Геном многоклеточных организмов крайне сложен, и не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и описания того, как они действуют в течение времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE[46]. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как и ChIA-PET, позволяющих определить конформацию хромосом; DNase-seq и FAIRE-Seq, позволяющих определить свободные от нуклеосом участки; бисульфитного секвенирования и Infinium Methylation Assay, позволяющих определить наличие метилцитозинов в ДНК, RT-PCR и секвенирования РНК, позволяющих определить уровень экспрессии генов, а также CLIP-seq[англ.] и RIP-seq[англ.], позволяющих выявить РНК-белковые взаимодействия[46].

По состоянию на второе десятилетие XXI века существует ряд баз данных, содержащих результаты экспериментов ChIP-seq и их анализа:

  • ENCODE — на сайте проекта можно скачать координаты участков связывания ДНК с транскрипционными факторами или модифицированными гистонами, полученными в результате ChIP-seq. Содержит данные по различным клеточным линиям и тканям мыши и человека[47].
  • ChIP-Atlas — база данных для визуализации и использования общедоступных данных ChIP-seq. ChIP-Atlas охватывает почти все общедоступные данные ChIP-seq, представленные в SRA (Sequence Read Archives) в NCBI, DDBJ или ENA, и основан на более чем 118 000 экспериментов.[48]
  • modENCODE — проект, посвящённый анализу ДНК-элементов плодовой мушки D. melanogaster и нематоды C. elegans[49].
  • Factorbook — база данных, сгенерированная на основе ENCODE[50].
  • ChIPBase — помимо человека и мыши, доступны результаты экспериментов ChIP-seq собаки, курицы, дрозофилы и нематоды C. elegans[51].
  • ChEA — ChIP-seq человека, мыши и крысы, можно получить список участков связывания с различными белками, в которые попал исследуемый ген[52].
  • CTCFBSDB — база данных участков связывания инсулятора CTCF[53].
  • hmChIP — ChIP-seq и ChIP-chip человека и мыши[54].
  • HOCOMOCO — база данных участков связывания транскрипционных факторов человека[55].
  • JASPAR — профили участков связывания транскрипционных факторов на основе ChIP-seq различных эукариот[56].
  • SwissRegulon — база данных аннотированных регуляторных сайтов[57].
  • CistromeMap — ChIP-Seq и DNase-Seq человека и мыши[58].
  • CR Cistrome — интегрированная база данных регуляторов хроматина, доступны результаты экспериментов ChIP-seq человека и мыши[59].

Исследования

[править | править код]

В качестве примера успешного использования ChIP-seq для изучения эукариот можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что у дрожжей, возможно, имеются свободные от нуклеосом области промоторов (длиной примерно 150 н. п.), с которых РНК-полимераза может инициировать транскрипцию[60]. Данный метод также был успешно применён для поиска сайтов связывания 22 транскрипционных факторов в геноме нематоды C. elegans. Для 20 % всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции[61].

ChIP-seq также широко используется для изучения модификаций гистонов. Известно более 100 модификаций гистонов[62][63]. Наример, известно, что ацетилирование, в частности, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируется с открытыми и доступными областями хроматина (эухроматином). В то же время метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина (гетерохроматином). В частности, моно- и триметилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) обычно ассоциируется с открытым хроматином, причём каждая из этих меток представляет особую категорию открытого хроматина: H3K4me3 маркирует промоторные регионы, H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3), напротив, ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и H3K27me3 регулируют разные типы генов: H3K27me3 преимущественно подавляет гомеобоксные транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом «цинковые пальцы»[англ.][64]. Различные комбинации гистоновых меток могут обеспечить ещё более подробную информацию: например, присутствие сразу двух меток H3K4me3 (метки эухроматина) и H3K9me3 (метки гетерохроматина) на промоторе может быть идентификатором импринтируемых генов[65].

Прокариоты

[править | править код]

У бактерий регуляция экспрессии генов на уровне транскрипции осуществляется с помощью транскрипционных факторов[66]. Метод ChIP-seq может быть использован для определения участков связывания таких транскрипционных факторов. Некоторые бактериальные транскрипционные факторы имеют несколько сайтов связывания внутри промотора (то есть сайтов, расположенных на расстоянии менее 100 п.н.)[67]. Большинство алгоритмов поиска пиков определяют такие близко расположенные сайты как один. Для решения этой проблемы используются так называемые алгоритмы деконволюции пиков, например, CSDeconv[68], GEM[69], PICS[70] или dPeak[71].

Следующим шагом после определения сайтов связывания является определение регулируемых генов. Обычно ассоциация найденных пиков с генами выполняется алгоритмически с помощью поиска близлежащих сайтов старта транскрипции (transcription start site, TSS). Однако в случае бактерий (в том числе E. coli) TSS могут быть не определены для многих генов, поэтому вместо TSS можно искать близлежащие сайты старта трансляции, вручную исследовать геномное окружение пика или использовать данные экспрессии генов (например, сравнивать экспрессию регулонов в диком типе и при делеции исследуемого транскрипционного фактора на основании данных RNA-seq)[34].

Перспективы развития

[править | править код]

Текущие успехи метода ChIP-seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов[6].

Однако становится очевидным, что проблемы ChIP-seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию[18].

Перспективным направлением является интеграция данных, полученных из большого числа экспериментов, для разрешения и анализа сложных взаимодействий. Для этой цели часто применяются различные методы машинного обучения[72][73][74].

Примечания

[править | править код]
  1. Mikkelsen T. S., Ku M., Jaffe D. B., Issac B., Lieberman E., Giannoukos G., Alvarez P., Brockman W., Kim T. K., Koche R. P., Lee W., Mendenhall E., O'Donovan A., Presser A., Russ C., Xie X., Meissner A., Wernig M., Jaenisch R., Nusbaum C., Lander E. S., Bernstein B. E. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells. (англ.) // Nature. — 2007. — Vol. 448, no. 7153. — P. 553—560. — doi:10.1038/nature06008. — PMID 17603471.
  2. Barski A., Cuddapah S., Cui K., Roh T. Y., Schones D. E., Wang Z., Wei G., Chepelev I., Zhao K. High-resolution profiling of histone methylations in the human genome. (англ.) // Cell. — 2007. — Vol. 129, no. 4. — P. 823—837. — doi:10.1016/j.cell.2007.05.009. — PMID 17512414.
  3. Johnson D. S., Mortazavi A., Myers R. M., Wold B. Genome-wide mapping of in vivo protein-DNA interactions. (англ.) // Science (New York, N.Y.). — 2007. — Vol. 316, no. 5830. — P. 1497—1502. — doi:10.1126/science.1141319. — PMID 17540862.
  4. 1 2 3 4 Park P. J. ChIP-seq: advantages and challenges of a maturing technology. (англ.) // Nature reviews. Genetics. — 2009. — Vol. 10, no. 10. — P. 669—680. — doi:10.1038/nrg2641. — PMID 19736561.
  5. 1 2 3 4 Barbara Kaboord, Maria Perr. Isolation of proteins and protein complexes by immunoprecipitation (англ.) // Methods in Molecular Biology (Clifton, N.J.). — 2008-01-01. — Vol. 424. — P. 349–364. — ISSN 1064-3745. — doi:10.1007/978-1-60327-064-9_27. Архивировано 23 апреля 2017 года.
  6. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Terrence S. Furey. ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions (англ.) // Nature Reviews. Genetics. — 2012-12-01. — Vol. 13, iss. 12. — P. 840–852. — ISSN 1471-0064. — doi:10.1038/nrg3306. Архивировано 23 апреля 2017 года.
  7. 1 2 3 4 5 6 7 8 9 10 Ryuichiro Nakato, Katsuhiko Shirahige. Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation (англ.) // Briefings in Bioinformatics. — 2016-03-15. — P. bbw023. — ISSN 1477-4054 1467-5463, 1477-4054. — doi:10.1093/bib/bbw023. Архивировано 21 января 2022 года.
  8. 1 2 3 4 5 6 Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li. Practical guidelines for the comprehensive analysis of ChIP-seq data (англ.) // PLoS computational biology. — 2013-01-01. — Vol. 9, iss. 11. — P. e1003326. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003326. Архивировано 4 мая 2017 года.
  9. Anthony M. Bolger, Marc Lohse, Bjoern Usadel. Trimmomatic: a flexible trimmer for Illumina sequence data (англ.) // Bioinformatics. — 2014-08-01. — Vol. 30, iss. 15. — P. 2114–2120. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btu170. Архивировано 24 апреля 2017 года.
  10. 1 2 Joel Rozowsky, Ghia Euskirchen, Raymond K Auerbach, Zhengdong D Zhang, Theodore Gibson. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls (англ.) // Nature Biotechnology. — 2009-1. — Vol. 27, iss. 1. — P. 66–75. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt.1518. Архивировано 30 марта 2019 года.
  11. Heng Li, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan. The Sequence Alignment/Map format and SAMtools (англ.) // Bioinformatics. — 2009-08-15. — Vol. 25, iss. 16. — P. 2078–2079. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btp352. Архивировано 24 апреля 2017 года.
  12. Hashem Koohy, Thomas A. Down, Mikhail Spivakov, Tim Hubbard. A Comparison of Peak Callers Used for DNase-Seq Data // PLoS ONE. — 2014-05-08. — Т. 9, вып. 5. — С. e96303. — ISSN 1932-6203. — doi:10.1371/journal.pone.0096303.
  13. Elizabeth G. Wilbanks, Marc T. Facciotti. Evaluation of Algorithm Performance in ChIP-Seq Peak Detection // PLoS ONE. — 2010-07-08. — Т. 5, вып. 7. — С. e11471. — ISSN 1932-6203. — doi:10.1371/journal.pone.0011471.
  14. Teemu D Laajala, Sunil Raghav, Soile Tuomela, Riitta Lahesmaa, Tero Aittokallio. A practical comparison of methods for detecting transcription factor binding sites in ChIP-seq experiments // BMC Genomics. — 2009. — Т. 10, вып. 1. — С. 618. — ISSN 1471-2164. — doi:10.1186/1471-2164-10-618.
  15. 1 2 3 4 5 6 7 S. G. Landt, G. K. Marinov, A. Kundaje, P. Kheradpour, F. Pauli. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia (англ.) // Genome Research. — 2012-09-01. — Vol. 22, iss. 9. — P. 1813–1831. — ISSN 1088-9051. — doi:10.1101/gr.136184.111.
  16. Assaf Rotem, Oren Ram, Noam Shoresh, Ralph A. Sperling, Alon Goren. Single-cell ChIP-seq reveals cell subpopulations defined by chromatin state // Nature biotechnology. — 2015-11. — Т. 33, вып. 11. — С. 1165–1172. — ISSN 1087-0156. — doi:10.1038/nbt.3383. Архивировано 21 мая 2016 года.
  17. The ENCODE Project Consortium. A User's Guide to the Encyclopedia of DNA Elements (ENCODE) (англ.) // PLoS Biology / Peter B. Becker. — 2011-04-19. — Vol. 9, iss. 4. — P. e1001046. — ISSN 1545-7885. — doi:10.1371/journal.pbio.1001046.
  18. 1 2 Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis (англ.) // BMC genomics. — 2011-02-28. — Vol. 12. — P. 134. — ISSN 1471-2164. — doi:10.1186/1471-2164-12-134. Архивировано 4 мая 2017 года.
  19. Frauke Greil, Celine Moorman, Bas van Steensel. [16 DamID: Mapping of In Vivo Protein–Genome Interactions Using Tethered DNA Adenine Methyltransferase] (англ.) // Methods in Enzymology. — Elsevier, 2006. — Vol. 410. — P. 342–359. — ISBN 9780121828158. — doi:10.1016/s0076-6879(06)10016-6. Архивировано 12 мая 2019 года.
  20. Bas van Steensel, Daniel Peric-Hupkes, Maartje J. Vogel. Detection of in vivo protein–DNA interactions using DamID in mammalian cells (англ.) // Nature Protocols. — 2007-06. — Vol. 2, iss. 6. — P. 1467–1478. — ISSN 1750-2799. — doi:10.1038/nprot.2007.148. Архивировано 25 мая 2021 года.
  21. Yi Eve Sun, Weihong Ge. Faculty of 1000 evaluation for An oestrogen-receptor-alpha-bound human chromatin interactome. F1000 - Post-publication peer review of the biomedical literature (4 декабря 2009). Дата обращения: 18 апреля 2020.
  22. Rongxin Fang, Miao Yu, Guoqiang Li, Sora Chee, Tristin Liu. Mapping of long-range chromatin interactions by proximity ligation-assisted ChIP-seq (англ.) // Cell Research. — 2016-12. — Vol. 26, iss. 12. — P. 1345–1348. — ISSN 1748-7838 1001-0602, 1748-7838. — doi:10.1038/cr.2016.137. Архивировано 30 марта 2019 года.
  23. 1 2 Mazhar Adli, Bradley E Bernstein. Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq (англ.) // Nature Protocols. — 2011-10. — Vol. 6, iss. 10. — P. 1656–1668. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2011.402. Архивировано 18 апреля 2019 года.
  24. 1 2 Ho Sung Rhee, B. Franklin Pugh. Comprehensive Genome-wide Protein-DNA Interactions Detected at Single-Nucleotide Resolution (англ.) // Cell. — 2011-12. — Vol. 147, iss. 6. — P. 1408–1419. — doi:10.1016/j.cell.2011.11.013. Архивировано 18 апреля 2019 года.
  25. 1 2 3 Qiye He, Jeff Johnston, Julia Zeitlinger. ChIP-nexus: a novel ChIP-exo protocol for improved detection of in vivo transcription factor binding footprints // Nature biotechnology. — 2015-4. — Т. 33, вып. 4. — С. 395–401. — ISSN 1087-0156. — doi:10.1038/nbt.3121.
  26. Colin R Lickwar, Florian Mueller, Jason D Lieb. Genome-wide measurement of protein-DNA binding dynamics using competition ChIP (англ.) // Nature Protocols. — 2013-7. — Vol. 8, iss. 7. — P. 1337–1353. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2013.077. Архивировано 20 апреля 2019 года.
  27. Robert B. Darnell. HITS‐CLIP: panoramic views of protein–RNA regulation in living cells (англ.) // Wiley Interdisciplinary Reviews: RNA. — 2010-9. — Vol. 1, iss. 2. — P. 266–286. — ISSN 1757-7012 1757-7004, 1757-7012. — doi:10.1002/wrna.31. Архивировано 20 апреля 2019 года.
  28. László Halász, Zsolt Karányi, Beáta Boros-Oláh, Tímea Kuik-Rózsa, Éva Sipos. RNA-DNA hybrid (R-loop) immunoprecipitation mapping: an analytical workflow to evaluate inherent biases (англ.) // Genome Research. — 2017-6. — Vol. 27, iss. 6. — P. 1063–1073. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.219394.116.
  29. 1 2 3 Paul A. Ginno, Paul L. Lott, Holly C. Christensen, Ian Korf, Frédéric Chédin. R-Loop Formation Is a Distinctive Characteristic of Unmethylated Human CpG Island Promoters (англ.) // Molecular Cell. — 2012-3. — Vol. 45, iss. 6. — P. 814–825. — doi:10.1016/j.molcel.2012.01.017. Архивировано 20 апреля 2019 года.
  30. Daniel Savic, E. Christopher Partridge, Kimberly M. Newberry, Sophia B. Smith, Sarah K. Meadows. CETCh-seq: CRISPR epitope tagging ChIP-seq of DNA-binding proteins (англ.) // Genome Research. — 2015-10. — Vol. 25, iss. 10. — P. 1581–1589. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.193540.115.
  31. Peter J Skene, Steven Henikoff. An efficient targeted nuclease strategy for high-resolution mapping of DNA binding sites (англ.) // eLife. — 2017-01-16. — Vol. 6. — P. e21856. — ISSN 2050-084X. — doi:10.7554/eLife.21856. Архивировано 13 мая 2020 года.
  32. M. Robyn Andersen, Kelsey Afdem, Marcia Gaul, Shelly Hager, Erin Sweet. Family History, Genetic, and Other Cause-Related Beliefs among Breast Cancer Survivors // OBM Genetics. — 2019-02-27. — Т. 3, вып. 3. — С. 1–1. — ISSN 2577-5790. — doi:10.21926/obm.genet.1903087.
  33. 1 2 ChIP Sequencing Overview. epigenie.com. Дата обращения: 22 апреля 2019. Архивировано 22 апреля 2019 года.
  34. 1 2 3 Kevin S. Myers, Dan M. Park, Nicole A. Beauchene, Patricia J. Kiley. Defining bacterial regulons using ChIP-seq (англ.) // Methods. — 2015-9. — Vol. 86. — P. 80–88. — doi:10.1016/j.ymeth.2015.05.022. Архивировано 2 мая 2019 года.
  35. Michael I Love, Wolfgang Huber, Simon Anders. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2 // Genome Biology. — 2014-12. — Т. 15, вып. 12. — ISSN 1474-760X. — doi:10.1186/s13059-014-0550-8.
  36. M. D. Robinson, D. J. McCarthy, G. K. Smyth. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data // Bioinformatics. — 2009-11-11. — Т. 26, вып. 1. — С. 139–140. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btp616.
  37. Anaïs Bardet. Peak Calling // Practical Guide to ChIP-seq Data Analysis. — CRC Press, 2018-10-26. — С. 41–52. — ISBN 9780429487590.
  38. Li Chen, Chi Wang, Zhaohui S. Qin, Hao Wu. A novel statistical method for quantitative comparison of multiple ChIP-seq datasets // Bioinformatics. — 2015-02-13. — Т. 31, вып. 12. — С. 1889–1896. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btv094.
  39. Kun Liang, Sündüz Keleş. Detecting differential binding of transcription factors with ChIP-seq // Bioinformatics. — 2011-11-03. — Т. 28, вып. 1. — С. 121–122. — ISSN 1367-4803 1460-2059, 1367-4803. — doi:10.1093/bioinformatics/btr605.
  40. 1 2 Yanxiao Zhang, Yu-Hsuan Lin, Timothy D. Johnson, Laura S. Rozek, Maureen A. Sartor. PePr: a peak-calling prioritization pipeline to identify consistent or differential peaks from replicated ChIP-Seq data // Bioinformatics. — 2014-06-03. — Т. 30, вып. 18. — С. 2568–2575. — ISSN 1367-4803 1460-2059, 1367-4803. — doi:10.1093/bioinformatics/btu372.
  41. Bradley E Bernstein, John A Stamatoyannopoulos, Joseph F Costello, Bing Ren, Aleksandar Milosavljevic. The NIH Roadmap Epigenomics Mapping Consortium // Nature biotechnology. — 2010-10. — Т. 28, вып. 10. — С. 1045–1048. — ISSN 1087-0156. — doi:10.1038/nbt1010-1045. Архивировано 22 мая 2016 года.
  42. 1 2 3 Qi Zhang, Sündüz Keleş. An empirical Bayes test for allelic-imbalance detection in ChIP-seq // Biostatistics. — 2017-11-03. — Т. 19, вып. 4. — С. 546–561. — ISSN 1468-4357 1465-4644, 1468-4357. — doi:10.1093/biostatistics/kxx060.
  43. Qi Zhang. Data Analysis of ChIP-Seq Experiments (англ.) // Computational Epigenetics and Diseases. — Elsevier, 2019. — P. 67–77. — ISBN 9780128145135. — doi:10.1016/b978-0-12-814513-5.00005-2. Архивировано 5 мая 2019 года.
  44. Christopher Gregg. Faculty of 1000 evaluation for A uniform survey of allele-specific binding and expression over 1000-Genomes-Project individuals. F1000 - Post-publication peer review of the biomedical literature (11 июля 2016). Дата обращения: 5 мая 2019.
  45. Bryce van de Geijn, Graham McVicker, Yoav Gilad, Jonathan K Pritchard. WASP: allele-specific software for robust molecular quantitative trait locus discovery // Nature Methods. — 2015-09-14. — Т. 12, вып. 11. — С. 1061–1063. — ISSN 1548-7105 1548-7091, 1548-7105. — doi:10.1038/nmeth.3582.
  46. 1 2 Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff. Unlocking the secrets of the genome (англ.) // Nature. — 2009-06-18. — Vol. 459, iss. 7249. — P. 927–930. — ISSN 1476-4687. — doi:10.1038/459927a. Архивировано 29 апреля 2017 года.
  47. Hongzhu Qu, Xiangdong Fang. A brief review on the Human Encyclopedia of DNA Elements (ENCODE) project (англ.) // Genomics, Proteomics & Bioinformatics. — 2013-06-01. — Vol. 11, iss. 3. — P. 135–141. — ISSN 2210-3244. — doi:10.1016/j.gpb.2013.05.001. Архивировано 5 мая 2017 года.
  48. Oki, S; Ohta, T. ChIP-Atlas. — 2015. — doi:10.18908/lsdba.nbdc01558-000.
  49. modENCODE Consortium, Sushmita Roy, Jason Ernst, Peter V. Kharchenko, Pouya Kheradpour. Identification of functional elements and regulatory circuits by Drosophila modENCODE (англ.) // Science (New York, N.Y.). — 2010-12-24. — Vol. 330, iss. 6012. — P. 1787–1797. — ISSN 1095-9203. — doi:10.1126/science.1198374. Архивировано 5 мая 2017 года.
  50. Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin-Ying Lin, Melissa C. Greven. Factorbook.org: a Wiki-based database for transcription factor-binding data generated by the ENCODE consortium (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D171–176. — ISSN 1362-4962. — doi:10.1093/nar/gks1221. Архивировано 5 мая 2017 года.
  51. Jian-Hua Yang, Jun-Hao Li, Shan Jiang, Hui Zhou, Liang-Hu Qu. ChIPBase: a database for decoding the transcriptional regulation of long non-coding RNA and microRNA genes from ChIP-Seq data (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D177–187. — ISSN 1362-4962. — doi:10.1093/nar/gks1060. Архивировано 5 мая 2017 года.
  52. Alexander Lachmann, Huilei Xu, Jayanth Krishnan, Seth I. Berger, Amin R. Mazloom. ChEA: transcription factor regulation inferred from integrating genome-wide ChIP-X experiments (англ.) // Bioinformatics (Oxford, England). — 2010-10-01. — Vol. 26, iss. 19. — P. 2438–2444. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btq466. Архивировано 5 мая 2017 года.
  53. Jesse D. Ziebarth, Anindya Bhattacharya, Yan Cui. CTCFBSDB 2.0: a database for CTCF-binding sites and genome organization (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D188–194. — ISSN 1362-4962. — doi:10.1093/nar/gks1165. Архивировано 5 мая 2017 года.
  54. Li Chen, George Wu, Hongkai Ji. hmChIP: a database and web server for exploring publicly available human and mouse ChIP-seq and ChIP-chip data (англ.) // Bioinformatics (Oxford, England). — 2011-05-15. — Vol. 27, iss. 10. — P. 1447–1448. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btr156. Архивировано 5 мая 2017 года.
  55. Ivan V. Kulakovskiy, Ilya E. Vorontsov, Ivan S. Yevshin, Anastasiia V. Soboleva, Artem S. Kasianov. HOCOMOCO: expansion and enhancement of the collection of transcription factor binding sites models (англ.) // Nucleic Acids Research. — 2016-01-04. — Vol. 44, iss. D1. — P. D116–125. — ISSN 1362-4962. — doi:10.1093/nar/gkv1249. Архивировано 5 мая 2017 года.
  56. Albin Sandelin, Wynand Alkema, Pär Engström, Wyeth W. Wasserman, Boris Lenhard. JASPAR: an open-access database for eukaryotic transcription factor binding profiles (англ.) // Nucleic Acids Research. — 2004-01-01. — Vol. 32, iss. Database issue. — P. D91–94. — ISSN 1362-4962. — doi:10.1093/nar/gkh012. Архивировано 5 мая 2017 года.
  57. Mikhail Pachkov, Piotr J. Balwierz, Phil Arnold, Evgeniy Ozonov, Erik van Nimwegen. SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D214–220. — ISSN 1362-4962. — doi:10.1093/nar/gks1145. Архивировано 5 мая 2017 года.
  58. Bo Qin, Meng Zhou, Ying Ge, Len Taing, Tao Liu. CistromeMap: a knowledgebase and web server for ChIP-Seq and DNase-Seq studies in mouse and human (англ.) // Bioinformatics (Oxford, England). — 2012-05-15. — Vol. 28, iss. 10. — P. 1411–1412. — ISSN 1367-4811. — doi:10.1093/bioinformatics/bts157. Архивировано 5 мая 2017 года.
  59. Qixuan Wang, Jinyan Huang, Hanfei Sun, Jing Liu, Juan Wang. CR Cistrome: a ChIP-Seq database for chromatin regulators and histone modification linkages in human and mouse (англ.) // Nucleic Acids Research. — 2014-01-01. — Vol. 42, iss. Database issue. — P. D450–458. — ISSN 1362-4962. — doi:10.1093/nar/gkt1151. Архивировано 5 мая 2017 года.
  60. Christoph D. Schmid, Philipp Bucher. ChIP-Seq data reveal nucleosome architecture of human promoters (англ.) // Cell. — 2007-11-30. — Vol. 131, iss. 5. — P. 831–832; author reply 832–833. — ISSN 0092-8674. — doi:10.1016/j.cell.2007.11.017. Архивировано 5 мая 2017 года.
  61. Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray. Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans (англ.) // Genome Research. — 2011-02-01. — Vol. 21, iss. 2. — P. 245–254. — ISSN 1549-5469. — doi:10.1101/gr.114587.110. Архивировано 5 мая 2017 года.
  62. Xiong Ji, Daniel B. Dadon, Brian J. Abraham, Tong Ihn Lee, Rudolf Jaenisch. Chromatin proteomic profiling reveals novel proteins associated with histone-marked genomic regions // Proceedings of the National Academy of Sciences. — 2015-03-09. — С. 201502971. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.1502971112.
  63. Huihuang Yan, Shulan Tian, Susan L Slager, Zhifu Sun. ChIP-seq in studying epigenetic mechanisms of disease and promoting precision medicine: progresses and future directions (англ.) // Epigenomics. — 2016-9. — Vol. 8, iss. 9. — P. 1239–1258. — ISSN 1750-192X 1750-1911, 1750-192X. — doi:10.2217/epi-2016-0053.
  64. Henriette O’Geen, Lorigail Echipare, Peggy J. Farnham. Using ChIP-Seq Technology to Generate High-Resolution Profiles of Histone Modifications // Methods in molecular biology (Clifton, N.J.). — 2011. — Т. 791. — С. 265–286. — ISSN 1064-3745. — doi:10.1007/978-1-61779-316-5_20.
  65. Tarjei S. Mikkelsen, Manching Ku, David B. Jaffe, Biju Issac, Erez Lieberman. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells // Nature. — 2007-08-02. — Т. 448, вып. 7153. — С. 553–560. — ISSN 0028-0836. — doi:10.1038/nature06008. Архивировано 22 мая 2016 года.
  66. Douglas F. Browning, Stephen J. W. Busby. The regulation of bacterial transcription initiation // Nature Reviews Microbiology. — 2004-01. — Т. 2, вып. 1. — С. 57–65. — ISSN 1740-1534 1740-1526, 1740-1534. — doi:10.1038/nrmicro787.
  67. Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley. dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data // PLoS Computational Biology. — 2013-10-17. — Т. 9, вып. 10. — С. e1003246. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003246.
  68. Antonio L.C. Gomes, Thomas Abeel, Matthew Peterson, Elham Azizi, Anna Lyubetskaya. Decoding ChIP-seq with a double-binding signal refines binding peaks to single-nucleotides and predicts cooperative interaction (англ.) // Genome Research. — 2014-10. — Vol. 24, iss. 10. — P. 1686–1697. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.161711.113.
  69. Yuchun Guo, Shaun Mahony, David K. Gifford. High Resolution Genome Wide Binding Event Finding and Motif Discovery Reveals Transcription Factor Spatial Binding Constraints (англ.) // PLoS Computational Biology / Stein Aerts. — 2012-08-09. — Vol. 8, iss. 8. — P. e1002638. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1002638.
  70. Xuekui Zhang, Gordon Robertson, Martin Krzywinski, Kaida Ning, Arnaud Droit. PICS: Probabilistic Inference for ChIP-seq (англ.) // Biometrics. — 2011-3. — Vol. 67, iss. 1. — P. 151–163. — doi:10.1111/j.1541-0420.2010.01441.x.
  71. Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley. dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data (англ.) // PLoS Computational Biology / Roderic Guigo. — 2013-10-17. — Vol. 9, iss. 10. — P. e1003246. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003246.
  72. Jason Ernst, Manolis Kellis. Discovery and characterization of chromatin states for systematic annotation of the human genome // Nature Biotechnology. — 2010-07-25. — Т. 28, вып. 8. — С. 817–825. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt.1662.
  73. Jason Ernst, Pouya Kheradpour, Tarjei S. Mikkelsen, Noam Shoresh, Lucas D. Ward. Mapping and analysis of chromatin state dynamics in nine human cell types // Nature. — 2011-03-23. — Т. 473, вып. 7345. — С. 43–49. — ISSN 1476-4687 0028-0836, 1476-4687. — doi:10.1038/nature09906.
  74. Shirley Pepke, Barbara Wold, Ali Mortazavi. Computation for ChIP-seq and RNA-seq studies // Nature Methods. — 2009-11. — Т. 6, вып. 11. — С. S22–S32. — ISSN 1548-7105 1548-7091, 1548-7105. — doi:10.1038/nmeth.1371.