Інформація

Генні мережі для різних тканин?

Генні мережі для різних тканин?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

В даний час я працюю над генними мережами і, зокрема, аналізую регуляторну мережу генів мозку комахи, щоб зрозуміти її сексуальну поведінку. Під час нещодавньої презентації мені задали це питання, яке я просто не міг добре вирішити. Питання полягало в тому, чому я вивчаю мережу генів мозку, щоб зрозуміти сексуальну активність, коли я повинен вивчати генну мережу статевого органу, наприклад: яєчника. Я дізнався, що оскільки мозок вирішує поведінку, було б набагато краще вивчити GRN мозку. Однак я заплутався і хотів би знати, чи є різні тканини чи органи в одному організмі різними генними мережами? Будь-яка ідея щодо теорії вітається.


Той самий сигнал, різні тканини: інтерпретація морфогену

Правильне функціонування тканин залежить від співпраці та взаємодії між різними типами клітин, кожен зі своїми специфічними функціями, організованими в певних просторових розташуваннях. Одним із фундаментальних питань біології розвитку є те, як ознаки розвитку визначають ці окремі типи клітин у ембріонів та координують їх структурування у функціональні тканини. У більшості випадків процес контролюється секретованими молекулами, які часто називають морфогенами, які поширюються через тканину, що розвивається, утворюючи градієнти та індукуючи експресію цільового гена в характерних положеннях уздовж градієнта. Дивно, але морфогени не є специфічними для певних тканин. Натомість відносно невеликий набір сигналів неодноразово використовується в різних контекстах розвитку. Це викликає питання про те, як градуйований сигнал контролює диференціальну реакцію гена -мішені в тканині і як один і той же сигнал може інтерпретуватися різними тканинами для отримання різних типів клітин.

Тканинна специфічність сигналізації морфогену була вперше визнана в класичних ембріологічних експериментах, в яких було показано, що відповідь на трансплантацію тканини, що продукує морфоген, залежить від клітин -одержувачів. Ця властивість отримала назву компетенції і залежить від епігенетичного стану клітин -одержувачів, що визначає доступність регуляторних елементів генів -мішеней, а також факторів транскрипції, наявних у клітинах -одержувачах, які діють як кофактори чи фактори, що сприяють транскрипції. Оскільки як експресія фактора транскрипції, так і доступність регуляторних елементів контролюються попередніми подіями розвитку, цей механізм пов’язує відповідь морфогену з історією клітини.

Зображення тканин під час ембріонального розвитку залежить від диференціальної індукції генів -мішеней градієнтами морфогену. Індукція генів -мішеней залежить не тільки від рівня морфогену, але і від специфічної компетентності клітин -одержувачів, здатності клітин декодувати динаміку передачі сигналів морфогену та регуляторної логіки транскрипційних мереж за течією.

В тканинах концентрація морфогену вважається основною детермінантою диференціальної реакції генів -мішеней. Однак у багатьох випадках це є надмірним спрощенням, і динаміка сигналізації - тривалість і тимчасова поведінка - також мають вирішальне значення. Як позитивний, так і негативний зворотний зв'язок у межах сигнального шляху, викликаний індукованою сигналом експресією активаторів або інгібіторів шляху, спостерігався для кількох морфогенів. Такий зворотний зв'язок може дозволити клітинам вимірювати динамічні властивості сигналу морфогену, такі як тривалість або швидкість зміни. Крім того, гени -мішені, контрольовані багатьма морфогенами, включають фактори транскрипції. Вони можуть утворювати транскрипційні мережі, що містять позитивні та негативні регуляторні взаємодії між факторами. Логіка цих мереж забезпечує клітинам інтеграцію рівня та динаміки сигналізації для індукції диференціальних генів -мішеней. Ці мережі можуть перетворювати безперервний градієнт у дискретні перемикання експресії генів, підвищувати точність, з якою цільові гени індукуються шумовим сигналом, і передавати інформацію, надану градієнтом морфогену на ранніх стадіях розвитку, коли тканина невелика, на пізнішу стадії, коли тканина занадто велика, щоб її надійно нанести градієнт.

У просунутій оглядовій статті під назвою “Морфогенна інтерпретація: концентрація, час, компетентність та динаміка сигналізації ”, нещодавно опублікована у WIREs Developmental Biology, Джеймс Бріско обговорює молекулярні механізми, які лежать в основі здатності клітин урізноманітнювати свою реакцію на морфогени шляхом їх інтерпретації залежно від контексту та динамічно.


Вступ

Нова парадигма «мережевої медицини» була запропонована для використання різних мережевих підходів для прогнозування основних білків [1–4], ідентифікації білкових комплексів [5–8] та виявлення генів-кандидатів, пов’язаних із різними захворюваннями [9]. Як методології прогрес, мережева медицина має потенціал охопити молекулярну складність людських хвороб, пропонуючи при цьому обчислювальні методи, щоб визначити, як така складність контролює прояви захворювання, прогноз та терапію. До цього часу для дослідження генів і комплексів, пов’язаних із хворобами, використовувалися різні типи біологічних даних [10–12]. Наприклад, Го К., та ін., [13] побудували мережу, яка складалася з генів, пов’язаних з тим самим захворюванням, тоді як Тян В. та ін. [14] поєднували білкові та генетичні взаємодії з кореляцією експресії генів. Уліцький І та Шамір Р [15] також поєднали взаємодії з опублікованих мереж та дріжджові двогібридні експерименти для виявлення асоціацій. Аналіз останніх досліджень, згідно з CIPHER [16], GeneWalker [17], PRINCE [18] і RWRH [19], висвітлив асоціації, які були отримані безпосередньо від взаємодії білків з більш віддаленими зв’язками різними способами. Незважаючи на те, що гени, що викликають подібні захворювання, лежать близько один до одного в мережі, ці алгоритми не враховували той факт, що більшість генетичних порушень, як правило, проявляються лише в одній або кількох тканинах [13, 20]. Специфічність тканин є важливим аспектом багатьох генетичних захворювань, що відображає потенційно різні ролі білків і шляхів у різних клітинних лініях. У контексті генетичних розладів, незважаючи на те, що основна шкідлива мутація може існувати в усіх клітинах людського тіла, вона найчастіше спричиняє хаос лише в кількох тканинах. Ця вибірковість тканин з'явиться через відмінності у функціональних можливостях мутованого білка всередині цих тканин, його тканинно-специфічних взаємодіючих білків, його чисельності та великої кількості його акторів. Отже, мета цього дослідження-дослідити, чи є тканинна специфічна мережа кращим представленням для фактично пов’язаної з хворобою тканини, що поступається більш точним визначенням пріоритетів асоціацій генів хвороби.

Деякі дослідження були проведені шляхом побудови специфічних для тканин мереж для виявлення хвороб за допомогою алгоритмів навчання байєсівської структури [21]. Але алгоритми навчання байєсівської структури мали три основні недоліки, тобто високі обчислювальні витрати, неефективність у вивченні якісних знань та неможливість реконструювати фенотипну мережу генів. Інші [22] проаналізували людські ІПП у тканинно-специфічному контексті, показавши, що багато білків для домашнього господарства взаємодіють з білками, що мають високу специфічність для тканин, що, у свою чергу, означає, що білки господарювання можуть мати тканинно-специфічну роль. Цей аналіз був зроблений ще кроком далі Емігом та Альбрехтом [23], які виявили функціональні відмінності між тканинами, показавши, що тканинно-специфічні білкові взаємодії часто беруть участь у трансмембранному транспорті та активації рецепторів.

Таким чином, це дослідження спрямоване на побудову специфічних для тканини генно-генних мереж для певної хвороби запиту та спроби зіставити ці мережі з подібними деталями фенотипу, щоб передбачити нові асоціації генів захворювання. Новий метод побудови генетично-генної мережі, специфічний для тканини, під назвою метод тканинно-специфічних генів (TSG) буде використовуватися для спочатку ідентифікації тканин, які в основному впливають на хворобу запиту, а по-друге, деталі експресії генів тканин будуть використані для побудови тканини- специфічні генно-генні мережі. Створені тканино-специфічні мережі будуть використовуватися з найближчими подробицями фенотипу хвороби запиту для прогнозування асоціацій ген-хвороба. Оригінальний метод Каца був змінений і використаний як основний метод визначення пріоритетності генів хвороби за допомогою тканинно-специфічних генно-генних мереж. Новий метод конструювання специфічної для тканини генно-генної мережі детально описано в розділі методології.


Вступ

Тканинно-специфічність, при якій клітини виконують різні функції, незважаючи на наявність ідентичної ДНК, досягається частково за допомогою тканинозалежних механізмів регуляції генів, включаючи епігенетичну модифікацію та транскрипційну та посттранскрипційну регуляцію [1–3]. Ці складні програми контролю виробляють різні програми експресії генів у тканинах, при цьому більшість генів демонструють статистично значущу диференційну експресію [4, 5]. Ці відмінності можуть мати значні наслідки: тканиноспецифічні гени, особливо ймовірно, є мішенями для ліків [6], а тканиноспецифічні фактори транскрипції особливо ймовірно впливають на складні захворювання [2, 7, 8]. Розуміння цих відмінностей також має важливе значення для розуміння плейотропних генів та для інтерпретації досліджень, в яких дані геноміки можна збирати лише для доступної або проксі -тканини (наприклад, використання крові для вивчення психічних розладів [9–11]).

Специфічні для тканини механізми контролю можуть бути захоплені мережами спільної експресії, в яких два гени з'єднані, якщо їх рівні експресії співвідносяться між набором індивідів. У таких умовах генетичні або екологічні відмінності між окремими особами служать невеликими порушеннями для основної регуляторної мережі, що призводить до кореляції між рівнями експресії генів, які узгоджуються з регуляторними відносинами. Мережі спільної експресії дають уявлення про клітинну активність, оскільки коекспресовані гени часто мають спільні функції [12], і такі мережі широко використовуються для вивчення хвороб [13–15].

Набір даних консорціуму Genotype-Tissue Expression (GTEx) [16] надає можливість вивчати такі мережі спільної експресії для безпрецедентної кількості людських тканин одночасно. Тим не менш, багато з профільованих тканин мають менше десятка зразків, занадто мало, щоб точно визначити десятки мільйонів параметрів, які визначали б спільну експресію або регуляторну мережу. Одним із рішень було б об’єднати всі доступні зразки та вивчити єдину мережу консенсусу для всіх тканин, але це не дасть уявлення про специфічність тканин. З іншого боку, висновок про те, що кожна мережа незалежно ігнорує спільні риси тканин: тканинні мережі мають набагато більше зв’язків, ніж можна було б очікувати випадково, а зв’язки між кількома тканинами менш шумові, ніж вивчення посилань за допомогою однієї тканини, навіть при використанні однакової кількості загальні вибірки [12].

Тут ми використовуємо новий алгоритм, GNAT (Gene Network Analysis Tool), щоб одночасно побудувати мережі спільної експресії для 35 різних тканин людини. Використовуючи ієрархію, яка кодує подібність тканин, наш підхід вивчає мережу для кожної тканини, заохочуючи тканини, які знаходяться поблизу в ієрархії, мати подібні мережі. Було показано, що ієрархічне трансферне навчання покращує потужність та точність у попередніх роботах [5, 6, 17, 18]. Ми пропонуємо нову ієрархічну модель разом із методом оптимізації параметрів, розробленим для масштабних даних, і застосовуємо її до даних GTEx. Ми показуємо, що наш метод робить висновок про мережі з більшою вірогідністю перехресної перевірки, ніж мережі, вивчені на кожній тканині незалежно або в одній мережі, вивченій у всіх тканинах. Наш метод застосовний до будь -якого набору даних, у якому вибіркові відносини можна описати за допомогою ієрархії, наприклад, до кількох клітинних ліній раку або видів у філогенетичному дереві. Повний код нашого методу доступний як дані S1.

Ми аналізуємо отримані мережі, щоб зробити кілька нових спостережень щодо принципів тканинної специфічності. Ми пропонуємо кілька показників для ідентифікації генів, які є важливими для визначення ідентичності тканин, і демонструємо, що такі гени є непропорційно важливими генами. Ми показуємо, що тканинно-специфічні фактори транскрипції, які є центральними центрами в наших мережах, пов'язуються з генами з тканино-специфічними функціями, які, у свою чергу, демонструють більш високі рівні експресії. Ми ідентифікували 1789 генних модулів, збагачених для функцій генної онтології, і показали, що збагачені модулі, які підвищуються в тканині, часто є важливими для функції тканини. Ми також показуємо, що модулі, які зустрічаються в тканинах, з великою ймовірністю будуть збагачені функціями генної онтології, і що ці функції, як правило, є тими, які є необхідними для всіх тканин. Представлені тут результати, включаючи всі мережі та модулі генів, можна інтерактивно запитувати за допомогою нашого веб -інструменту [19], ідентифіковані гени та модулі забезпечують основу для майбутніх досліджень.


Результати

Ідентифікація загального набору циркадних генів у мишей

Ми шукали циркадні гени, що коливаються, у даних мікрочипів циркадних часових рядів, що охоплюють 14 тканин у миші (Таблиця S1), шляхом пристосування їх до косинусних функцій з різними фазами, та витягували інформацію про циркадну фазу для циркадних коливальних генів. Ми ідентифікували 9995 відомих генів, які демонструють циркадні коливання принаймні в одній тканині (Таблиця S2). Кількість генів, які демонструють циркадні коливання в багатьох тканинах, швидко зменшується зі збільшенням кількості тканин, тоді як узгодженість їхніх циркадних фаз у тканинах, виміряна в стор-значення кругових тестів діапазону швидко покращуються (Малюнок 1). Ми ідентифікували 41 загальний циркадний ген, визначений як гени, що демонструють циркадні коливання щонайменше у 8 із 14 тканин у миші (Таблиця 1). 13 із 19 раніше відомих ключових циркадних генів були серед загальних циркадних генів, які ми ідентифікували у цьому дослідженні. Інші відомі ключові циркадні гени: Рорб, Cry2, Рора, Npas2, і Hlf були виявлені циркадні коливання в одній, трьох, трьох, чотирьох і п'яти тканинах відповідно. Bhlhb3 не виявлено циркадних коливань у будь -якій тканині. 39 із цих загальних циркадних генів виявили значну послідовність (p<1/3 у циклічному діапазоні) їх циркадних фаз у всіх тканинах.

(A) Розподіл кількості циркадних осцилюючих генів, ідентифікованих у різній кількості тканин миші. (B) Розповсюдження стор-значення в тестах кругового діапазону для циркадних фаз циркадних коливальних генів, ідентифікованих у різній кількості тканин миші.

Порівняння між тканинами

Ми досліджували профілі експресії генів, специфічних для тканини, в атласі експресії генів тканини миші [7] для циркадних коливальних генів у різних тканинах. Щоб перехресно перевірити дані про циркадну фазу з даними експресії генів тканин, ми створили двійкову матрицю 1 або 0 для позначення присутності або відсутності циркадних коливань у 14 тканинах у даних циркадної фази та порівняли її з матрицею експресії гена в 61 тканини з атласу експресії генів тканин. Для кожної пари тканин з двох матриць ми розрахували коефіцієнт кореляції. Циркадні дані в печінці, нирках, скелетних м’язах, надниркових залозах і білій жировій тканині найкраще корелювали з відповідними тканинами в атласі експресії генів тканин, тоді як SCN однаково добре корелював з преоптичним і гіпоталамусом, а бура жирова тканина однаково добре корелювала з жирова тканина і бурий жир. Ці результати відображають той факт, що достатньо високі рівні експресії генів є необхідною умовою для виявлення циркадних коливань у нашій колекції наборів даних мікрочипів.

Щоб дослідити, чи викликані відмінності в циркадних фазах циркадних коливальних генів у тканинах різницею в рівнях їх експресії генів, ми розрахували дисперсії циркадних фаз та дисперсії експресії генів циркадних коливальних генів у семи тканинах, спільних для наших циркадні набори даних та атлас експресії генів тканин. Немає істотної кореляції (r = 0.01, стор = 0,71) між цими двома дисперсіями. Наприклад, рівень експресії генів Per2 у надниркових залозах у 27 разів вище, ніж у скелетних м’язах, але це не впливає на консистенцію циркадних фаз Per2 між двома тканинами. Насправді, звичайні циркадні гени мають значно вищі дисперсії експресії генів у 61 тканині, ніж гени з тієї ж кількості випадково відібраних генів. Ми помітили, що коефіцієнти кореляції rij між даними експресії генів тканин загальних пар циркадних генів (i,j) негативно корелює з їх циркадними фазовими відмінностями (r = −0.22, p<10−8). Пари генів, позитивно корельовані у їхніх тканинних моделях експресії генів, мали значно меншу різницю фаз циркаду, ніж очікувалося випадковим чином, тоді як пари генів, які негативно корелювались у структурі експресії генів тканин, мали значно більшу різницю фаз циркаду, ніж очікувалося випадково (Малюнок S1) . Тому загальні циркадні гени з подібними моделями експресії генів у тканинах також мають тенденцію мати подібні циркадні фази. Регуляція циркадного гена може мати схожий механізм, який породжує експресію генів, специфічних для тканини.

Ми згрупували 21 набір даних циркадних фаз, використовуючи ієрархічну кластеризацію. Набори даних з тієї самої тканини або біологічно близьких тканин були об’єднані разом, що свідчить про те, що відмінності циркадних фаз між тканинами є результатом їх біологічних відмінностей (Малюнок 2). Щоб гарантувати, що ці відмінності між тканинами також відтворювалися між експериментами, ми використовували круговий ANOVA для ідентифікації циркадних осцилюючих генів, спільних між двома тканинами, але пов’язаних зі значно різними циркадними фазами між цими тканинами. Існувало 12 циркадних коливальних генів, розподілених між двома наборами даних SCN та принаймні двома наборами даних про печінку. Серед них, За 1, За 2, Nr1d2, і Авпр1а показав значний (p<0,01) приблизно на 6 годин у їх циркадних фазах у наборах даних SCN порівняно з наборами даних про печінку, тоді як Dnajb1, Hmgb3, Hsp110, і Pdcd4 не показали суттєвих відмінностей у їх циркадних фазах між SCN та печінкою (рис. 3). Щоб перевірити, чи існують такі відмінності між SCN і цілими тканинами мозку, ми також порівняли SCN з трьома наборами даних для всього мозку. Було 12 циркадних осцилюючих генів, спільних між двома наборами даних SCN і принаймні двома цілими наборами даних мозку. Per2, Nr1d2, і Туба8 знову показали значний прогрес приблизно на 6 годин у їх циркадних фазах у наборах даних SCN порівняно з наборами даних цілого мозку, тоді як Hmgb3, Hsp110, Sgk, і Fabp7 не показали суттєвих відмінностей у їх циркадних фазах між SCN та цілим мозком. Подальше дослідження підтвердило, що відомі ключові циркадні гени в т.ч За 1, За 2, Плач 1, Arntl, Nr1d1, і Nr1d2 всі вони продемонстрували приблизно 6-годинний прогрес у циркадних фазах між SCN та не-SCN тканинами загалом, тоді як білки теплового шоку демонстрували послідовні циркадні фази у всіх тканинах. Існували 15 циркадних осцилюючих генів, спільних між 3 наборами даних серця, включаючи все серце, передсердя та шлуночок, і принаймні 3 наборами даних печінки. Порівнюючи набори даних серця з наборами даних про печінку, Bhlhb2 (p<0,001) і Tspan4 (стор = 0,006) мали циркадну фазу на 5–6 годин раніше у серці, ніж у печінці Dscr1 (стор = 0,002) мали циркадну фазу на 8 годин пізніше в серці, ніж у печінці. Інші відомі ключові циркадні гени, такі як За 1/За 2, Arntl, і Nr1d1/Nr1d2 показали послідовні циркадні фази між серцем і печінкою. Порівнюючи цілі набори даних мозку з наборами даних печінки, Tfrc, St3gal5, і Tspan4 мали циркадні фази більш ніж на 4 години раніше у всьому мозку, ніж у печінці, тоді як Hist1h1c, Tsc22d1, Myo1b, Літаф, і BC004004 мали циркадні фази більш ніж через 4 години у всьому мозку, ніж у печінці.

Набори даних позначаються іменами авторів і типами тканин.

стор-значення з кругового тесту ANOVA вказані в дужках. Суцільна лінія являє собою y = x. Пунктирні лінії позначають y = x± 6 відповідно.

Порівняння між видами ссавців

Серед 1269 генів щурів, ідентифікованих як циркадні осцилюючі гени в печінці щурів, 1137 з них мали гомологи у миші. 232 з них перекриваються з 944 циркадними коливальними генами печінки миші принаймні у 2 наборах даних печінки миші. Ми використовували круговий тест ANOVA для ідентифікації циркадних коливальних генів, спільних як для печінки мишей, так і для щурів, але зі значно різними циркадними фазами. 10 генів мали значне значення (стор& lt0.01) різні циркадні фази між печінкою миші та щура. Добові фази BC006779, Cdkn1a, Свіл, Uox, Ak2, Nr1d1, Mtss1, Nudt16l1, і Gss були на 4-6 годин пізніше в печінці щурів, ніж у печінці миші, тоді як Hsd17b2 знаходився в антифазі між печінкою миші та щура (Малюнок S2).

Серед 803 циркадних осцилюючих генів скелетних м’язів щурів (SKM) 703 з них мали гомологи у мишей, а 64 з них перекривалися з 440 мишачими циркадними осцилюючими генами SKM. Серед генів, що перекриваються, 34 з них не виявляли циркадних фазових різниць, більших за 4 години, між SKM миші та щура. 22 з них мали циркадні фази більш ніж через 4 години у SKM щурів, ніж SKM миші. Cpt1a, Pdk4, і Ucp3, які беруть участь в метаболізмі ліпідів, показали 5–8 -годинну затримку їх циркадних фаз у SKM щурів порівняно з SKM миші. 8 генів мали циркадні фази більш ніж на 4 години раніше у SKM щурів, ніж у SKM мишей. Серед них, Fkbp5 і Sgk, які контролюються елементом рецептора глюкокортикоїдів (GRE), мали приблизно 6 годин випередження у своїх циркадних фазах у SKM щурів порівняно з SKM миші. Існувало 11 циркадних коливальних генів, загальних для печінки миші та SKM, печінки щурів та SKM. Затримка циркадних фаз на 4-5 годин у щурів порівняно з мишами спостерігалася як у печінці, так і в SKM для всіх 11 циркадних генів, за винятком Dynll1.

Серед 603 циркадних осцилюючих генів надниркових залоз макак-резус 560 мали гомологи у мишей, а 170 перекривалися з 4162 генами циркадного коливання надниркових залоз миші. Ми виявили значні відмінності в циркадних фазах між цими двома видами. Серед генів, що перекриваються, 47 не виявляли циркадних фазових різниць, що перевищували 4 години між мишами та макаками, тоді як 66 мали циркадні фази більш ніж через 4 години у наднирниках макаки, ​​ніж у наднирниках миші. Відомі ключові циркадні гени, Arntl, Dbp, Nr1d1, і Bhlhb2, показали приблизно 8 -годинну затримку їх циркадних фаз у наднирниках макаки порівняно з наднирниками миші. Хоча За 2 не відповідають нашим критеріям (стор<0.01) як циркадний осцилюючий ген у наднирниках макак, цей ген має циркадіанну фазу на CT21 (стор = 0,03), що також приблизно на 8 годин пізніше, ніж у миші. Так само білки теплового шоку, Hsp110, Hspa8, Дная1, і Dnajb6, мали циркадні фази навколо CT16 в надниркових залозах миші, але близько CT0 в надниркових залозах макак. Індукований холодом білок (Cirbp) мав циркадну фазу навколо CT7 в надниркових залозах миші, але близько CT16 в надниркових залозах макак, у антифазі з білками теплового шоку як у миші, так і у макак. З іншого боку, також було 57 генів, які демонстрували циркадні фази більш ніж на 4 години раніше в наднирниках макаки, ​​ніж у наднирниках миші.

У дослідженні циркадних мікроматриць SKM людини було всього два вимірювання циркадних точок часу: CT1 та CT13. Отже, ми можемо лише приблизно оцінити циркадні фази як CT1 або CT13 в SKM людини. Серед поширених циркадних генів, За 1, За 2, Nr1d2, і Dbp мали циркадні фази навколо CT1, тоді як Арнтл і Плач 1 мали циркадні фази навколо CT13 в SKM людини. Наші оцінки циркадних фаз для За 1 і Per2 у СКМ людини добре узгоджувалися з дослідженням у мононуклеарних клітинах периферичної крові людини, де протягом 2 годин брали пробу протягом 2 годин [8]. Білки теплового шоку, Дная1, Dnajb4, і Hspa4, мали циркадні фази навколо CT13, що узгоджувалися з піком загальної температури тіла на CT10 у людини [8].

Далі ми зробили тривидове порівняння циркадних фаз у СКМ миші, щура та людини. Ми виявили 12 циркадних коливальних генів, загальних для SKM у всіх трьох видах (табл. 2). Після того як ми округлили циркадні фази у мишей і щурів до їх найближчих часових точок, CT1 або CT13, ми помітили, що За 2, Арнтл, Dbp, Ppp1r3c, і Ablim1 мали збережені циркадні фази між мишами та щурами, але були на відстані 12 годин від людських. Epm2aip1, G0S2, і Маф мали збережені циркадні фази між мишами та людиною, але за 12 годин до щурів. нарешті, D19Wsu162e, Myod1, Pfn2, і Ucp3 мали збережені циркадні фази серед усіх трьох видів.

Біологічні функції циркадного ритму

Ми шукали категорії генної онтології (GO), значно надмірно представлені в циркадних осцилюючих генах у кожній тканині миші за допомогою програми GOminer [9]. Далі ми перевірили асоціації категорій GO з будь -якими конкретними циркадними фазовими інтервалами, використовуючи тест Фішера з методом обертового вікна. Список значущих біологічних процесів, пов'язаних з циркадними фазами в різних тканинах, наведено в таблиці S3. Найбільш поширеними з цих біологічних процесів були біосинтез стероїдів, реакція на тепловий шок і згортання білка. Біосинтез стероїдів був пов’язаний з CT22 в печінці, нирках, надниркових залозах, бурій жировій тканині (BAT) і білій жировій тканині (WAT). Реакція теплового шоку або згортання білка були пов’язані з CT16 в SCN, печінці, нирках, надниркових залозах, аорті, BAT, WAT, кістки щиколотки та всього мозку через велику кількість білків теплового шоку, які постійно демонструють циркадні фази поблизу CT16 у більшості тканин . У печінці метаболізм вуглеводів та амінокислот був пов’язаний із CT17 та CT15 відповідно, що узгоджується з підвищенням активності після вимкнення світла у миші. У BAT, WAT та надниркових залозах метаболізм ліпідів був пов'язаний з CT22. Негативна регуляція активності протеїнкінази була пов’язана з CT17 в префронтальній корі і CT21 у всьому мозку. Також були помітні відмінності в циркадних фазах деяких біологічних процесів між тканинами. Наприклад, трансляція білка була пов'язана з CT20 у SCN, але CT9 у WAT. Розвиток органів був пов’язаний з CT22 в серці і BAT, але CT10 в надниркових залозах.

Аналіз промоутера

Щоб перевірити зв'язок регуляції фактору транскрипції (TF) з циркадними коливаннями експресії генів, ми передбачили сайти зв'язування TF на мишачих промоторах циркадних коливальних генів у кожній тканині, використовуючи методи на основі матриці позиційної ваги (PWM). Спочатку ми перевірили, чи існує значне надмірне представлення сайтів зв’язування ШІМ TF на промоторах циркадних коливальних генів, використовуючи точний тест Фішера. Серед значних ШІМ ТФ ми знову перевірили їх асоціації з будь -якими конкретними фазовими інтервалами, використовуючи тест Фішера з методом обертового вікна. Щоб усунути надмірність у TF PWM, ми згрупували TF PWM в сімейства TF і усереднили пов’язані циркадні фази значних TF PWM в тих самих сімействах TF. Результати наведені в таблиці S4. EBOX, AP-2, CRE, SP1 та EGR були першими 5 сімействами TF, що асоціювали циркадну фазу в більшості тканин. Однак, на відміну від послідовних циркадних фаз загальних циркадних генів у тканинах, пов’язані циркадні фази значних сімейств TF значно відрізнялися між різними тканинами. EBOX асоціювався з CT12 у більшості тканин, включаючи SCN, печінку, аорту, наднирники, WAT, мозок, передсердя, шлуночок та префронтальну кору, але він був пов’язаний із CT0 у скелетних м’язах, BAT та гомілковій кістці. CRE послідовно асоціюється з CT11 у SCN, печінці, аорті, серці, надниркових залозах, гомілковій кістці, префронтальній корі та шлуночку, але з CT20 у передсердях. Було виявлено, що дві інші відомі сімейства TF, пов’язані з циркадним ритмом, RRE та DBOX, асоціюються з циркадною фазою лише у двох тканинах. RRE асоціювався з CT0 у печінці та WAT. DBOX асоціювався з CT16 в аорті та надниркових залозах.

Ідентифікація регуляторних взаємодій генів

Ми отримали дані мікрочіпів від нокауту TF або мутантів для Годинник, Arntl, Npas2, Nr1d1, Рора/Рорк, Egr1/Egr3, Dbp/половина/Теф, і Ppara в різних тканинах миші разом з Себпа/Cebpb/Cebpd/Cebpe дані мікрочипів трансфекції в клітинах NIH3T3. Для вивчення систематичного впливу глюкокортикоїдів, цАМФ та температури на добовий ритм ми включили дані мікрочипів з Nr3c1 (глюкокортикоїдний рецептор), Pka, і Hsf1 нокаути або мутанти у відповідь на DEX (агоніст глюкокортикоїдів), цАМФ та стимуляцію тепла відповідно, порівняно з мишами дикого типу. Ми також включили дані мікрочіпів з моделі миші з реакцією на світло, щоб ідентифікувати світлочутливі гени в SCN миші [10]. Повний перелік експериментів з нокаутом або мутантними мікроматрицями, використаних у цьому дослідженні, наведено у таблиці S5. Ми припустили, що гени-мішені TF будуть значно знижені у нокауті або мутантах порівняно з мишами дикого типу у випадку активаторів, а вгору-у випадку репресорів, таких як Nr1d1. Щоб ідентифікувати прямі цілі TF в експериментах з нокаутом або мутантами, ми вимагали, щоб гени, які значно постраждали від нокауту або мутанта, повинні мати принаймні один передбачуваний сайт зв’язування відповідних TF в промоторних областях. Відповідно до цих критеріїв, ми визначили 320 контрольованих генів EBOX, 295 RRE, 43 DBOX, 492 EGRE, 455 CRE, 326 GRE, 122 HSE, 607 CEBP та 516 PPRE (Таблиця S6). Для цих генів ми виділили їх середні циркадні фази, якщо вони мають послідовні циркадні фази в декількох тканинах (стор<1/3, тест кругового діапазону). Ми помітили, що EBOX значною мірою асоціюється з CT12 (стор& lt10 −6, точний тест Фішера), RRE з CT1 (стор& lt10 −6), DBOX з CT15 (стор& lt10 −5), HSE з CT17 (стор<10 −6 ) (Малюнок S3).

Циркадна регуляторна мережа генів

На основі цих регуляторних взаємодій ми побудували регуляторну мережу генів для циркадних коливальних генів у мишей. На малюнку 4 ми показуємо мережу, що складається з циркадних осцилюючих генів, ідентифікованих принаймні в 7 тканинах миші. Серед 81 циркадного осцилюючого гена, ідентифікованого щонайменше в 7 тканинах, 53 з них можна включити за допомогою 88 регуляторних взаємодій з 9 цис-регуляторних елементів у нашій мережі. Їх циркадні фази були представлені різними кольорами у колірному колі. Нам вдалося ідентифікувати майже всі відомі в літературі транскрипційні регуляторні взаємодії для поширених циркадних генів, за винятком EBOX → Per1, EBOX → Nr1d1, EBOX → Ppara, RRE → Nr1d1 і RRE → Cry1. Для подальшого укомплектування нашої мережі ми доповнили ці відсутні регуляторні взаємодії генів відомою інформацією про взаємодію білків (Per/Cry Arntl/Clock та Fkbp: Hsp90 Nr3c1) та інформацією про фосфорилювання білків (Csnk1d → Per/Cry та Gsk3b → Nr1d1) з літератури. Ці відносини показані червоним кольором на малюнку 4.

(A) Генна регуляторна мережа, що складається з циркадних осцилюючих генів, ідентифікованих принаймні в 7 тканинах миші. (B) The subset of network highlighting NR3C1 and FKBP/HSP90's role of integrating the regulatory inputs from diverse environmental signals into circadian genes. Blue arrows represent the gene regulatory interactions obtained in this study. Red arrows represent the known gene regulatory or protein interactions extracted from the literature. P stands for phosphorylation. White boxes represent цис-regulatory elements. Colored circles represent the genes with circadian phase information, where circadian phases are represented by the different colors in the color wheel. White circles represent protein complexes or genes without circadian phase information.

Two well-known negative feedback loops can be reconstructed from this analysis: Arntl/Clock → EBOX → Per1/Per2 Arntl/Clock and Nr1d1/Nr1d2 RRE → Arntl/Clock → EBOX → Nr1d1/Nr1d2. Two feedforward loops are attached to the negative feedback loops through Arntl/Clock → EBOX → Dbp → DBOX → Per1/Per2 acting as an alternative route of Arntl/Clock → EBOX → Per1/Per2 and Nr1d1/Nr1d2 RRE → Nfil3 DBOX → Per1/Per2 Arntl/Clock acting as an alternative route of Nr1d1/Nr1d2 RRE → Arntl/Clock. Bhlhb2 inhibiting EBOX is also regulated by EBOX and Nr1d1 inhibiting RRE is also regulated by RRE, therefore forming two auto-regulatory loops.

The effects of food and light act on common circadian genes directly through GRE and CRE respectively. GRE controls Per1 and Per2, while CRE controls Per1, Rora, Nr1d2, and Nfil3. As shown in Figure 4B, the effect of temperature acts on common circadian genes rather indirectly through the route HSE → Hsp90aa1 → Fkbp/Hsp90 Nr3c1 → GRE → Per1/Per2. Nr3c1 and the Fkbp/Hsp90 complex are also components of another negative feedback loop, Nr3c1 → GRE → Fkbp5 → Fkbp/Hsp90 Nr3c1, which may play an important role in glucocorticoid stimulation. Nr3c1 is also under the control of CRE and therefore may be responsive to light stimulation. Nr3c1 and the Fkbp/Hsp90 complex feed into EBOX by regulating Per1/Per2 through GRE. In turn, EBOX controls both components of the Fkbp/Hsp90 complex, i.e., Fkbp5 directly and Hsp90aa1 indirectly through EBOX → Ppara → PPRE → Hsp90aa1. Therefore, Nr3c1 and Fkbp/Hsp90 play central role of integrating the regulatory inputs from diverse environmental signals into circadian genes in our network (Figure 4B).


Подяки

We thank Colleen Russell, Ph.D. for her careful reading of this manuscript and suggestions.

The authors are supported by NIH (R24DK087669, P30DK46200, P30DK072476, DK082574 and 1RC2ES01871), the Society for Women’s Health Research ISIS Network on Metabolism, United States Department of Agriculture's Agricultural Research Service (58-1950-7-707), and the Evans Center for Interdisciplinary Biomedical Research, Department of Medicine, Boston University School of Medicine.


GRNs in Metazoan Development and Evolution

Here, we have focused on examples of the ways in which GRN subcircuits mandate developmental logic. The design features we have considered are devices used to drive the development of all animal embryos, and as the parallelism illustrated in Fig. 1 shows, disparate organisms, in different tissues, using different genes, nonetheless execute similar developmental decisions with the same circuit designs. We believe that in the near future a repertoire of such GRN subcircuits will be revealed, a repertoire that has been assembled in countless combinations throughout the evolution of diverse body plans among the Metazoa.

This PNAS Special Feature contains 10 articles covering a variety of contemporary topics relevant to the role of gene regulatory networks in animal development and evolution. The first 2 articles, by Hobert (19) and Hong та ін. (20), respectively, provide Perspectives on two long-standing problems in metazoan development. Hobert discusses recent advances in our understanding of the gene regulatory networks responsible for the specification of individual neuronal cell types in C. elegans (19). Гонконг та ін. (20) summarize the use of postgenome technologies in determining how different concentrations of the Dorsal transcription factor produce a variety of gene expression patterns in the early дрозофіла ембріон.

The next 4 articles are original research papers that present new insights into our understanding of how gene regulatory networks control different aspects of embryonic and postembryonic development, as well as changes in body patterning during animal evolution. The articles from Tumpel та ін. (21), Nikitina та ін. (22), Ochoa-Espinosa та ін. (23), and Smith and Davidson ( , 18) describe advances in basic embryonic patterning processes, including the specification of the posterior hindbrain in vertebrates, the specification of neural crest progenitors in lampreys, the combinatorial control of A/P patterning of the дрозофіла embryo, and the specification of the endomesoderm territory in the sea urchin embryo.

Two more articles are devoted to one of the major challenges in developmental biology, namely, unraveling the complex regulatory networks underlying the formation of postembryonic tissues and organs. The article by Ririe та ін. (24) examines vulva development in C. elegans, with an emphasis on how gene networks coordinate individual cells to produce a complex organ. Georgescu та ін. (25) examine the fascinating problem of T cell specification and diversification in the mammalian immune system. Evidence is presented for dynamic networks that are generally more plastic and reversible than those seen in hard-wired developmental processes such as endomesoderm specification in the sea urchin.

The final 2 research articles address problems in the evolutionary diversity of animal morphology. Валовий та ін. (26) explore the genome organization of the Mexican cavefish, Astyanax mexicanus, in an effort to understand the basis for its peculiar mode of adaptation, including the loss of eyes. Finally, Usui та ін. (27) investigate the large sensory bristles (macrochaetae) of the adult fruitfly as a paradigm for understanding the evolution of morphological diversity.


Анотація

The co-occurrence of diseases can inform the underlying network biology of shared and multifunctional genes and pathways. In addition, comorbidities help to elucidate the effects of external exposures, such as diet, lifestyle and patient care. With worldwide health transaction data now often being collected electronically, disease co-occurrences are starting to be quantitatively characterized. Linking network dynamics to the real-life, non-ideal patient in whom diseases co-occur and interact provides a valuable basis for generating hypotheses on molecular disease mechanisms, and provides knowledge that can facilitate drug repurposing and the development of targeted therapeutic strategies.


Зміст

At one level, biological cells can be thought of as "partially mixed bags" of biological chemicals – in the discussion of gene regulatory networks, these chemicals are mostly the messenger RNAs (mRNAs) and proteins that arise from gene expression. These mRNA and proteins interact with each other with various degrees of specificity. Some diffuse around the cell. Others are bound to cell membranes, interacting with molecules in the environment. Still others pass through cell membranes and mediate long range signals to other cells in a multi-cellular organism. These molecules and their interactions comprise a gene regulatory network. A typical gene regulatory network looks something like this:

The nodes of this network can represent genes, proteins, mRNAs, protein/protein complexes or cellular processes. Nodes that are depicted as lying along vertical lines are associated with the cell/environment interfaces, while the others are free-floating and can diffuse. Edges between nodes represent interactions between the nodes, that can correspond to individual molecular reactions between DNA, mRNA, miRNA, proteins or molecular processes through which the products of one gene affect those of another, though the lack of experimentally obtained information often implies that some reactions are not modeled at such a fine level of detail. These interactions can be inductive (usually represented by arrowheads or the + sign), with an increase in the concentration of one leading to an increase in the other, inhibitory (represented with filled circles, blunt arrows or the minus sign), with an increase in one leading to a decrease in the other, or dual, when depending on the circumstances the regulator can activate or inhibit the target node. The nodes can regulate themselves directly or indirectly, creating feedback loops, which form cyclic chains of dependencies in the topological network. The network structure is an abstraction of the system's molecular or chemical dynamics, describing the manifold ways in which one substance affects all the others to which it is connected. In practice, such GRNs are inferred from the biological literature on a given system and represent a distillation of the collective knowledge about a set of related biochemical reactions. To speed up the manual curation of GRNs, some recent efforts try to use text mining, curated databases, network inference from massive data, model checking and other information extraction technologies for this purpose. [4]

Genes can be viewed as nodes in the network, with input being proteins such as transcription factors, and outputs being the level of gene expression. The value of the node depends on a function which depends on the value of its regulators in previous time steps (in the Boolean network described below these are Boolean functions, typically AND, OR, and NOT). These functions have been interpreted as performing a kind of information processing within the cell, which determines cellular behavior. The basic drivers within cells are concentrations of some proteins, which determine both spatial (location within the cell or tissue) and temporal (cell cycle or developmental stage) coordinates of the cell, as a kind of "cellular memory". The gene networks are only beginning to be understood, and it is a next step for biology to attempt to deduce the functions for each gene "node", to help understand the behavior of the system in increasing levels of complexity, from gene to signaling pathway, cell or tissue level. [5]

Mathematical models of GRNs have been developed to capture the behavior of the system being modeled, and in some cases generate predictions corresponding with experimental observations. In some other cases, models have proven to make accurate novel predictions, which can be tested experimentally, thus suggesting new approaches to explore in an experiment that sometimes wouldn't be considered in the design of the protocol of an experimental laboratory. Modeling techniques include differential equations (ODEs), Boolean networks, Petri nets, Bayesian networks, graphical Gaussian network models, Stochastic, and Process Calculi. [6] Conversely, techniques have been proposed for generating models of GRNs that best explain a set of time series observations. Recently it has been shown that ChIP-seq signal of histone modification are more correlated with transcription factor motifs at promoters in comparison to RNA level. [7] Hence it is proposed that time-series histone modification ChIP-seq could provide more reliable inference of gene-regulatory networks in comparison to methods based on expression levels.

Global feature Edit

Gene regulatory networks are generally thought to be made up of a few highly connected nodes (hubs) and many poorly connected nodes nested within a hierarchical regulatory regime. Thus gene regulatory networks approximate a hierarchical scale free network topology. [8] This is consistent with the view that most genes have limited pleiotropy and operate within regulatory modules. [9] This structure is thought to evolve due to the preferential attachment of duplicated genes to more highly connected genes. [8] Recent work has also shown that natural selection tends to favor networks with sparse connectivity. [10]

There are primarily two ways that networks can evolve, both of which can occur simultaneously. The first is that network topology can be changed by the addition or subtraction of nodes (genes) or parts of the network (modules) may be expressed in different contexts. Файл дрозофіла Hippo signaling pathway provides a good example. The Hippo signaling pathway controls both mitotic growth and post-mitotic cellular differentiation. [11] Recently it was found that the network the Hippo signaling pathway operates in differs between these two functions which in turn changes the behavior of the Hippo signaling pathway. This suggests that the Hippo signaling pathway operates as a conserved regulatory module that can be used for multiple functions depending on context. [11] Thus, changing network topology can allow a conserved module to serve multiple functions and alter the final output of the network. The second way networks can evolve is by changing the strength of interactions between nodes, such as how strongly a transcription factor may bind to a cis-regulatory element. Such variation in strength of network edges has been shown to underlie between species variation in vulva cell fate patterning of Ценорхабдит хробаки. [12]

Local feature Edit

Another widely cited characteristic of gene regulatory network is their abundance of certain repetitive sub-networks known as network motifs. Network motifs can be regarded as repetitive topological patterns when dividing a big network into small blocks. Previous analysis found several types of motifs that appeared more often in gene regulatory networks than in randomly generated networks. [13] [14] [15] As an example, one such motif is called feed-forward loops, which consist three nodes. This motif is the most abundant among all possible motifs made up of three nodes, as is shown in the gene regulatory networks of fly, nematode, and human. [15]

The enriched motifs have been proposed to follow convergent evolution, suggesting they are "optimal designs" for certain regulatory purposes. [16] For example, modeling shows that feed-forward loops are able to coordinate the change in node A (in terms of concentration and activity) and the expression dynamics of node C, creating different input-output behaviors. [17] [18] The galactose utilization system of Кишкова паличка contains a feed-forward loop which accelerates the activation of galactose utilization operon galETK, potentially facilitating the metabolic transition to galactose when glucose is depleted. [19] The feed-forward loop in the arabinose utilization systems of Кишкова паличка delays the activation of arabinose catabolism operon and transporters, potentially avoiding unnecessary metabolic transition due to temporary fluctuations in upstream signaling pathways. [20] Similarly in the Wnt signaling pathway of Ксенопус, the feed-forward loop acts as a fold-change detector that responses to the fold change, rather than the absolute change, in the level of β-catenin, potentially increasing the resistance to fluctuations in β-catenin levels. [21] Following the convergent evolution hypothesis, the enrichment of feed-forward loops would be an adaptation for fast response and noise resistance. A recent research found that yeast grown in an environment of constant glucose developed mutations in glucose signaling pathways and growth regulation pathway, suggesting regulatory components responding to environmental changes are dispensable under constant environment. [22]

On the other hand, some researchers hypothesize that the enrichment of network motifs is non-adaptive. [23] In other words, gene regulatory networks can evolve to a similar structure without the specific selection on the proposed input-output behavior. Support for this hypothesis often comes from computational simulations. For example, fluctuations in the abundance of feed-forward loops in a model that simulates the evolution of gene regulatory networks by randomly rewiring nodes may suggest that the enrichment of feed-forward loops is a side-effect of evolution. [24] In another model of gene regulator networks evolution, the ratio of the frequencies of gene duplication and gene deletion show great influence on network topology: certain ratios lead to the enrichment of feed-forward loops and create networks that show features of hierarchical scale free networks. De novo evolution of coherent type 1 feed-forward loops has been demonstrated computationally in response to selection for their hypothesized function of filtering out a short spurious signal, supporting adaptive evolution, but for non-idealized noise, a dynamics-based system of feed-forward regulation with different topology was instead favored. [25]

Regulatory networks allow bacteria to adapt to almost every environmental niche on earth. [26] [27] A network of interactions among diverse types of molecules including DNA, RNA, proteins and metabolites, is utilised by the bacteria to achieve regulation of gene expression. In bacteria, the principal function of regulatory networks is to control the response to environmental changes, for example nutritional status and environmental stress. [28] A complex organization of networks permits the microorganism to coordinate and integrate multiple environmental signals. [26]

Coupled ordinary differential equations Edit

where the functions f j > express the dependence of S j > on the concentrations of other substances present in the cell. The functions f j > are ultimately derived from basic principles of chemical kinetics or simple expressions derived from these e.g. Michaelis–Menten enzymatic kinetics. Hence, the functional forms of the f j > are usually chosen as low-order polynomials or Hill functions that serve as an ansatz for the real molecular dynamics. Such models are then studied using the mathematics of nonlinear dynamics. System-specific information, like reaction rate constants and sensitivities, are encoded as constant parameters. [29]

By solving for the fixed point of the system:

for all j , one obtains (possibly several) concentration profiles of proteins and mRNAs that are theoretically sustainable (though not necessarily stable). Steady states of kinetic equations thus correspond to potential cell types, and oscillatory solutions to the above equation to naturally cyclic cell types. Mathematical stability of these attractors can usually be characterized by the sign of higher derivatives at critical points, and then correspond to biochemical stability of the concentration profile. Critical points and bifurcations in the equations correspond to critical cell states in which small state or parameter perturbations could switch the system between one of several stable differentiation fates. Trajectories correspond to the unfolding of biological pathways and transients of the equations to short-term biological events. For a more mathematical discussion, see the articles on nonlinearity, dynamical systems, bifurcation theory, and chaos theory.

Boolean network Edit

The following example illustrates how a Boolean network can model a GRN together with its gene products (the outputs) and the substances from the environment that affect it (the inputs). Stuart Kauffman was amongst the first biologists to use the metaphor of Boolean networks to model genetic regulatory networks. [30] [31]

  1. Each gene, each input, and each output is represented by a node in a directed graph in which there is an arrow from one node to another if and only if there is a causal link between the two nodes.
  2. Each node in the graph can be in one of two states: on or off.
  3. For a gene, "on" corresponds to the gene being expressed for inputs and outputs, "off" corresponds to the substance being present.
  4. Time is viewed as proceeding in discrete steps. At each step, the new state of a node is a Boolean function of the prior states of the nodes with arrows pointing towards it.

The validity of the model can be tested by comparing simulation results with time series observations. A partial validation of a Boolean network model can also come from testing the predicted existence of a yet unknown regulatory connection between two particular transcription factors that each are nodes of the model. [32]

Continuous networks Edit

Continuous network models of GRNs are an extension of the boolean networks described above. Nodes still represent genes and connections between them regulatory influences on gene expression. Genes in biological systems display a continuous range of activity levels and it has been argued that using a continuous representation captures several properties of gene regulatory networks not present in the Boolean model. [33] Formally most of these approaches are similar to an artificial neural network, as inputs to a node are summed up and the result serves as input to a sigmoid function, e.g., [34] but proteins do often control gene expression in a synergistic, i.e. non-linear, way. [35] However, there is now a continuous network model [36] that allows grouping of inputs to a node thus realizing another level of regulation. This model is formally closer to a higher order recurrent neural network. The same model has also been used to mimic the evolution of cellular differentiation [37] and even multicellular morphogenesis. [38]

Stochastic gene networks Edit

Recent experimental results [39] [40] have demonstrated that gene expression is a stochastic process. Thus, many authors are now using the stochastic formalism, after the work by Arkin et al. [41] Works on single gene expression [42] and small synthetic genetic networks, [43] [44] such as the genetic toggle switch of Tim Gardner and Jim Collins, provided additional experimental data on the phenotypic variability and the stochastic nature of gene expression. The first versions of stochastic models of gene expression involved only instantaneous reactions and were driven by the Gillespie algorithm. [45]

Since some processes, such as gene transcription, involve many reactions and could not be correctly modeled as an instantaneous reaction in a single step, it was proposed to model these reactions as single step multiple delayed reactions in order to account for the time it takes for the entire process to be complete. [46]

From here, a set of reactions were proposed [47] that allow generating GRNs. These are then simulated using a modified version of the Gillespie algorithm, that can simulate multiple time delayed reactions (chemical reactions where each of the products is provided a time delay that determines when will it be released in the system as a "finished product").

For example, basic transcription of a gene can be represented by the following single-step reaction (RNAP is the RNA polymerase, RBS is the RNA ribosome binding site, and Pro i is the promoter region of gene i):

Furthermore, there seems to be a trade-off between the noise in gene expression, the speed with which genes can switch, and the metabolic cost associated their functioning. More specifically, for any given level of metabolic cost, there is an optimal trade-off between noise and processing speed and increasing the metabolic cost leads to better speed-noise trade-offs. [48] [49] [50]

A recent work proposed a simulator (SGNSim, Stochastic Gene Networks Simulator), [51] that can model GRNs where transcription and translation are modeled as multiple time delayed events and its dynamics is driven by a stochastic simulation algorithm (SSA) able to deal with multiple time delayed events. The time delays can be drawn from several distributions and the reaction rates from complex functions or from physical parameters. SGNSim can generate ensembles of GRNs within a set of user-defined parameters, such as topology. It can also be used to model specific GRNs and systems of chemical reactions. Genetic perturbations such as gene deletions, gene over-expression, insertions, frame shift mutations can also be modeled as well.

The GRN is created from a graph with the desired topology, imposing in-degree and out-degree distributions. Gene promoter activities are affected by other genes expression products that act as inputs, in the form of monomers or combined into multimers and set as direct or indirect. Next, each direct input is assigned to an operator site and different transcription factors can be allowed, or not, to compete for the same operator site, while indirect inputs are given a target. Finally, a function is assigned to each gene, defining the gene's response to a combination of transcription factors (promoter state). The transfer functions (that is, how genes respond to a combination of inputs) can be assigned to each combination of promoter states as desired.

In other recent work, multiscale models of gene regulatory networks have been developed that focus on synthetic biology applications. Simulations have been used that model all biomolecular interactions in transcription, translation, regulation, and induction of gene regulatory networks, guiding the design of synthetic systems. [52]

Other work has focused on predicting the gene expression levels in a gene regulatory network. The approaches used to model gene regulatory networks have been constrained to be interpretable and, as a result, are generally simplified versions of the network. For example, Boolean networks have been used due to their simplicity and ability to handle noisy data but lose data information by having a binary representation of the genes. Also, artificial neural networks omit using a hidden layer so that they can be interpreted, losing the ability to model higher order correlations in the data. Using a model that is not constrained to be interpretable, a more accurate model can be produced. Being able to predict gene expressions more accurately provides a way to explore how drugs affect a system of genes as well as for finding which genes are interrelated in a process. This has been encouraged by the DREAM competition [53] which promotes a competition for the best prediction algorithms. [54] Some other recent work has used artificial neural networks with a hidden layer. [55]

Розсіяний склероз Редагувати

There are three classes of multiple sclerosis: relapsing-remitting (RRMS), primary progressive (PPMS) and secondary progressive (SPMS). Gene regulatory network (GRN) plays a vital role to understand the disease mechanism across these three different multiple sclerosis classes. [56]


Методи

Microarray data used in this study were obtained from the Gene Expression Omnibus (GEO) database at NCBI by Nov. 2 nd of 2009. GEO series with accession numbers GSE2361[4], GSE1133[6](2004 version of the Gene Atlas) and GSE7307[31] (the "human body index") were used to find molecular features in normal tissues and to derive the 56-gene template profiles. (Additional file 1: Table S1) Datasets GSE14334, GSE3204, GSE5364 and GSE6932 were used as testing data to further explore the biological implications of GETs. Datasets GSE1133, GSE2361, GSE5364 and GSE6932 were hybridized on the Affymetrix GeneChip HG-U133A and GSE7307 on the HG-U133plus2.0. The Affymetrix GeneChip HG-U133plus2.0 contained 54,675 probe sets (representing around 38,572 unique UniGene clusters) which cover all the 22283 probe sets (representing 14,593 unique UniGene clusters) synthesized on the HG-U133A. The additional 62 datasets used for large-scale tissue prediction had all been hybridized on either HG-U133A or HG-U133plus2.0. The accession identification as well as the associated information are summarized in Additional file 1: Tables S1 and S3.

Molecular annotation for selected genes

The gene sets were annotated by searching the databases at the DAVID server (http://david.abcc.ncifcrf.gov/home.jsp) with Entrez Gene [32] identifier as input. Cellular location and biological processes were searched against Gene Ontology (GO) [33]. The molecular functions were searched against PANTHER[34], since PANTHER gave a more complete set of biologically-relevant results for our gene set than GO. Pathways were searched against KEGG [35].

Аналіз мікрочіпів

For those datasets whose CEL files are available at GEO, the data were first subjected to quality assessment by AffyQualityReport to remove the poor quality arrays and then to RMA[36] processing for data normalization.

For identification of the 56 signature genes, this preprocessing procedure resulted in 143, 35 and 473 arrays for GSE1133, GSE2361, and GSE7307, respectively. Gene filtration was carried out by firstly selecting from each of the three training datasets the genes whose coefficients of variation ranked at top 2.5% of the entire transcriptome across different tissue types. The resulted highly variably expressed genes were then intersected to generate a set of candidate tissue-classifier genes which were later subjected to data redundancy elimination through hierarchical clustering against the 24 tissues commonly present in the three sets of training data. Following the hierarchical cluster analysis, one representative gene for each cluster was selected and additional genes with highly similar expression profiles got removed. This procedure resulted in 56 genes.

For tissue classification, the probe set intensities of the 56 genes or an equivalent number of random probe sets of the 24 selected tissues were extracted from each of the three GEO datasets using the programs Microsoft Access and Excel. The extracted probe intensities from the three datasets were then combined into a 56 × 72 matrix which was then subjected to hierarchical clustering with the GenePattern package [37] using Pearson correlation for similarity computing and average for clustering. Ten sets of 56 random probe sets were produced by a random number generation program written in C. Each set was used for a separate hierarchical clustering analysis.

Both AffyQualityReport and RMA were obtained from the Bioconductor package [38] in the R package (http://www.r-project.org/). Descriptive statistical analyses were computed using Excel while hierarchical clustering with the GenePattern package.

Tissue prediction using the 56 genes

Tissue prediction was performed following the KNN method (k-nearest neighbor) with k = 1. It compares the c.f. of the 56-gene profiles between a test tissue and each of our 24 tissue-specific GET profiles, one for each tissue type. The tissue type with highest correlation was nominated as our prediction. A computer program in R language was implemented to accomplish this task.

Dataset retrieval from GEO for large-scale tissue-prediction

Text The entire GEO database (2009-11-2 freeze) was searched with the following criteria: platform as GPL96 (Affymetrix HG-U133A) or GPL570 (HG-U133plus2.0), sample source containing one of the 24 distinguishable human organ/tissues and key word in the sample-related fields containing "normal". Two bioinformatics strategies were used to carry out the search: one was to apply SQL commands to the local MySQL database housing the data from the soft files of GPL96 and GPL570 which were imported from GEO website. The other strategy was to directly query the GEO database with Entrez keywords through the NCBI web interface. The union of both searching results was taken, followed by manual filtration to exclude irrelevant datasets that, for example, came from cell lines or specific cell types. Those datasets which had been contributed by the same research group as the three source datasets, GSE3526 for instance, were also removed from our test set. Expression profiles of the 56 genes were then extracted from the 61 resulting datasets.

Datasets of 56 gene expression values were organized into RMA-like or MAS-like according to the data preprocessing methods. For those datasets that had been normalized with MAS5 or equivalent method, logarithmic transformation was carried out prior to tissue-prediction analysis. For three datasets (GSE13355, GSE14951, GSE17539) it was hard to judge whether logarithm transformation was necessary and their CEL files were therefore preprocessed with AffyQualityReport followed by RMA normalization before tissue-prediction analysis.

Gene network construction

Gene networks were constructed with the MetaCore package using the algorithms "network analysis" and "receptor targets modeling". The algorithms are variants of the shortest paths algorithm where the main parameters are: 1) relative enrichment with the uploaded data (the 56 genes in this study), and 2) relative saturation of networks with canonical pathways. As a control for this network analysis, a set of 56 genes randomly selected from the Affymetrix microarray HG-U133A was entered as a query and no network was produced by either of the algorithms. The control experiments were repeated twice.