Комбинированный станок ml 392: Станок комбинированный ML 392 купить по цене 50 318 руб в Нижнем Новгороде с доставкой по РФ

Содержание

Комбинированный станок ML 392B1


 

Комбинированный станок ML392B1— это многофункцианальный станок позволяющий осуществлять комплексную обработку древесины и столярных изделий.

    Станок отлично себя зарекомендовал в условиях работы на малых предприятиях, фермерских и личных подсобных хозяйствах.

Данный станок обеспечивает следующие виды обработки:

  • пиление продольное, поперечное и под углом;
  • фугование;
  • рейсмусование с автоподачей;
  • выборка пазов шипов и проушин;
  • сверление перовыми сверлами;
  • фрезерование концевыми фрезами.
  • фрезерование пазов;
  • заточка строгальных ножей.

Отличительные особенности:

  • Станок ML392B1 имеет высокий уровень безопасности, все режущие инструменты имеют ограждения.
  • Жесткая станина и литые столы снижают вибрацию и сохраняют точность длительное время.
  • Станок удобен и прост в обращении.

Технические характеристики:

Максимальная ширина фугования / рейсмусования, мм     250
Диаметр ножевого вала, мм 72
Максимальная толщина снимаемого слоя, мм 3
Толщина заготовки при рейсмусовании, мм 6 — 120
Минимальная длина заготовки при рейсмусовании, мм 150
Длина фуговальных столов, мм   1100
Скорость подачи при рейсмусовании, м/мин   6,5
Частота вращения ножевого вала (сверла), об/мин       3500
Максимальный диаметр сверла, мм12
Максимальная толщина при пилении, мм       85
Диаметр дисковой пилы, мм  305
Частота вращения пильного вала, об/мин     3500
Напряжение, В 380 / 220
Мощность, кВт2.2 /1,5 
Габарит, мм1230*1530*1320
Транспортные габариты, мм1140*650*440
Масса, кг 190

 Цена 790 $

  СМОТРЕТЬ другие бытовые станки….

Станок деревообрабатывающий ML 392 СтройСАМ комбинированный

Технические характеристики:
Продольное строгание :
• Макс. ширина строгания200 мм
• Макс. глубина строгания3 мм
• Строгание под давлениемпресс строгание         
   толщина заготовки6 — 120 мм
   минимальная длина заготовки150 мм
• Скорость подачи при строгании6.5 м/ мин
• Скорость вращения ножевого вала3500 об/ мин
• Угол наклона направляющей0 — 45°
Распиливание :
• Макс. размер диска250 мм
• Скорость вращения диска3500 об/ мин
• Макс. глубина реза70 мм
• Макс. поперечная ширина распила270 мм
• Угол регулировки масштабной линейки± 45°
Прочее :
• Макс. диаметр сверления
12 мм
• Макс. глубина сверления90 мм
• Макс. глубина фрезерования10 мм
• Диаметр фрезы74 — 104 мм
• Толщина заготовки для фрезерования6 — 60 мм
• Макс. ширина фрезерования40 мм
• Диаметр шпинделя фрезыØ 20мм
• Мощность двигателя2,2 кВт
• Вес нетто/ брутто180/ 200 кг
• Габаритные размеры ( ДxШxВ )100 х 91 х 70 см

Многофункциональные станки (Комбинированные)

На сегодняшний день выбор деревообрабатывающего оборудования весьма велик, от бытовых станков до станков промышленных и целых автоматизированных линий для крупных предприятий. Столярные и плотницкие работы, изготовление мебели, заготовка пиломатериала, декорирование и другие работы – вот сферы, в которых востребованы различные станки для деревообработки.

Хорошим вариантом являются комбинируемые станки. Позволяя осуществлять на одном оборудовании различные операции, они экономят время и ускоряют производство.

Станки комбинированного типа могут выполнять:

  • поперечную распиловку и продольную;
  • фугование заготовки по плоскости и по кромке.

А так же ряд других операций, например – фальцевание и фрезеровку, строгание, сверление и срезку шипов, и так далее. Комбинированные станки обеспечивают идеальную геометрическую форму заготовки – достаточно только правильно задать станкам программу работы. Это передовые технологии, рассчитанные на то, чтобы значительно облегчать человеческий труд, делать его более продуктивным.

Оборудование комбинированного типа отличается простой в применении и удобством. Его можно использовать при строительстве, ремонтных и отделочных работах.

Для правильного выбора деревообрабатывающих станков необходимо обратить внимание на такие критерии работы оборудования, как степень его надежности, производительность и многофункциональность. Предполагаемая производительность и производительность желаемая, степень нагрузки, которую будет испытывать станок в ходе работы.

Если оборудование требуется для выполнения небольших объемов работы, стоит обратить внимание на модели станков со сварной станиной. Такой станок хорошо подходит для изготовления вагонки и других несложных и небольших видов пиломатериалов.

Если вы работает с заготовками, имеющими большое сечение, лучшим вариантом будет станок на литой станине. Он подходит для целей большого производства.

Технические характеристики современных комбинированных деревообрабатывающих станков открывают большие перспективы перед производством, значительно расширяя объем работ с деревом.

Если это привлекательное для вас описание, и вы задумались, что комбинированные станки могли бы значительно улучшить функционирование вашего предприятия – ждем вас на сайте компании «АСТехнология», где вы сможете выбрать станок и получить консультацию по работе с ним.

Многофункциональный деревообрабатывающий станок ML 392

Универсальный деревообрабатывающий рейсмусовый станок ML 392C широко применяется для строгания поверхности, строгания под давлением, пилении, фрезеровании и сверлении. Его главным достоинством является не только универсальность, но и небольшая масса, простота в эксплуатации и обслуживании.
Универсальный деревообрабатывающий станок ML 392C рекомендован для профессионального и частного использования при обработке деревянных деталей всех видов, при строительстве дома, изготовлении мебели, отделочных работах, создания поделок из дерева и в различных ремеслах. Данный станок предназначен только для обработки деталей из дерева, не допускается обработка

металлических и других материалов.

Технические характеристики:

Мощность — 2200 Вт.

Обороты — 3500 об/мин.

Ширина ножа — 200 мм.

Глубина пропила — 70 мм.

Толщина среза — 2.4 мм.

Вес брутто — 210 кг.

Вес нетто — 200 кг.

Тип — циркулярный

Дополнительно 5 функции: распиловка, фугование, рейсмусование, фрезерование, сверлильно-пазовальные работы.

Литая чугунная станина и рабочие столы 3-ножевой барабан.

Автоматическая подача при рейсмусовании.

Устройство защиты и ограждения.

Фугование:  

Число оборотов шпинделя — 4000 об/мин.

Максимальная ширина строгания — 250 мм.

Максимальная глубина строгания — 3 мм.

Число ножей — 3 шт.

Рейсмусование:

 Число оборотов шпинделя — 4000 об/мин.

Максимальная ширина строгания — 250 мм.

Максимальная глубина строгания — 3 мм.

Минимальная длина заготовки — 150 мм.

Высота пропускаемого материала — 6-120 мм.

Скорость автоматической подачи — 6,5 м/мин.

 Распиловка:

Число оборотов шпинделя — 3500 об/мин.

Максимальный диаметр пильного диска — 250х3,2х30 мм.

Максимальная величина поперечного реза — 300 мм.

Максимальная глубина пропила — 70 мм.

Фрезерование:

Внешний диаметр фрезы — 70-104 мм.

Посадочный диаметр фрезы — 20 мм.

Максимальная ширина фрезерования — 40 мм.

Толщина пропускаемого материала — 6-60 мм.

Сверлильно-пазовальные работы:

Максимальный диаметр сверла — 12 мм.

Максимальная глубина сверления — 90 мм.

оборудование для бизнеса в сервисе объявлений OLX.ua✔

280 000 грн.

Договорная

Хмельницкий Сегодня 03:30

Нововолынск Сегодня 03:22

Комбинированный многофункциональный станок 392 tgi Казахстан

Многофункциональный фрезерный станок — Servomill

Механический универсальный фрезерный станок с сервоприводами для единичнoгo пpoизвoдcтвa в ремонтно-механических и учебных мастерских ШВП по всем осям: — исключение ошибок; — повышенная точность; — уменьшение нагрева; — …

342 000 тнг

найдено: 378

Комбинированный станок JKM-300

ОСОБЕННОСТИ: Реверс электродвигателя Пиление: Регулировка глубины пропила при работе на боковом столе и с кареткой Рабочий стол из чугунного литья Регулируемый параллельный упор Съемный регулируемый стол для выпиливания …

960 000 тнг/шт

найдено: 2

Погрузчик быстросъемный многофункциональный ТУРС

Погрузчик ТУРС предназначен для погрузки различных грузов (сена, соломы, навоза, минеральных удобрений, песка и т.п.) в транспортные средства, смесительные установки и машины для внесения удобрений, для механизации внутр…

Комбинированный культиватор

Комбинированный культиватор Без боронн AKTDT-7A AKTDT-9A AKTDT-11A AKTDT-13A AKTDT-15A Рабочая ширина(см) 170 220 270 320 370 С 1-рядной бороной AKTDT-7A AKTDT-9A AKTDT-11A AKTDT-13A AKTDT-15A Рабочая ширина 170 220 270 …

Мини-погрузчик Mustang 2012 многофункциональный

Mustang 2012 Краткие характеристики Грузоподъемность 385 кг Мощность 24 л.с. Вес 1352 кг Мини погрузчик MUSTANG 2012 (США) Многофункциональный мини погрузчик MUSTANG 2012 — cамая компактная модель из универсальных малога…

Многофункциональный кран-манипулятор МКМ-200К

Кран-манипулятор на базе КАМАЗ МКМ-200К отличается высокой проходимостью, надежностью и маневренностью, предназначен для дальнего обслуживания коммуникаций, дорожных и строительных объектов. Широко используется службами …

4 050 тнг

найдено: 5

Многофункциональный спрей Multi-Cobra, 400 мл

Мультифункциональная смазка 400 мл. Многофункциональный спрей для широкого диапазона применений Смазывает, очищает и сохраняет в рабочем состоянии Для смазки замков, петель, втулок, цепей, дверных замков Предотвращает ск…

Складной комбинированный агрегат дисковый СКАД-5,8х4

Складной комбинированный агрегат дисковый СКАД-5,8х4 Предназначен для основной и предпосевной обработки всех видов почв по энергосберегающим технологиям, во всех агроклиматических зонах, под зерновые, технические и кормо…

17 800 тнг

найдено: 54

Искробезопасный комбинированный ключ NSB002 Bahco

■■ Комбинированный ключ метрических размеров ■■ Материал: Алюминий-Бронза ■■ 12-гранный рабочий профиль Dynamic-Drive минимизирует возможность повреждения граней гайки ■■ Крупная и стандартная для всех ключей маркировка …

85 920 тнг/шт

найдено: 8

Аккумуляторный многофункциональный инструмент C12 MT-202B

• Универсальное аккумуляторное устройство для решения задач, включающих операции резки и снятия материала • REDLINK™ — защита от перегрузки в инструменте и аккумулятор обеспечивающий лучший в классе уровень защиты • Регу…

59 995 тнг

найдено: 2

Многофункциональный инструмент DeWALT DWE315-QS

Мощность -300 Вт Скорость вращения – 22000 об/мин Амплитуда колебания — 0- 22000 300 Вт, 22000 об/мин, 1,5 кг DeWalt DWE315 обладает набором характеристик, в общем-то типичных для подобного инструмента. Это и быстрая бес…

Каток дорожный комбинированный DM-07-VC

DM-07-VC предназначен для уплотнения песчаных и щебенистых грунтов асфальто-бетонных смесей (АБС) при больших, средних и малых объемах работ по устройству покрытий и оснований на автомобильных, городских дорогах общего п…

9 500 000 тнг/ед

найдено: 1

Комбинированный каток BOMAG BW131

Японский комбинированный каток Bomag Технические характеристики: * марка Bomag * год выпуска 2015, 2600 м/ч * конструкционная масса: 4000 кг. * ширина вальца: 1300 мм. * Идеальное состояние * Произведена предпродажная по…

1 597 000 тнг/шт

найдено: 7

Плуг скоростной комбинированный ПСК-5

Внимание Спецпредложение до Нового года для Вас дорогие клиенты!! Плуг скоростной комбинированный унифицированный ПСК-5 Высокоэффективный пятикорпусной плуг Плуг ПСКу-5 предназначен для основной отвальной и безотвальной …

55 600 тнг/шт

найдено: 1

Сепаратор Сич 100 (комбинированный)

Сепаратор «Сич-100» комбинированный С сепаратором «Сич-100» (комбинированный) вкуснейшая продукция гарантирована. Чаша, внутренний механизм изготовлены из металла, а корпус из полипропилена. Полипропилен, поликарбонат – …

Многофункциональный деревообрабатывающий станок prorab | Домострой

Деревообрабатывающий многофункциональный станок Белмаш.

BELMASH SDMR-2500 Станок деревообрабатывающий многофунк.

Белмаш СДМП-2200 Станок деревообрабатывающий многофункц.

Многофункциональный деревообрабатывающий станок 5625 PR.

Станок деревообрабатывающий белмаш СДМ-2000

Станок белмаш S004A СДМП-2200 деревообрабатывающий унив.

Станок деревообрабатывающий комбинированный белмаш SDM-.

Многофункциональный деревообрабатывающий станок Белмаш.

Станок деревообрабатывающий Белмаш УНИВЕРСАЛ-2000

Комбинированный деревообрабатывающий станок Белмаш СДМП.

Нож для комбинированного деревообрабатывающего станка P.

Деревообрабатывающий многофункциональный станок Белмаш.

Комбинированный станок Prorab 5603

Многофункциональный деревообрабатывающий станок Завод Б.

Белмаш могилев 2.4 станок деревообрабатывающий многофун.

BELMASH SDM-2200M станок деревообрабатывающий многофунк.

Деревообрабатывающий универсальный станок Энкор Корвет-.

Многофункциональный деревообрабатывающий станок 5615 PR.

Энкор Корвет-320 Многофункциональный деревообрабатывающ.

Станок деревообрабатывающий универсальный Энкор Корвет.

Станок деревообрабатывающий белмаш многофункциональный.

BELMASH SDM-2500PRO станок деревообрабатывающий многофу.

SDMR-2500 BELMASH Станок деревообрабатывающий многофунк.

Станок деревообрабатывающий Белмаш УНИВЕРСАЛ-2000

Станок распиловочный Спец «СРС-2000» СПЕЦ-326.

Станок деревообрабатывающий универсальный спец СРС-2000

Станок деревообрабатывающий Энкор Корвет-322 93220

Станок деревообрабатывающий КОРВЕТ-320 энкор

Станок деревообрабатывающий комбинированный белмаш SDM-.

Станок белмаш деревообрабатывающий многофункциональный.

Станок деревообрабатывающий многофункциональный SDM-200.

Станок деревообрабатывающий универсальный Энкор Корвет-.

Станок деревообрабатывающий многофункциональный Белмаш.

Станок белмаш S016A СДМ-2500М деревообрабатывающий унив.

Комбинированный деревообрабатывающий станок Белмаш СДМП.

BELMASH MOGILEV 2.0 Станок деревообрабатывающий многофу.

Станок деревообрабатывающий белмаш СДМ-2200

Комбинированный деревообрабатывающий станок Белмаш СДМП.

Станок деревообрабатывающий белмаш SDM-2200M

Универсальный станок деревообрабатывающий Энкор Корвет-.

Станок деревообрабатывающий многофункциональный SDM-200.

220 (50 Гц) Номинальная потребляемая мощность, Вт. 1600 Тип двигателя коллекторный Частота вращения ножевого барабана, об/мин

Станок деревообрабатывающий ББК 5902

Станок деревообрабатывающий белмаш сдмп 2200 S004A

Станок деревообрабатывающий универсальный энкор Корвет-.

Многофункциональный деревообрабатывающий станок 5600 PR.

Многофункциональный деревообрабатывающий станок Энкор К.

Станок деревообрабатывающий универсальный Белмаш SDM-25.

Станок белмаш деревообрабатывающий многофункциональный.

  • Наличие — в наличии
  • Тип оплаты :
  • Метки:
  • Статистика продаж
  • Комбинированный станок OMERSAN модель «05» (Турция) 42 500.00 р./шт
  • Станок деревообрабатывающий Prorab 5630 42 315.00 р./шт
  • Makita 2704 Настольный распиловочный станок 21 481.00 р./шт
  • Станок деревообрабатывающий Prorab 5610 20 460.00 р./шт
  • Интерскол СМ-60/150 Многофункциональный деревообрабатывающий станок 22 990.00 р./шт
  • Станок токарный металлообрабатывающий СТМ — 350 28 592.00 р./шт
  • Электроинструмент:STURM:Станки, Металлообработка :Деревообрабатывающий станок Sturm WM1921 23 443.00 р./шт
  • Станок деревообрабатывающий Энергомаш ДМ-19210 23 443.00 р./шт
  • Многофункциональный деревообрабатывающий станок ML 393A 39 830.00 р./шт
  • Ручной вырубной станок HP-20 21 000.00 р./шт
  • Станок деревообрабатывающий Prorab 5620 33 015.00 р./шт
  • Кромкооблицовочный станок модель КМ 40.Акция. 28 000.00 р./шт
  • Станок камнерезный СКЭ-350/600 (ЛЗСОМЛебедянь) 22 358.00 р./шт
  • Станок деревообрабатывающий МУРАВЕЙ СД — 4 — 01 20 670.00 р./шт
  • Кромкооблицовочный станок модель КМ-43.Спецпредложение по цене. 36 500.00 р./шт
  • Станок деревообрабатывающий Prorab 5620 33 015.00 р./шт
  • Многофункциональный деревообрабатывающий станок ML 392 26 212.00 р./шт
  • Кромкооблицовочный станок модель КМ-450.Спецпредложение 38 000.00 р./шт
  • Станок комбинированный Кратон WM-Multi-06 34 490.00 р./шт
  • Станок деревообрабатывающий Prorab 5630 42 315.00 р./шт

Отзывов пока нет.

Вы можете отправить сообщение компании или задать интересующий вас вопрос, заполнив форму ниже.

Площадка для поиска отраслевых и потребительских товаров и услуг, а также компаний и производителей Москва

добавить к сравнению 36702

Производитель: PRORAB

Артикул: 5615

Многофункциональный деревообрабатывающий станок PRORAB 5615 способен выполнять такие операции, как фрезерование фрезой и сверлами, строгание по плоскости и под углом, распил по плоскости и под углом как вдоль, так и поперек волокон древесины. Для удобства пользователя оборудование оснащено практичным столом 75х51 см. Возможность подключать промышленный пылесос позволяет содержать в чистоте рабочую зону при эксплуатации техники. Наличие линеек-упоров дает возможность быстро и эффективно обрабатывать доски или древесные материалы без предварительной разметки. Многофункциональность станка позволяет использовать данную модель вместо нескольких узкоспециализированных машин.

мощность (Вт)2.2
напряжение (В)220
обороты шпинделя (об/мин)5500
диаметр пильного диска (мм)250
диаметр посадочного отверстия (мм)32
max глубина вертикального пропила (мм)80
max ширина строгания (мм)250
max глубина строгания (мм)3
max диаметр сверления (мм)13
размер рабочего стола750×510 мм

Особенности

Антивибрационная устойчивая станина;

Отличное качество материалов;

Широкий спектр применения.

Комплектация

Расклинивающий нож для пиления;

Стол для фрезерования и сверления;

Прижимное устройство для прямого строгания с крепежом;

Линейка (упор) для прямого и углового строгания с крепежом;

Линейка (упор) для продольного пиления под углом с крепежом;

Линейка для поперечного пиления под углом с крепежом;

▷ Комбинированные деревообрабатывающие станки на продажу

Для эффективного и удобного деревообрабатывающего агрегата комбинированный деревообрабатывающий станок объединяет множество инструментов на одном регулируемом столе .

Комбинированный станок для деревообрабатывающего процесса в мастерской

Обзор комбинированных станков для деревообработки

Комбинированный деревообрабатывающий станок — это блок, который объединяет более одного функционального инструмента или устройства для деревообрабатывающего оборудования . Типичным примером могут служить комбинированные деревообрабатывающие станки, оснащенные ленточной пескоструйной лентой и столовой пилой, что позволяет пользователю легко резать деревянные доски, а затем шлифовать их на одном устройстве.

Конструкция комбинированного деревообрабатывающего станка

Конструкция комбинированного деревообрабатывающего станка такова, что пользователь может легко настраивать стол и манипулировать им для различных операций, будь то вращение определенной секции для использования ленточной пилы или открытие отделения для ленточного шлифования . Питание каждой функциональной особенности устройства может поступать от одного источника или нескольких двигателей.

Обработка древесины на комбинированном деревообрабатывающем станке

Типы комбинированных деревообрабатывающих станков

Эти станки объединяют в себе различные инструменты, а некоторые типы включают определенные комбинации.Shopsmith — это комбинированный станок по дереву, который преимущественно используется для формовки дерева и, следовательно, включает в себя такие инструменты, как шлифовальные машины , столовые пилы и сверлильные станки . Европейские комбинированные деревообрабатывающие станки обычно имеют долбежный станок, фуганок, формирователь и режущий инструмент для профессионального применения.

Производители подержанных комбинированных деревообрабатывающих станков на продажу

Комбинированные деревообрабатывающие станки на продажу можно приобрести у таких компаний, как FELDER, ROBLAND, ROJEK, MINI-MAX, KITTY, DEELEE & LUREM.Базовые модели и решения среднего класса производятся такими брендами, как Hammer и Veba. Naik, торговая марка выставленных на продажу комбинированных деревообрабатывающих станков, предлагает решения с ЧПУ для автоматизированного и компьютеризированного использования.

MAC AFRIC 392CI Многофункциональный деревообрабатывающий станок

Политика отгрузки и доставки

ЗАКАЗЫ ПО ДОСТАВКЕ ОТПРАВЛЯЮТСЯ КУРЬЕРОМ С НАШЕГО СКЛАДА (В JHB AEROTON). ПОЖАЛУЙСТА, ВЫБЕРИТЕ КОЛЛЕКЦИЮ В БЛИЖАЙШЕМ МАГАЗИНЕ, ЕСЛИ ВАМ СРОЧНО НУЖНЫ ТОВАРЫ ЖЕ ДЕНЬ.

Пожалуйста, разместите свой заказ онлайн, чтобы получить его в любом магазине (бесплатно), или выберите доставку, при которой ваша корзина будет указана за небольшую плату в зависимости от веса и вашего адреса доставки.

В настоящее время доступно 2 варианта доставки

Доставка. Стоимость доставки рассчитывается в зависимости от объемного веса и вашего адреса доставки.

Главные городские центры обычно имеют более низкую стоимость по сравнению с районами за пределами основных центров. Корзина рассчитывается на основе вашего почтового индекса и объемного веса всего заказа.

Срок доставки большинства заказов: 4-6 рабочих дней.

Заказы, размещенные до 15:00 рабочего дня (с понедельника по пятницу, кроме праздничных дней), обычно отправляются нашими партнерами по доставке на следующий рабочий день. Fastway для предметов весом менее 30 кг и MDS Collivery для предметов весом более 30 кг. Более крупные заказы (заказы с более чем одним товаром) могут быть отправлены на следующий рабочий день.

Это не гарантия, а наилучший сервис, но большинство заказов, размещенных в течение рабочего дня (с понедельника по пятницу), всегда будут доставлены в течение 4–6 рабочих дней, при этом большая часть заказов будет выполнена в это время.В случае задержек, когда мы предполагаем, что это займет больше времени, мы сообщим вам о ходе выполнения.

Размещение более отдаленных районов за пределами основных центров в некоторых редких случаях может занять больше времени, чем наши 6 рабочих дней. Задержки чаще всего связаны с нечеткими адресами доставки, поэтому, пожалуйста, предоставьте нам как можно больше информации, чтобы избежать задержек.

СПЕЦИАЛЬНОЕ УВЕДОМЛЕНИЕ ДЛЯ ТЯЖЕЛЫХ ГРУЗОВ. ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ, ЧТО ДЛЯ ТОВАРОВ БОЛЕЕ 100 КГ НЕ МОЖЕТ РАЗГРУЗИТЬ ДАННЫЕ ТОВАРЫ вручную. ЗАКАЗЫВАЙТЕ ТЯЖЕЛЫЕ ГРУЗЫ БОЛЕЕ 100КГ, ЕСЛИ ВЫ МОЖЕТЕ ЗАГРУЗИТЬ ТОВАР НА МЕСТЕ ДОСТАВКИ.

Отслеживание: Мы добавляем примечание к каждому заказу перед его получением, оно отправляется по электронной почте на адрес электронной почты, используемый в процессе оформления заказа, поэтому убедитесь, что вы используете правильный адрес, и вы можете проверить электронную почту при отправке. Для MDS вам также будет отправлено SMS, когда вас заберут. Fastway также отправит электронное письмо при получении. Ваш заказ будет отмечен как завершенный при сканировании выбранным партнером по доставке.

Мы не несем ответственности за задержки доставки курьером, но тесно сотрудничаем с нашими тщательно отобранными партнерами и упаковываем товары, чтобы гарантировать отсутствие повреждений в случае повреждения или пропажи товара. Напишите нам по адресу tooltime @ adendorff.co.za с номером вашего заказа, и мы выполним нашу гарантию.

Большинство задержанных заказов связано с неверной информацией о доставке. Поэтому не забудьте указать правильное название улицы и пригород, а также любую дополнительную информацию, необходимую для выполнения вашего заказа.

Стоимость доставки : Adendorff Machinery Mart стала партнером Fastway и MDS Collivery. Ставка рассчитывается на основе вашего адреса доставки и общего объемного веса всего заказа. Он использует наивысшее из двух значений (вес или размер).Adendorff не добавляет никаких дополнительных сборов к стоимости доставки, и эта плата используется только для отправки товара нашим клиентам и покрытия таких расходов, как упаковка и маркировка. Обращаем ваше внимание на то, что при планировке площади требуется более высокая плата. Если вы считаете, что размер комиссии невыгоден, сообщите нам об этом по адресу [email protected].

2: Получение в выбранном отделении БЕСПЛАТНО бесплатно, только стоимость товаров в корзине.

Чтобы разместить онлайн-заказ на самовывоз, просто просмотрите наш огромный ассортимент товаров на нашем сайте.При добавлении товара в корзину вам будет предложено выбрать магазин или доставку, если хотите. После того, как магазин выбран, вы можете добавлять продукты и оформлять заказ с помощью нашего безопасного процесса оформления заказа. Вы можете заказать только те товары, которые есть в магазине на данный момент, в течение 10 минут. Обратите внимание: в редких случаях товар может быть распродан из-за посещаемости магазина. В этом случае наш торговый персонал свяжется с вами, чтобы завершить заказ в соответствии с требованиями наших клиентов.

В процессе оформления заказа вы можете указать имя человека, который забирает (если вы забираете), или, если вы хотите отправить курьера для получения от вашего имени, нам потребуется имя курьера.

Все товары на складе проверяются онлайн в нашем магазине, однако в некоторых случаях из-за активности в магазине товар может быть готов не сразу. Вы получите электронное письмо с подтверждением, что ваш заказ готов к получению в выбранном магазине. В электронном письме также будет указан адрес выбранного магазина.

Если у вас возникли технические проблемы с веб-сайтом (или проблемы с доставкой через Интернет), свяжитесь с нами по телефону 011 434 7000 (запросите онлайн-продажи) или отправьте электронное письмо в службу технической поддержки веб-сайта по адресу tooltime @ adendorff.co.za.

По общим вопросам продаж и предложений обращайтесь или пишите в любой магазин по адресу: https://www.adendorff.co.za/store-locator/

Здравоохранение | Бесплатный полнотекстовый | Классификация биомедицинских текстов для сердечно-сосудистых заболеваний с помощью глубокой нейронной сети с использованием метода представления взвешенных признаков

1. Введение

Задача классификации текстов (TC) эволюционировала в течение последнего десятилетия и стала одной из самых интересных областей в машинном обучении. Назначение классов невидимым данным путем выявления закономерностей, которыми может поделиться каждый класс, является наиболее мотивирующей задачей в TC.Однако есть предварительный этап, который модель классификации должна пройти перед категоризацией данных, то есть представлением признаков. Представление функции — это этап преобразования текстовых данных в соответствующую форму, такую ​​как числовые векторы с плавающей запятой, распознаваемые классификатором [1]. Чем эффективнее используемый метод представления признаков, тем лучше способность классификатора обнаруживать закономерности среди данных [1,2]. Пакет слов (BoW) и встраивание слов (WE) — это два наиболее часто используемых метода представления признаков в TC. .Эти два метода являются мощными в системах классификации, но их рабочий механизм отличается от одного к другому. Пакет слов (BoW) — это метод, который представляет весь текст, будь то документы или предложения, в виде списка слов. Эти слова сохраняются в матрице для последующего вычисления, независимо от их смысловой формы и игнорирования их синтаксиса, грамматики и семантических отношений между ними. Частота термина (TF) и частота термина с обратной частотой документа (TF☓IDF) являются примерами методов BoW.С другой стороны, методы встраивания слов (WE) позволяют обнаруживать синтаксис и контекстные отношения между словами [1,2]. Оба метода имеют важные преимущества при представлении функций данных, но может быть более выгодным создать мощную модель представления взвешенных признаков, объединив их оба. Таким образом, можно принять во внимание преимущества обоих методов при разработке системы классификации. По этой причине существует множество систем классификации, которые могут использовать расширенное представление взвешенных объектов, например, многоклассовые и многозначные системы классификации.Некоторые могут путать многоклассовые и многозначные системы, возможно, считая их одним и тем же. Но это совершенно разные системы. Мультиклассовая система классификации направлена ​​на классификацию документов в один класс по нескольким (т. Е. Более чем двум) классам [3]. С другой стороны, системы с несколькими ярлыками присваивают один или несколько классов конкретному документу [4]. Обе системы классификации страдают от общих проблем, таких как несбалансированность классов, работа с большим количеством классов и зависимость меток.Таким образом, обе системы классификации пытаются выделить эти проблемы и предложить правильные решения для их решения. Несбалансированность классов — серьезная проблема, особенно если вы имеете дело с большим количеством классов. Основные классы, относящиеся ко многим документам, будут доминировать в классификации, что может привести к ложным срабатываниям или отрицаниям. Между тем, для большого количества классов этот вопрос играет еще одну важную роль в процессе классификации. Чем больше ярлыков задействовано, тем сложнее процесс классификации.В качестве альтернативы проблема зависимости меток может быть полезна для моделей с несколькими метками, но вредна для систем с несколькими классами. В системах с несколькими метками, чем больше классов зависит друг от друга, тем эффективнее назначать несколько классов конкретному документу [4], тогда как в задаче с несколькими классами каждый документ должен сохранять уникальные особенности определенного класса, а не поделитесь ими с другими классами. В этом случае трудно обеспечить независимость этикеток, что отрицательно сказывается на характеристиках системы классификации [3].В конце концов, все эти проблемы могут быть частично или полностью решены путем улучшения методов представления признаков.

Основным вкладом данной статьи является предоставление метода взвешенного представления признаков для классификации биомедицинских текстов и его реализации в тематическом исследовании сердечно-сосудистых заболеваний. Наше исследование в первую очередь сосредоточено на сочетании двух различных методов представления признаков, таких как WE и BoW, для повышения эффективности системы классификации биомедицинских мультиклассовых текстов.Во-первых, мы создали языковую модель для представления функций, используя в обучении два популярных набора биомедицинских данных, а именно PubMed и MIMIC-III. Затем мы предложили серию подходов к взвешиванию для объединения двух представлений признаков. Впоследствии мы оценили их с помощью серии экспериментов с использованием различных алгоритмов машинного обучения и показали, что наш метод взвешенного представления признаков хорошо работает при многоклассовой классификации биомедицинских текстов.

Остальная часть статьи организована следующим образом.В разделе 2 представлены некоторые важные исследования, касающиеся улучшения систем WE. В разделе 3 представлена ​​наша методология, которая начинается со сбора наборов данных, создания методов представления функций, создания гибридных моделей и, наконец, тестирования двунаправленной модели глубокого обучения LSTM. Раздел 4 представляет наш экспериментальный процесс установки, показывает наши результаты и представляет их обсуждение. Наконец, Раздел 5 завершает документ и представляет краткое изложение нашей системы, наших результатов и дает прогноз по этой проблеме для возможной будущей работы.

2. Связанные работы

Несколько исследований в литературе касались ценных работ по встраиванию слов для целей биомедицинской классификации текстов. Например, система встраивания слов Sentence2Vec использовалась для построения характеристик векторов [5]. Этот метод работает как основанный на предложениях WE (т.е. каждый вектор представляет собой целое предложение вместо слова). Позже система встраивания слов была протестирована на задаче мультиклассовой классификации, которая зависит от классификации мультиклассовых признаков корпуса рака [5].Другое исследование [4] касалось создания биомедицинской системы WE, в которой была предпринята попытка построить биомедицинскую систему WE путем объединения нескольких эталонных систем WE, а именно FastText, Word2Vec и Glove. Считалось, что преимущества этих систем WE могут быть объединены путем комбинирования векторов, возникающих в результате каждой из них. Комбинированная система WE использовалась для классификации испанских электронных медицинских карт (HER), которые были аннотированы кодами МКБ-10 [4]. С другой стороны, Xang et al.[6] предложили биомедицинскую систему WE, которая зависит от кодировщиков предложений для создания векторов, которая использовалась в качестве метода представления признаков в их модели классификации с несколькими метками. После этого они построили сверточную модель остаточной нейронной сети для классификации когорты EHR, собранной у пациентов в Duke Hospital. Кроме того, они использовали машину Больцмана для захвата и обнаружения зависимости этикеток. В целом, все ранее упомянутые исследования доказали, что, используя WE на основе предметной области в биомедицинской области, можно изменить производительность, а не использовать WE немедицинского характера.Следовательно, существует множество исследований, направленных на развитие и улучшение существующих систем WE. В настоящее время в обществе биомедицинского и небиомедицинского машинного обучения (ML) происходит улучшение работы с помощью систем WE. Усовершенствования явились результатом изучения различных наборов данных [2,5,7,8], различных систем WE [9,10,11,12] или объединения различных методов представления функций [13,14]. Поскольку улучшение WE путем объединения нескольких методов представления функций входит в объем данного исследования, мы сосредоточимся только на рассмотрении связанных с ним исследований здесь.Комбинация нескольких методов представления признаков может быть осуществлена ​​двумя способами: либо в рамках WE-систем, либо путем комбинирования двух или более различных методов представления признаков. Например, Pagliardini et al. [15] работали над созданием системы WE в форме предложений и назвали ее Sent2Vec. Процесс комбинирования был выполнен путем взятия среднего из векторов слов, которые находятся в контексте конкретного предложения. С другой стороны, Ле и Миколов [16] построили WE-систему на основе документов, которая отображала один документ в один вектор.Все векторы слов в конкретном документе были усреднены или объединены для представления одного уникального вектора. Тем не менее, есть несколько исследований, в которых объединились два или более различных метода представления признаков, такие как WE и BoW. Enríquez et al. [13] построили систему классификации настроений в зависимости от сочетания WE и BoW. Метод комбинирования зависит от простой системы голосования, которая генерирует значение достоверности обоих методов представления признаков. Поскольку эти значения находятся между нулем и единицей, они рассчитали среднее значение обоих методов.С другой стороны, Hu et al. [17] создали систему рекомендаций, которая получает похожие отчеты об ошибках. Их система нацелена на использование четырех различных векторных представлений или оценок сходства с помощью четырех различных методов. Первая оценка учитывала метод BoW, а вторая — WE. Третья оценка сходства была создана для продукта и компонента ошибки, которые больше фокусировались на структурных отношениях между двумя ошибками. И, наконец, четвертая оценка сходства зависела от скрытой связи между двумя ошибками на уровне документа.В результате использованная комбинированная техника считалась окончательной оценкой = (оценка1 + оценка2 + оценка4) × оценка3. На этом этапе система рекомендовала k отчетов об ошибках, наиболее похожих на данную ошибку запроса. Шмидт [18] попытался улучшить работу над системами встраивания слов, объединив их с некоторыми методами взвешивания TF-IDF. Они выполнили несколько методов взвешивания, а именно частоту термина (TF), обратную частоту документа (IDF) и плавную обратную частоту, а также функцию субдискретизации, используемую в модели Word2vec.Однако созданные векторы внедрения слов были реализованы на уровне документа, который агрегировал все соответствующие векторы слов. Затем они вычислили взвешенную сумму каждого метода взвешивания для конкретного слова с соответствующим вектором встраивания слов. Согласно их результатам, метод взвешивания IDF превзошел другие по показателям производительности ROC и AUC. Liu et al. [19] представляют другой взвешенный подход, который зависит от BoW и WE. Комбинированная техника началась с вычисления весов каждого члена в корпусе.Их подход к взвешиванию зависел от двух общих методов BoW, а именно TF-IDF и вероятности класса. Вероятность класса — это частота каждого термина в определенном классе. Они предположили, что их модель может распознавать важность и / или уникальность терминов в определенной области класса, добавляя информацию о вероятности класса к весам TF-IDF. После этого они суммировали полученные веса с каждым вектором термов, используя простую операцию умножения. Чжоу и др. [20] провели еще одно ценное исследование, в котором использовалась гибридизация трех подходов НЛП, а именно BoW, тематического моделирования и встраивания слов.Сначала они рассчитали оценки TF-IDF для каждого термина в конкретном документе, а затем использовали подход тематического моделирования LDA для представления тем с помощью терминов. После этого они извлекли векторы встраивания слов для всех терминов в корпусе. Они пытались объединить упомянутые выше подходы двумя способами. Первый из них объединил оценки TF-IDF конкретного слова с соответствующим вектором слов, затем обновленные векторы были объединены в конце с оценками LDA, тогда как второй подход к взвешиванию объединил TF-IDF и WE в качестве первого шага.Они объединили оценки LDA и векторы WE в качестве второго шага и, наконец, объединили результаты обоих подходов к взвешиванию. В целом, все упомянутые выше методы взвешенного представления признаков доказали свою эффективность для повышения производительности некоторых задач машинного обучения. Но есть некоторые проблемы машинного обучения, которые могут потребовать такого прогресса для улучшения их общей производительности, например, мультиклассовые и многозначные системы классификации. Проблема многоклассовой классификации — горячая тема в машинном обучении, особенно если она связана с биомедицинской областью.Более того, исследователи изо всех сил пытались решить многие связанные проблемы, такие как дисбаланс меток, зависимость меток и низкий уровень существования наборов биомедицинских мультиклассовых данных. Sinoara et al. [2] создали две настраиваемые небиомедицинские системы WE, названные встраиваемыми системами NASAI и Bable2vec. Они оценили свою модель WE на многоклассовом наборе биомедицинских данных под названием OHSUMED-400. Кроме того, этот набор данных был аннотирован 23 сердечно-сосудистыми заболеваниями и дал более низкую точность классификации, то есть средний микро-балл F1 на 37%.По их мнению, небиомедицинские системы WE и сложности в наборе данных были причинами этой низкой оценки. В другом исследовании была предпринята попытка решить проблему высокого дисбаланса данных [21], в котором был рассмотрен клинический многоклассовый набор данных, состоящий из 139 симптомов трех различных синдромов. Множественный асимметричный частичный классификатор наименьших квадратов (MAPLSC) был предложен для решения проблемы дисбаланса данных. Они скорректировали асимметричный частичный классификатор наименьших квадратов (APLSC), который является двоичным классификатором, чтобы он имел дело с мультиклассовой проблемой.APLSC — это стратегия попарного связывания для объединения вероятностей всех выходных данных двоичного классификатора один к одному, что приводит к оценке апостериорных вероятностей для всех меток-кандидатов. Наконец, Lei et al. [3] обратились к исследованию, которое предложило решение зависимости данных и ее негативное влияние на проблему мультиклассов. Поскольку некоторые мультиклассовые проблемы страдают из-за большого количества меток, они создали два подхода, которые определили границы ошибок, зависящих от данных. По сути, один из них зависел от гауссовой сложности, а другой — от сложности Радемахера.После этого они установили верхнюю и нижнюю границы для управления извлеченными классами. Оба этих метода могут выявить корреляцию между компонентами ярлыков. Следовательно, границы, зависящие от данных, показали улучшенную зависимость от количества классов. Работа по-прежнему продвигается в направлении улучшения производительности систем многоклассовой классификации, хотя это и трудно осуществить.

3. Метод

В этом разделе мы представляем подробное описание каждого подхода, который мы предложили в этом исследовании.Наш метод сначала описывает, как мы создали систему представления весовых признаков, начиная с сбора набора данных и заканчивая вычислением векторов встраивания слов из части собранного набора данных. В нем также представлены подробные сведения о вычислении весов частоты термина (TF), обратной частоты документов (IDF) и вероятности класса (CP) для каждого слова и их комбинаций. После этого мы опишем, как мы создали модель мультиклассификации, чтобы изучить наш подход к взвешиванию.

3.1. Наборы данных и подготовка данных

Мы использовали три типа наборов биомедицинских данных, которые доступны в литературе. Мы использовали два из них, PubMed и MIMIC-III, для разработки модели, в которой использовался наш подход к представлению весовых характеристик. Третий — это набор данных OHSUMED, который представляет собой многоклассовый набор данных, и мы использовали его для оценки нашей предлагаемой системы представления весовых характеристик. Ниже мы приводим краткую информацию о каждом из трех наборов данных:

  • PubMed — одна из наиболее известных биомедицинских баз данных, которая облегчает доступ к биомедицинской базе данных MEDLINE, которая включает исследовательские работы и широко используется для отслеживания цитирований.База данных PubMed имеет размер 170 ГБ (по статистике на 27 января 2020 года) и включает около 32 миллионов биомедицинских статей, рефератов, библиометрических данных, цитат и связанных данных, которые хранятся и регулярно обновляются в нашем локальном репозитории. По мнению многих исследователей в биомедицинских исследованиях, которые ищут надежные биомедицинские ресурсы, основанные на фактических данных, PUBMED считается эталоном для любых биомедицинских приложений, использующих модели машинного обучения [5,22]. Из-за некоторых ограничений нашей компьютерной среды мы были ограничены работой с двумя миллионами рефератов Pubmed, а не со всей коллекцией.В таблице 1 приведены статистические данные о коллекции, которую мы использовали.
  • MIMIC III (Биомедицинская информационная витрина для интенсивной терапии) содержит более 40 000 историй болезни из отделений интенсивной терапии Биомедицинского центра Бет Исраэль Дьяконисса в период с 2001 по 2012 год [23]. Кроме того, набор данных относится к 53 423 госпитализациям взрослых и 7870 записям о новорожденных. Следовательно, в этой базе данных содержится более 20 миллионов клинических резюме. В нашем случае мы использовали все существующие текстовые клинические описания 20 миллионов пациентов.В таблице 1 приведено краткое описание этого набора данных.
  • OHSUMED-400 — это подмножество медицинских выписок, извлеченных из базы данных MEDLINE [24]. Этот набор данных был запущен и организован Уильямом Хершем и его коллегами из Орегонского университета медицинских наук [25]. К каждому документу этого набора прилагается конкретный класс из 23 категорий сердечно-сосудистых заболеваний. Общее количество собранных данных составляет 13 929 документов. Поскольку собранные документы сильно несбалансированы, мы сделали недостаточную выборку данных, чтобы они были более сбалансированными и удобными для системы мультиклассификации.Соответственно, к каждому классу из 23 сердечно-сосудистых заболеваний относятся 400 документов. В итоге мы использовали 9200 рефератов, 70% в качестве обучающих и 30% в качестве данных тестирования. В таблице 1 собрана вся необходимая информация о наборе данных OHSUMED-400.
3.2. Предварительная обработка данных

На этом этапе мы использовали некоторые методы предварительной обработки данных и библиотеки, чтобы очистить наши наборы данных от нежелательных символов и знаков препинания. Мы использовали библиотеки Python NLTK для идентификации и очистки набора данных.Для этого мы применили следующие операции:

3.3. Взвешенное представление признаков

Этот шаг состоит в основном из трех подэтапов. Первый описывает, как мы вычисляли значения TF, IDF и CP каждого слова в корпусе. Второй шаг представляет, как мы создали векторы встраивания слов. Третий шаг показывает, как мы объединили первые два метода в одно улучшенное представление функций.

Чтобы прояснить определение, предположим, что у нас есть набор данных D, который включает m текстовых документов для классификации, D = {d 1 , d 2 , d 3 ,…, d m } где произвольный документ d i представлен набором терминов.d i = {t 1 , t 2 , t 3 ,…, t n }, и каждый член t i может быть представлен как один весовой балл, например, показатель частоты термина (TF ), обратная частота документов (IDF) или оценка вероятности класса (CP). В нашем случае w j представляет собой один из ранее упомянутых методов взвешивания термина t j в документе d i = 1 , w 2 , w 3 ,…, w n >.

Весь набор терминов, содержащихся в наборе данных D, составляет словарь текстовых документов, V = {t 1 , t 2 , t 3 ,…, t n }, где произвольный термин t i представлен набором функций F i , который содержит две разные функции (т. е. взвешенные значения и векторы внедрения слов) F i = {s i , we i }, где s i и we i — это векторы взвешивания и встраивания слов i-го термина, соответственно.

3.3.1. Вычисление методов взвешивания
На этом этапе мы вычислили все оценки взвешивания для каждого отдельного слова в оценочном наборе данных OHSUMED-400. Мы полагались на формулы (1) и (2) для расчета оценок TF и ​​IDF [18] для всех словарей в наборе данных OHSUMED-400. Формула (3) использовалась для вычисления вероятности класса CP [19] .TFtj — это функция, которая возвращает частоту термина, нормированную на количество терминов в документе d i . Этот метод взвешивания показывает, насколько важен конкретный член t i в соответствии с его одновременным появлением в документе d i .Таким образом, мы хотим исследовать, как этот метод улучшает производительность классификации, когда он сопровождается вектором встраивания слов. где f tj, di представляет, сколько раз член t j появляется в документе d i , а | d i | показывает размер документа в количестве элементов. IDFtj относительно представляет собой обратную частоту документа для члена t j и может быть определено, как в уравнении (2). где N представляет количество документов, содержащих термин t j , а m представляет общее количество документов в наборе данных D.Метод взвешивания IDF показывает, как конкретный термин t i редко или чаще встречается в корпусе. Например, более частые слова, такие как стоп-слова, будут иметь более низкий вес IDF, чем редкие слова. Соответственно, этот метод определяет важность редких и основанных на предметной области слов, таких как медицинские термины, в нашем корпусе. Вероятность класса P (t j | C k ) или CP tj, Ck , с другой стороны. , является условной вероятностью, которая показывает, сколько раз член t j встречается, когда появляется класс C k .CP демонстрирует важность определенного термина t i с учетом информации о классе. Например, если термин t i встречается несколько раз в документах, помеченных как класс A, это означает, что термин тесно связан с этим классом.

CPtj, Ck = tj∩ckP (ck)

(3)

где P (C k ) представляет собой вероятность класса C k . В результате каждый член t j в документе d i набора данных представлен тремя взвешенными оценками:

sj = ∑d = 0msj = (TFtj, IDFtj, CPtj)

(4)

Соответственно, после применения предыдущих уравнений к набору данных OHSUMED-400 каждое слово в словаре теперь связано с тремя взвешенными значениями s j .Например, если предположить, что документ d 2 содержит только три слова, V = {t 1 лейкемия , t 2 кровь , t 3 антиглобулин }, s j значения оценки следующие:

s 1 лейкемия = (TF лейкемия = 0,75, IDF лейкемия = 0,66, CP лейкемия = 0,99)

s кровь (кровь кровь = 0,18, IDF кровь = 0.36, CP кровь = 0,56)

s 3 антиглобулин = (TF антиглобулин = 0,59, IDF антиглобулин = 0,98, CP антиглобулин 3,3 = 0,43) 9.20005

. Создание векторов встраивания слов (WE)
Для создания вектора встраивания слов мы использовали два набора данных, Pubmed и MIMIC III, включая в общей сложности четыре миллиона документов. Мы применили библиотеку FastText WE [11] и рассчитали 100-мерное векторное пространство для каждого слова в словаре.FastText создает мощную модель, которая решает многие проблемы естественного языка, такие как морфология слова и проблемы слов, не связанных с словарным запасом [1]. По этой причине мы использовали библиотеку Gensim Python для построения векторов слов из четырех миллионов документов. В результате у нас был словарь V, который включал все отдельные термины в наборе данных D, V = {t 1 , t 2 , t 3 ,…, t n }, где каждый термин представлен со 100-мерным вектором WE. Для простоты, предполагая, что у нас есть только три слова в V, после запуска библиотеки FastText для извлечения признака результирующий 100-мерный вектор встраивания слов мы для каждого члена в V определяется следующим образом :

мы 1 лейкоз = <−3.215408, −4,233652,…, 0,2386677>
we 2 кровь = <−6.8077517, 7,012626,…, 3.39976>
we 3 антиглобулин = <−1,4542265, 0,64234,64,…,

(5)

Значения векторов we — это реальные значения, взятые из наших обучающих моделей для каждого соответствующего термина.

3.3.3. Взвешенные векторы внедрения слов

В этом разделе мы представляем, как комбинировать векторы WE и весовые баллы для обновления структуры недавней или исходной векторной формы WE.Это означает, что для каждого члена t j в словаре V мы применили простой весовой коэффициент для объединения векторов WE и трех весовых оценок.

Пусть t j представляет конкретное слово в словаре V. Затем для произвольного термина t j , связанного с тремя весовыми баллами в (s j ) и каждым элементом связанного с ним вектора WE (we j ) взвешенное умножение может быть выполнено следующим образом, и результаты будут получены с тремя взвешенными векторами признаков: HTF j , HIDF j и HCP j .из трех методов взвешивания TF, IDF и CP соответственно.

Term frequency (TF) — это схема взвешивания. Он просто умножает оценку TF каждого члена t j на каждый элемент в своем векторе we j .

HTFj = ∑l = 0mTFtj × wej, l

(6)

Например:

H лейкоз = TF лейкемия × we лейкемия, l

H лейкемия = (0,1108 × (−3,215408), 0,1108 × (−4,23365102),… ))

H лейкоз = = (-0.356108, -0,468879,… 0,026432).

Точно так же оценки IDF и вероятности класса (CP) могут применяться в качестве весов следующим образом:

HIDFj = ∑l = 0mIDFtj × wej, l

(7)

HCPj = ∑l = 0mCPtj × wej, л

(8)

На рисунке 1 подробно показано, как выполняется процесс комбинирования.
3,4. Модель многоклассовой классификации
После получения объединенного вектора признаков нам нужно было протестировать его в тематическом исследовании, которое представлено задачей многоклассовой классификации. Для этого мы использовали набор данных OHSUMED [25] и вектор функций в качестве входных данных, затем для каждого набора тестовых данных был предсказан один выход для 23 классов.Во-первых, мы создали модель мультиклассовой классификации, основанную на двунаправленной долговременной кратковременной памяти (BLSTM). Модель BLSTM может захватывать шаблоны и анализировать предложения в обоих направлениях. Однако эта модель требует больше времени на обучение по сравнению с простой LSTM или рекуррентной нейронной сетью (RNN). Эта модель состояла из следующих слоев, где на Рисунке 2 они показаны более четко:

Входной уровень: этот слой принимает каждый документ (то есть последовательность слов) в качестве входных данных для нейронной сети.

Слой внедрения: этот слой сопоставляет каждое слово во входном тексте со списком внедрения. В это время он извлекает вектор с плавающей запятой для каждого слова. Однако значение с плавающей запятой может быть создано из набора обучающих данных или из различных предварительно обученных внешних знаний. Таким образом, мы использовали внешние знания, которые были извлечены из наборов данных PubMed и MIMIC III. Следовательно, наши входные данные представлены в виде векторов функций.

Двунаправленные уровни LSTM: мы создали один слой BLSTM, который состоит из гиперпараметров Tanh для функции активации и значения выпадения 0.25.

Выходной уровень: этот уровень отвечает за прогнозирование выходного класса. Поскольку эта модель является многоклассовой, она должна предсказывать одну из 23 категорий сердечно-сосудистых заболеваний. Мы выбрали SoftMax в качестве функции активации на этом уровне, потому что он подходит для мультиклассовой задачи.

Кроме того, мы эмпирически оптимизировали некоторые важные гиперпараметры, которые упростили процесс обучения и дали хорошие результаты. Мы выбрали оптимизатор Adam и установили скорость обучения равной 0.001 и значение спада до 1 × 10 −6 , функция потерь sparse_categorical_crossentropy с 20 эпохами и размером партии 32.

4. Эксперименты и результаты

Для оценки и сравнения предложенных нами методов мы провели серию экспериментов и проанализировали результаты производительности архитектуры глубокого обучения BLSTM с другими подходами к архитектуре и машинному обучению. В этом разделе мы также представляем все измерения производительности, используемые в нашей оценке модели.

4.1. Установка для экспериментов

При попытке работать с наборами данных PubMed и MIMIC-III мы столкнулись с несколькими проблемами. Наши ограниченные ресурсы оперативной памяти и процессора не могли справиться с большим объемом данных. Для решения этой проблемы мы использовали два основных аппаратных ресурса, а именно инфраструктуры Google Colab и TRUBA. Мы впервые испытали использование Google Colab. Его блок тензорной обработки (TPU) состоит из более чем 100 ГБ ОЗУ и 30 ГБ дискового пространства. Эта инфраструктура хорошо работала для проведения экспериментов по оценке нашей модели, но, к сожалению, она не смогла выполнить задачу, когда мы попытались использовать ту же среду для создания вектора FastText WE.Вместо этого мы выбрали TRUBA, систему компьютерных кластеров, предоставленную Национальным научным фондом Турции (TÜBİTAK) и включающую в себя высокопроизводительное вычислительное оборудование и ресурсы для хранения данных. Мы использовали сервер, состоящий из 128 узлов, каждый с восемью ядрами из двух процессоров Xeon E5-2690 2,90 ГГц и 256 ГБ оперативной памяти. Для программного стека мы использовали Python 3.6, а также библиотеки Keras и TensorFlow для создания нашей нейронной сети. Мы также использовали библиотеку Gensim Python для создания вектора FastText WE и взвешенных оценок.

Первичные эксперименты проводились только для настройки и фиксации значений гиперпараметров нашей модели BLSTM. Мы попробовали несколько гиперпараметров, таких как значения отсева, от 0,1 до 0,5, затем мы исследовали другие функции активации, а именно Tanh, Sigmoid и Relu. После этого мы попробовали несколько значений эпох от 10 до 32 и несколько значений размера пакета от 10 до 32. Наконец, мы попробовали некоторые оптимизаторы, такие как ADAM, SGD и RMSprop. В результате мы исправили все гиперпараметры BLSTM, как упоминалось в разделе 3.3.

Мы провели все эксперименты по многоклассовой классификации биомедицинского текста с использованием набора данных OHSUMED-400, который содержит в общей сложности 9200 текстовых документов. Мы просмотрели набор данных и обнаружили, что некоторые документы имеют более одного класса, и, поскольку мы работали с проблемой нескольких классов, мы удалили все избыточные документы. Таким образом, оставшееся количество документов составило 7512 документов. Остальные документы мы разделили на две части: 80% на обучение (6010 документов) и 20% на тестирование (1502 документа).В результате каждый документ был помечен только одним классом из 23 классов сердечно-сосудистых заболеваний.

Первый эксперимент проводился с исходным вектором WE (то есть, WE до операции комбинирования) в качестве базовой линии. Мы сделали это, чтобы наблюдать, как системы взвешенного представления признаков могут повлиять на производительность модели классификации по сравнению с исходной WE. После этого мы применили ту же среду BLSTM и гиперпараметры к другим векторам гибридных функций: HTF, HIDF и HCP.

Мы также провели несколько дополнительных экспериментов с некоторыми современными алгоритмами и подходами машинного обучения. На этом этапе мы попробовали наши изначально созданные векторы признаков. Соответственно, мы выбрали работу с набором алгоритмов машинного обучения, а именно с логистической регрессией (LR), k-ближайшими соседями (k-NN) (с k = 5), случайным лесом (RF), опорной векторной машиной (SVM), линейной машина опорных векторов (LSVM), дерево решений (DT), многослойный персептрон (MLP) и классификация на основе гауссова наивности (GNB).В этих экспериментах мы рассматривали настройки их гиперпараметров по умолчанию.

Мы также сравнили наши модели с одним из ближайших исследований из литературы. В этом исследовании [2] они протестировали свой созданный подход к представлению функций на основе встраивания слов на тех же данных OSUMED-400, которые мы использовали в этом исследовании. Фактически, мы оценили нашу модель, используя те же измерения производительности, которые были упомянуты в их исследовании. Хотя они предложили аналогичное моделирование на основе встраивания слов, это не была специально обученная модель для биомедицинской области.Использование того же набора данных, что и в их исследовании, позволило нам использовать его для сравнения.
4.2. Метрики оценки

Мы сравнили наши результаты производительности с точки зрения двух часто используемых показателей измерения, а именно точности обучения и точности проверки. Эти измерения хорошо известны во многих приложениях нейронных сетей.

Точность — это способность нашей модели правильно классифицировать документы. Однако есть два популярных типа точности в нейронных сетях, а именно точность обучения и точность проверки [26].Точность обучения — это способность нашей модели правильно классифицировать данные в процессе обучения. Точность проверки показывает, насколько хороша и точна наша модель в процессе тестирования и проверки. И то, и другое вычисляется в каждую эпоху нейронной сети. С другой стороны, метрика потерь вычисляет ошибку в предсказании модели классификации, которая может возникнуть во время точной настройки весов нейронной сети [26]. Следовательно, есть два типа этой метрики, которые связаны с процессами обучения и проверки.
4.3. Результаты экспериментов

В этой части мы представляем все результаты, полученные нами в результате экспериментов, упомянутых в предыдущем подразделе. Мы обсуждаем все результаты с точки зрения точности обучения и проверки и потерь. Кроме того, мы также представляем результаты нашей модели BLSTM как с исходной базовой системой FastText WE, так и с методами взвешенного представления признаков с использованием вышеупомянутых показателей. Мы также представляем результаты экспериментов, чтобы сравнить их с другими часто используемыми алгоритмами машинного обучения для связанных мультиклассовых исследований.

4.3.1. Результаты классификатора BLSTM Multiclass
Согласно точности и потерям валидации в таблице 2, наивысшая производительность была достигнута с помощью метода взвешивания CP с получением 0,494 и 1,901 соответственно. Мы также признаем, что разница в точности проверки между CP и другими методами взвешивания, то есть TF и ​​IDF, составляла всего 0,01. С другой стороны, исходные результаты показали лучшую точность обучения и потери среди всех. В конце концов, все методы взвешивания показали свои лучшие результаты по сравнению с базовой линией с точки зрения точности валидации.
4.3.2. Результаты других подходов к машинному обучению
Из таблицы 3 следует, что на втором месте по производительности среди алгоритмов машинного обучения была линейная SVM с точки зрения оценки точности. С другой стороны, деревья решений не очень хорошо реагировали на исходную систему FastText WE. Как правило, оригинальный метод FastText WE показал наивысший балл с нашей моделью BLSTM по сравнению с другим алгоритмом машинного обучения.
4.4. Обсуждение и сравнение результатов
В последнем разделе метод взвешивания CP дал наивысшие оценки среди всех методов взвешивания признаков, когда они использовались в модели BLSTM.Однако между CP и двумя другими методами взвешивания была лишь небольшая разница, около 1%. Более того, все методы взвешивания также показали более высокие показатели эффективности по сравнению с базовым экспериментом. Чтобы объяснить, почему эти методы взвешивания оказались успешными, мы должны глубоко изучить принцип работы систем WE. Мы стремимся создать вектор характеристик символа, слова, предложения или даже всего документа. Он способен обнаруживать синтаксические и контекстные отношения между словами [1,2].Каждое число в векторе дает содержательное объяснение слова, которое оно описывает. Поэтому, на наш взгляд, изменение этого представления может положительно или отрицательно повлиять на работу системы классификации. В нашем случае методы взвешивания работали положительно, добавляя термин статистическая информация, а именно TF, IDF и CP, в вектор WE. Более того, CP зарегистрировал самую высокую производительность, что объясняет, как информация о классе может способствовать повышению точности.

Во время экспериментов с базовой моделью мы заметили, что назначение параметра Trainable = True или False в слое внедрения было важным фактором повышения или снижения производительности нейронной сети.Присвоение этому параметру значения True приведет к использованию обучающих данных, которыми в нашем случае был набор данных OHSUMED, для создания векторов внедрения. Таким образом, количество документов OHSUMED было недостаточным для создания векторов и могло привести к проблеме переоборудования сервера. Кроме того, если бы мы использовали этот параметр, равный True, с нашими внешними знаниями, структура векторов, полученных из этого внешнего набора данных, изменилась бы и снизила точность модели. Поэтому мы присвоили этому параметру значение False в нашем случае с базовыми экспериментами.Это означает, что использование внешних знаний позволило обогатить и повысить обучаемость нейронной сети.

Мы пытались максимально контролировать проблемы переобучения, добавляя в нашу модель некоторые регуляризации, такие как гиперпараметр исключения и перемешивание набора данных перед разделением. По этой причине точность обучения базовой линии была выше, чем у других методов взвешивания, то есть около 0,961. Соответственно, мы решили полагаться на точность проверки, чтобы оценить производительность нашей модели.

Зависимость метки играет важную роль в улучшении или ухудшении общей производительности любой системы классификации. В задаче классификации с несколькими ярлыками это явление положительно влияет на общую производительность системы [27,28,29]. В этом случае необходимо увеличить вероятность того, что несколько классов могут существовать вместе в конкретном документе, в то время как зависимость меток считается проклятием для некоторых проблем с несколькими классами, таких как набор данных OHSUMED-400 [3]. Каждый документ в наборе данных OHSUMED-400 имеет только один связанный класс.Кроме того, эти данные описывают 23 типа сердечно-сосудистых заболеваний, то есть описывают 23 различных, но связанных заболевания и состояния сердца и сосудов. Это усложняет процесс классификации для выявления уникальных паттернов каждого класса, а это означает, что классы могут иметь общие черты, поскольку они имеют одни и те же заболевания. Следовательно, совместное использование функций между классами означает, что они зависимы и закрыты друг для друга. Следовательно, общая производительность во всех случаях относительно набора данных OHSUMED была низкой, т.е.е., они не получили более высоких баллов. Большое количество классов в процессе классификации отрицательно сказалось на нашей модели. Поскольку чем больше классов участвует в процессе классификации, тем труднее правильно идентифицировать каждый класс. Мы также сравнили наши результаты с очень похожими исследованиями в литературе, посвященными созданию индивидуальной системы WE и ее применению на OHSUMED-400 мультиклассовый набор данных. С этой целью Sinoara et al. [2] попробовали модель WE с несколькими моделями ML, а именно линейным SVM, NB, деревом решений и k-NN, где каждая модель достигла 0.3821, 0,279, 0,101 и 0,3076 с точки зрения точности проверки соответственно. Следовательно, наша модель превзошла их оценки с использованием алгоритмов BLSTM и линейного SVM. На рисунке 3 показана диаграмма, в которой сравниваются лучшие результаты BLSTM и ML и лучший результат исследования Sinoara et al. [2].

5. Выводы

Задача мультиклассификации направлена ​​на выявление одного и только одного класса над несколькими классами для конкретного документа. Это ставит перед нами серьезную задачу, поскольку мы должны открывать уникальные особенности и шаблоны для каждого класса индивидуально.Следовательно, если между классами существуют ассоциации или отношения (то есть зависимость меток), это может отрицательно повлиять на мультиклассовую классификацию документов.

Нашей целью в этом исследовании было выявить уникальные особенности и закономерности в наборе данных мультикласса OHSUMED-400, который представляет собой сборник биомедицинских текстовых документов по сердечно-сосудистым заболеваниям. Этого можно достичь, улучшив технику представления признаков, используемую в качестве основного этапа в процессе классификации. Таким образом, мы создали метод взвешенного представления функций, который объединил преимущества обоих, т.е.е., методы встраивания слов (WE) и словосочетания (BoW). Мы создали векторы WE FastText из двух наборов данных: Pubmed и MIMIC III. Затем мы использовали набор данных OHSUMED-400 для создания трех основных статистических весовых баллов для каждого термина в документах, таких как частота термина (TF), обратная частота документа (IDF) и вероятность класса (CP). После этого мы протестировали нашу взвешенную функцию векторов на тематическом исследовании, которое было представлено как мультиклассовая задача, и использовали ее для прогнозирования одной из 23 категорий сердечно-сосудистых заболеваний.

Результаты показали, что наша модель классификации, которая зависит от двунаправленной LSTM и методики взвешенного представления функций, показала наивысшую оценку производительности. Более того, он показал более высокие результаты даже по сравнению с некоторыми алгоритмами машинного обучения (ML) и одним литературным исследованием. Похоже, что информация о взаимосвязи между классами и членами дает положительное влияние на повышение производительности системы многоклассовой классификации.

Мы обнаружили, что благодаря добавлению полезной информации и весов к исходному вектору WE наша модель классификации работает лучше.Кроме того, мы обнаружили, что общая эффективность классификации набора данных OHSUMED была низкой, поскольку он описывает несколько взаимосвязанных и связанных заболеваний и состояний сердца и кровеносных сосудов. Кроме того, набор данных OHSUMED включает 23 класса, что усложняет процесс классификации. Следовательно, производительность снижается из-за большого количества классов в процессе.

В будущем мы планируем вывести нашу работу на семантический уровень. Мы попытаемся включить различные внешние ресурсы биомедицинских знаний, такие как словари UMLS, чтобы семантически расширить нашу модель взвешенного представления признаков.Кроме того, мы попытаемся извлечь из набора данных названные биомедицинские сущности, которые представлены как виды лечения, процедуры и заболевания. Мы надеемся, что это поможет нам точно объяснить поведение нашей модели.

Отчет семинара о потребностях в фундаментальных исследованиях для научного машинного обучения: основные технологии для искусственного интеллекта (технический отчет)

Бейкер, Натан, Александр, Фрэнк, Бремер, Тимо, Хагберг, Арик, Кеврекидис, Яннис, Наджм, Хабиб, Парашар, Маниш, Патра, Абани, Сетиан, Джеймс, Уайлд, Стефан, Уиллкокс, Карен и Ли, Стивен. Отчет семинара о потребностях в фундаментальных исследованиях для научного машинного обучения: основные технологии для искусственного интеллекта . США: Н. п., 2019. Интернет. DOI: 10,2172 / 1478744.

Бейкер, Натан, Александр, Фрэнк, Бремер, Тимо, Хагберг, Арик, Кеврекидис, Яннис, Наджм, Хабиб, Парашар, Маниш, Патра, Абани, Сетиан, Джеймс, Уайлд, Стефан, Уиллкокс, Карен, и Ли, Стивен. Отчет семинара о потребностях в фундаментальных исследованиях для научного машинного обучения: основные технологии для искусственного интеллекта . Соединенные Штаты. https://doi.org/10.2172/1478744

Бейкер, Натан, Александр, Фрэнк, Бремер, Тимо, Хагберг, Арик, Кеврекидис, Яннис, Наджм, Хабиб, Парашар, Маниш, Патра, Абани, Сетиан, Джеймс, Уайлд, Стефан, Уиллкокс, Карен и Ли, Стивен. Солнце ."Отчет о семинаре по фундаментальным исследованиям в области научного машинного обучения: основные технологии для искусственного интеллекта". Соединенные Штаты. https://doi.org/10.2172/1478744. https://www.osti.gov/servlets/purl/1478744.

@article {osti_1478744,
title = {Отчет семинара о потребностях в фундаментальных исследованиях в области научного машинного обучения: основные технологии искусственного интеллекта},
автор = {Бейкер, Натан и Александр, Франк и Бремер, Тимо и Хагберг, Арик и Кеврекидис, Яннис и Наджм, Хабиб и Парашар, Маниш и Патра, Абани и Сетиан, Джеймс и Уайлд, Стефан и Уиллкокс, Карен и Ли, Стивен },
abstractNote = {Научное машинное обучение (SciML) и искусственный интеллект (ИИ) будут широко использоваться и преобразить Министерство энергетики.Соответственно, семинар «Потребности фундаментальных исследований» в январе 2018 г. определил шесть приоритетных направлений исследований (PRD). Первые три PRD описывают основополагающие темы исследования, которые соответствуют потребности в осведомленности о предметной области (PRD # 1), интерпретируемости (PRD # 2) и надежности (PRD # 3). Остальные три PRD описывают темы исследования возможностей и соответствуют трем основным сценариям использования для массового анализа научных данных (PRD # 4), моделирования и симуляции на основе машинного обучения (PRD # 5), а также интеллектуальной автоматизации и поддержки принятия решений для сложных систем. (PRD №6).Приоритетные направления исследований обеспечивают прочную основу для последовательной долгосрочной стратегии исследований и разработок в области SciML и AI. За последнее десятилетие инвестиции Министерства энергетики в прикладную математику заложили основу для тех фундаментальных исследований, которые будут лежать в основе ключевых достижений шести PRD. Такие достижения будут основаны на работе ведущих исследователей в области оптимизации, линейной алгебры, высокопроизводительных решателей и алгоритмов, многомасштабного моделирования и симуляции, исследования сложных систем, количественной оценки неопределенности и новых областей фундаментальных исследований, которые появятся в результате стремления к преобразующим технологиям. .},
doi = {10.2172 / 1478744},
url = {https://www.osti.gov/biblio/1478744}, journal = {},
number =,
объем =,
place = {United States},
год = {2019},
месяц = ​​{2}
}

подходов к машинному обучению для обнаружения взаимодействий генов в данных о болезнях | Брифинги по биоинформатике

Аннотация

Из-за сложности взаимоотношений ген-фенотип подходы машинного обучения имеют большую привлекательность в качестве стратегии моделирования взаимодействий.Ряд таких методов был разработан и применен в последние годы с некоторым скромным успехом. Прогрессу препятствуют проблемы, связанные со сложностью генетических данных о заболеваниях, включая фенотипическую и генетическую гетерогенность, полигенные формы наследования и вариабельную пенетрантность, в сочетании с аналитическими и вычислительными проблемами, возникающими из-за огромного количества потенциальных взаимодействий. Мы рассматриваем здесь недавние и текущие подходы, сосредотачиваясь там, где это возможно, на приложениях к реальным данным (особенно в контексте общегеномных ассоциативных исследований) и предвидя дальнейшие проблемы, связанные с данными секвенирования следующего поколения.

ВВЕДЕНИЕ

Гены влияют на все болезни человека, но большая часть генетического ландшафта многих распространенных болезней до сих пор не охарактеризована. Полногеномные исследования ассоциации (GWAS) с использованием однонуклеотидных полиморфизмов (SNP) широко используются для раскрытия генетической архитектуры [1] путем индивидуального тестирования вариантов на ассоциацию с конкретными заболеваниями или признаками [2, 3]. Однако GWAS объяснили лишь небольшую часть генетической изменчивости, лежащей в основе заболевания [1, 4].Для распространенных заболеваний влияние отдельного SNP на восприимчивость к болезням, как правило, невелико, и появляющиеся данные свидетельствуют о том, что многие варианты с низкой пенетрантностью взаимодействуют мультипликативно [5] с увеличением числа аллелей риска, вносящих вклад в значительно повышенный риск заболевания [6]. Следовательно, вероятно, что большая часть генетических вариаций, лежащих в основе общих заболеваний, возникает из-за взаимодействия между многими генами и факторами окружающей среды; форма эпистаза [7]. Таким образом, идентификация индивидуальных SNP, связанных с заболеванием, может быть менее полезной для прогнозирования болезни, чем идентификация эпистатических взаимосвязей, лежащих в основе генетического заболевания.

Термин эпистаз использовался для обозначения как минимум двух явлений, которые могут быть связаны сложным образом. Биологический эпистаз, который происходит на клеточном уровне, соответствует физическим взаимодействиям между биомолекулами в генных регуляторных сетях и путях, которые влияют на фенотип. Следовательно, влияние гена на фенотип человека зависит от одного или нескольких дополнительных генов. С другой стороны, статистический эпистаз отражает различия в биологическом эпистазе среди популяции людей: отклонение от аддитивности в рамках статистической модели взаимосвязи между множественными генотипами и фенотипом (ами) на уровне популяции [1, 8].Мур и Уильямс [8] схематически представляют концептуальные отношения между биологическим и статистическим эпистазом на своем рисунке 2. Филлипс [9] предположил, что эпистаз можно разделить на три категории: композиционный эпистаз, функциональный эпистаз и статистический эпистаз. Композиционный эпистаз вводится для представления традиционного определения эпистаза как блокирования эффекта аллеля аллелем в другом локусе. Как бы то ни было, отношения между биологическими и статистическими формами эпистаза сложны, и статистическое взаимодействие не обязательно отражает взаимодействие на биологическом уровне [10].

Одна из основных проблем, связанных с раскрытием эпистатических взаимодействий, — это объем данных, которые необходимо проанализировать; по мере увеличения количества SNP количество потенциальных взаимодействий увеличивается экспоненциально [7], что известно как «проклятие размерности». Потенциальная сложность такого взаимодействия поддерживает использование методов машинного обучения и интеллектуального анализа данных. Подходы машинного обучения (ML) используют алгоритмы, чтобы «учиться» на наборах обучающих данных для решения проблем и обеспечения возможности предсказывать результаты в других данных на основе усвоенных шаблонов и правил.При разработке методов ML для идентификации эпистаза необходимо учитывать несколько вопросов, включая генетическую гетерогенность (которая может быть обычным явлением при сложных заболеваниях [11]), наличие (или отсутствие) основных эффектов и количество SNP. участвуют во взаимодействиях (что обычно заранее неизвестно) [11].

РАННИЕ ПОДХОДЫ к ML

За последние 10–15 лет был разработан ряд методов ML с целью выявления взаимодействий между генами, связанных с распространенными комплексными заболеваниями.Здесь мы обсуждаем некоторые подходы, которые использовались для обнаружения эпистаза, а именно уменьшение многофакторной размерности (MDR), нейронные сети (NN), случайный лес (RF) и вспомогательные векторные машины (SVM).

Многофакторное снижение размерности

MDR был одним из первых методов ML, разработанных для обнаружения и характеристики взаимодействия генов [12, 13]. На первом этапе MDR n генетических факторов (например, SNP) выбираются из всего набора факторов.Все возможные многофакторные (генотип SNP) комбинации представлены в ячейках в n -мерном пространстве, и каждой ячейке назначается соотношение случай-контроль. Таким образом, мультилокусные генотипические предикторы сокращаются с n измерений до одного измерения путем классификации каждой клетки как с низким, так и с высоким риском на основе порогового значения от случаев к контролю [12, 14]. Следующая перекрестная проверка классификации выполняется для оценки ошибки прогнозирования каждой модели путем разделения данных на обучающий набор, состоящий из 90% данных, и набор для тестирования из оставшихся 10%.Модель разработана на основе классификации генотипов в обучающей выборке, которая используется для прогнозирования статуса болезни генотипов в тестовой выборке. Процесс перекрестной проверки повторяется 10 раз, а ошибка прогноза усредняется [12]. Таким образом, моделирование МЛУ может быть применено к данным о реальных заболеваниях для поиска эпистаза, и любые предикторы, обозначенные как «высокорисковые», потенциально связаны с заболеванием. Этот подход был оценен с использованием набора данных о спорадическом раке груди [12]. Статистически значимое взаимодействие высокого порядка было обнаружено среди четырех полиморфизмов в отсутствие каких-либо значимых основных эффектов, что является одним из самых ранних сообщений о таком взаимодействии, связанном с общим многофакторным заболеванием.Было обнаружено, что мощность МЛУ устойчив к наличию 5% ошибки генотипирования, 5% пропущенных данных и комбинации этих двух для ряда различных моделей эпистаза с двумя локусами. Дополнительные преимущества использования МЛУ для обнаружения эпистаза включают:

  • Безмодельный подход, неоценимый для таких заболеваний, как спорадический рак груди, для которых способ наследования неизвестен и, вероятно, будет сложным.

  • Способность MDR обнаруживать и характеризовать несколько генетических локусов одновременно и, с помощью перекрестной проверки, минимизировать частоту ложных срабатываний.

  • Количество условий взаимодействия не растет экспоненциально при добавлении каждой новой переменной [12].

Однако некоторые недостатки, связанные с этим методом, влияют на его надежность в качестве предиктора взаимодействий между заболеванием и генотипом. При высоком (50%) уровне фенокопии и генетической гетерогенности, мощность сильно снижается [14], что подтверждает необходимость уточнения, чтобы эффективно справляться с генетической гетерогенностью в данных по сложным признакам. Полученные в результате модели могут быть трудными для интерпретации [12] — хотя генотипы классифицируются как «высокорисковые» или «низкорисковые», количественная оценка того, насколько они высоки или низкорисковые, трудно определить. какие из предполагаемых взаимодействий с наибольшей вероятностью связаны с заболеванием и требуют дальнейшего изучения.MDR (и расширения MDR) были успешными только при применении к небольшому количеству SNP в определенных генах, представляющих (известный) интерес [12, 13, 15, 16]. Сам по себе метод MDR не применим напрямую к данным GWAS, учитывая огромное количество взаимодействий, которые необходимо оценить; однако использование алгоритма фильтрации для выделения подмножества потенциально интересных SNP для анализа MDR может преодолеть это ограничение. Наконец, МЛУ имеет высокий уровень ложноположительных и отрицательных ошибок, когда соотношение случаев и контроля в комбинации генотипов близко к таковому во всем наборе данных [15].

Нейронные сети

Сети

изначально были разработаны для моделирования нейронов, но в настоящее время регулярно используются для интеллектуального анализа данных в широком диапазоне областей [17, 18], причем наиболее распространены сети «прямого / обратного распространения» [19]. Они обладают превосходными возможностями для распознавания и классификации образов [11] и способны работать с объемными данными [18]. Сеть, напоминающая ориентированный граф, где узлы представляют собой генетические элементы (SNP), а дуги представляют собой связи (взаимодействия) между элементами, была разработана для генетических приложений [18].Узлы расположены по слоям. Один или несколько узлов находятся на входном уровне и получают информацию, которая должна быть обработана NN. Входной слой связывается с несколькими узлами в скрытом слое (которых может быть несколько) через дуги. Наконец, есть выходной узел. Каждой дуге назначается вес, который изначально выбирается случайным образом, но путем обучения сети на тестовых данных веса корректируются, чтобы минимизировать частоту ошибок [19]. Целью NN является распознавание соответствующих паттернов в реальных данных на основе паттернов, наблюдаемых в тестовых данных, и для предсказаний относительно паттернов, не замеченных ранее, посредством распознавания подшаблонов и корреляций в данных [19].Для выявления генетических локусов, потенциально участвующих в эпистатических взаимодействиях, NN обучаются с использованием известных генотипов в качестве входных данных и известных фенотипов в качестве выходных данных, и разработка внутренней весовой структуры имеет особое значение. Структура внутреннего веса сети может быть проанализирована после обучения, чтобы определить влияние каждого локуса на результирующий фенотип [19].

Приложения NN к данным о заболеваниях показали переменный успех. Motsinger-Reif и др. . [18] предполагают, что это может быть связано с использованием неоптимальной архитектуры NN.Исчерпывающий поиск всех возможных архитектур для поиска оптимальной структуры невозможен, поэтому одно из решений — оптимизировать архитектуру с помощью алгоритмов машинного обучения. Примеры таких алгоритмов включают NN, оптимизированную для генетического программирования (GPNN) [20, 21] и NN по грамматической эволюции (GENN) [18] [с использованием генетического программирования (GP) или грамматической эволюции (GE) соответственно для оптимизации NN]. GP стремится «развивать» компьютерные программы для решения сложных проблем [22]. Сначала создается начальная совокупность случайно сгенерированных компьютерных программ.Каждая программа запускается для решения проблемы, и ей присваивается значение пригодности в зависимости от ее выполнения. Лучшие программы отбираются для дальнейшего «воспроизводства» в соответствии с принципом «выживания наиболее приспособленных». Некоторые программы принимаются в следующее поколение без изменений, в то время как другие претерпевают «кроссовер», при котором новые программы создаются из комбинаций компонентов исходных программ. Эта процедура повторяется для ряда поколений, чтобы найти оптимальную программу [23]. GE — это вариант и усовершенствование GP с большей гибкостью [17].GE использует популяции, состоящие из линейных геномов, составляющих индивидов. Каждый геном разделен на кодоны, которые переводятся в фенотипы (NN) с помощью грамматики [17]. Подобно GP, полученные фенотипы могут быть проверены на пригодность, и последующие поколения произведены, чтобы найти оптимальную модель. GPNN обладает большей мощностью для обнаружения взаимодействий ген-ген в присутствии нефункциональных SNP, чем более традиционный Back Propagation NN (BPNN) [23], в то время как сравнение мощности показало, что GENN последовательно превосходит GPNN [17, 18].NN могут отсеивать локусы, которые не влияют на фенотип, тем самым уменьшая количество тестируемых комбинаций генетических локусов [19]. Сетевые подходы также могут использоваться для идентификации генетических взаимодействий путем исчерпывающего перечисления всех возможных парных взаимодействий; однако этот подход ищет только SNP с сильными парными взаимодействиями, поэтому может не учитывать SNP с взаимодействиями более высокого порядка [24].

Генетическая гетерогенность, полигенное наследование, высокие показатели фенокопии и неполная пенетрантность создают проблемы при поиске эпистаза.Некоторые характеристики методов NN позволяют им справляться с этими трудностями; Распознавание образов хорошо подходит для решения проблемы генетической гетерогенности и полигенного наследования, в то время как фильтрация сигналов решает проблемы с высокой степенью фенокопии и неполной пенетрантностью [19].

Случайный лес

RF — это тип многомерной непараметрической модели прогнозирования, состоящей из набора классификационных или регрессионных деревьев [25], сгенерированных из случайных векторов [26].Каждое дерево RF выращивается из обучающего набора (или выборки начальной загрузки) из исходных данных с использованием случайного выбора функций, а деревья выращиваются в полном объеме без обрезки. Выборка начальной загрузки размером n создается из исходной выборки, также размером n , с переменными, выбранными с заменой. Таким образом, некоторые переменные будут выбираться несколько раз, в то время как другие не будут выбраны вообще [25]. Лучшее разбиение в каждом узле каждого дерева выбирается из случайного подмножества переменных-предикторов [27].Так называемые «нестандартные» (OOB) оценки ошибки предсказания затем генерируются из наблюдений, которые не выбраны в выборке начальной загрузки (часто до одной трети случаев не учитываются). Радиочастотный алгоритм является эффективным инструментом прогнозирования с потенциалом выявления взаимодействий между генами, которые не проявляют сильных основных эффектов [22], однако было высказано предположение, что их способность обнаруживать взаимодействия фактически зависит от наличия основных эффектов, независимо от того, как слабо [28]. Таким образом, этому подходу может не хватать мощности для выявления тех взаимодействий, которые происходят в отсутствие каких-либо основных эффектов.

В недавнем исследовании использовался RF-подход для выявления взаимодействующих SNP, способствующих ревматоидному артриту, но не было обнаружено значительных взаимодействий, которые можно было бы воспроизвести в когорте последующего наблюдения [29]. Расчеты мощности также показали, что этот метод будет обнаруживать только те взаимодействия с большим размером эффекта [29]. Однако преимущество RF состоит в том, что они не «переоборудуют» данные, и по мере увеличения количества деревьев в RF ошибка предсказания сходится к предельному значению [26].Оценка важности предоставляется для каждой переменной в RF [27], что делает ее способной идентифицировать SNP, предсказывающие фенотип. Это побудило предположить, что RF можно использовать для выделения важных SNP для анализа другими методами [25]. Однако это противоречило бы предположению, что RF являются полезными инструментами для выявления генетического эпистаза, поскольку обнаружение взаимодействий между переменными более важно, чем влияние отдельных SNP на статус болезни. Еще одним недостатком метода RF является то, что, хотя он показал значительную перспективу для низкоразмерных данных (~ 100 SNP и 10 000 наблюдений), он не был успешно применен к данным GWAS [28].

Опорные векторные машины

SVM

— это методы классификации, которые потенциально не менее мощны, чем сети NN [30]. При разработке подхода к обучению с учителем дается фактический результат (обучающих) данных, и во время тестирования ищутся аналогичные шаблоны [31]. В своей простейшей форме SVM ориентирована на идентификацию линейного разделителя для разделения точек данных на два класса и, таким образом, является не вероятностным двоичным линейным классификатором. Кроме того, используя функции ядра, можно установить нелинейные разделители, изменив пространство ввода.Учитывая набор обучающих примеров, каждый из которых помечен как принадлежащий к одной из двух категорий, алгоритм обучения SVM строит модель, которая относит новые примеры к той или иной категории. SVM показали отличную способность обнаруживать эпистаз как в смоделированных, так и в реальных наборах данных [11, 31]; Listgarten и др. . [31] идентифицировал варианты в ряде генов, связанных с риском рака груди. Было использовано квадратичное ядро, и авторы показали, что несколько сайтов SNP из нескольких генов в отдаленных частях генома лучше при идентификации пациентов с раком груди, чем отдельные SNP.По сравнению с MDR этот подход обеспечивает более интерпретируемый результат; однако, в отличие от MDR, SVM не справляются с отсутствием данных [11]. Чен и др. [11] использовал подход SVM, который был объединен с алгоритмами поиска для создания четырех различных моделей для обнаружения эпистаза при отсутствии генетической гетерогенности. Разреженные SVM [32] были разработаны для выбора переменных для включения в модель на этапе предварительной обработки. Этот метод направлен на снижение нестабильности результатов SVM, которая возникает из-за небольших изменений в данных обучения / проверки.Такой подход можно было бы с пользой применить для изучения эпистаза.

ПОСЛЕДНИЕ МОДЕЛИ И ПРИЛОЖЕНИЯ

Недавно был предложен ряд новых методов ML, которые используют различные подходы для обнаружения эпистаза [13, 15, 16, 27, 28, 33–35], некоторые из которых основаны на уже обсужденных методах, а другие вводят новые подходы.

Расширения до MDR

MDR оказался популярным методом выявления эпистаза. Недавно были разработаны новые модели МЛУ, направленные на устранение некоторых ограничений оригинальных методов, некоторые из которых были успешно применены в ряде исследований генетических ассоциаций [13, 15, 16, 34, 35].Ранее было продемонстрировано, что МЛУ не может эффективно моделировать эпистаз, когда комбинации генотипов имеют соотношение случай-контроль, аналогичное таковым в полном наборе данных. Однако для устранения этого ограничения был предложен надежный MDR (RMDR). В традиционном MDR, если коэффициент случай-контроль ячейки равен таковому для всего набора данных или ячейка пуста, то ей случайным образом присваивается статус высокого или низкого риска. В устойчивом МЛУ генотипы объединены в три группы: высокого риска, низкого риска или неизвестного риска — на основе статистической значимости ассоциации каждой мультилокусной клетки со статусом случай-контроль.Если в ячейке коэффициент случай-контроль равен (или близок) к таковому для всего набора данных, то она помечается как неизвестный риск и исключается из модели. Таким образом, результаты упрощаются и их легче интерпретировать, чем при традиционном МЛУ. Подход RMDR был оценен с помощью набора данных по раку мочевого пузыря и подтвердил результаты подхода MDR, но с помощью более простой, легко интерпретируемой модели, которая была более эффективной с вычислительной точки зрения [13].

Количественная классификация взаимодействий SNP – SNP отсутствует в традиционных MDR, что затрудняет для исследователей определение того, какие взаимодействия потенциально являются наиболее важными.Два недавно предложенных метода, разработанные для получения более точных результатов, — это OR-MDR и MB-MDR. Чанг и др. . [15] предложил МЛУ на основе отношения шансов (OR-MDR), который использует тот же метод, что и MDR, для классификации генотипов как высокого или низкого риска, но включает отношение шансов для каждой комбинации генотипов. Высокое отношение шансов указывает на взаимодействие с потенциально более высоким риском по сравнению с взаимодействием с низким отношением шансов, поэтому взаимодействия с наиболее высоким риском могут быть легко идентифицированы с помощью такого подхода.МЛУ на основе модели (MB-MDR) [34, 35] разделяет генотипы на три категории: высокий риск, низкий риск или отсутствие доказательств, и все три тестируются на связь с заболеванием / признаком. Этот тест разработан для снижения риска пропуска важных взаимодействий и неспособности эффективно справиться с основными эффектами и смешивающими факторами. Для выявления взаимодействий используется двухэтапный подход: мера синергии между потенциально взаимодействующими генами используется на первом этапе, а MB-MDR используется на втором этапе.Этот метод направлен на более точную идентификацию взаимодействий с высоким риском, и результаты показывают, что по сравнению с МЛУ, он определяет гораздо меньшее количество взаимодействий как с высоким или низким риском. Многие взаимодействия, которые классифицируются как высокий риск по МЛУ, относятся к группе «без доказательств» в MB-MDR. Фактические данные свидетельствуют о том, что это меньший набор более надежных результатов и что некоторые из генотипов, отнесенных к группе «без доказательств», на самом деле связаны с заболеванием и не должны исключаться из модели.Включение этой группы кажется особенно важным в сценариях, где частоты минорных аллелей (MAF) низкие, где присутствует генетическая гетерогенность и когда имеется меньше возможностей для надежных заявлений о статусе риска генотипов.

Для решения проблемы неспособности MDR учитывать такие коварианты, как возраст, пол и этническая принадлежность, а также неспособности обрабатывать непрерывные данные, был предложен Generalized MDR (GMDR). GMDR похож на MDR в том, что он разделяет генотипы на две классификации риска; однако в нем используется оценка, основанная на оценках максимального правдоподобия для каждой переменной, а не на соотношении случай-контроль.Оценка рассчитывается с учетом условий для ковариат и дихотомических / непрерывных данных. GMDR значительно повышает точность прогнозирования риска, когда данные содержат ковариаты, и применима к сбалансированным данным «случай-контроль» или случайным данным [16].

Расширения до РФ

SNPInterForest [27] основан на радиочастотном подходе, но более успешен в обнаружении связанных с заболеванием SNP и обладает способностью одновременно определять несколько взаимодействий.SNPInterForest более чувствителен к SNP с ограниченным маржинальным эффектом, с чем исходный алгоритм RF работает плохо. Внесена модификация метода RF, чтобы предотвратить недооценку оценок важности SNP без маргинальных эффектов. Выбор нескольких SNP происходит на каждом узле, в отличие от исходного алгоритма RF, в котором используется только один SNP. Это значительно улучшает способность этого подхода обнаруживать SNP, связанные с заболеванием. Извлечение полезной биологической информации из RF-анализов в отношении биологических взаимодействий может оказаться сложной задачей.SNPInterForest решает эту проблему, оценивая силу взаимодействия комбинаций SNP. Каждая ветвь дерева представляет возможное взаимодействие SNP на этой ветви, и, если определенная комбинация SNP появляется чаще на ветви, то эти SNP, вероятно, будут взаимодействовать сильнее. Сила взаимодействия рассчитывается по количеству раз, когда каждая комбинация SNP появляется в каждой ветви каждого дерева. Нормализация применяется для выявления более слабых взаимодействий и этих взаимодействий из-за отдельных SNP с сильными ассоциациями.SNPInterForest также демонстрирует высокий уровень отзыва и низкий уровень ложных срабатываний, однако он требует больших вычислительных ресурсов [27].

SNPInterForest был определен как превосходящий другие методы, такие как «Скрининг и тестирование на основе операций BOolean» (BOOST). BOOST — это эффективный с вычислительной точки зрения двухэтапный статистический метод, применяемый для анализа всех парных взаимодействий в полногеномных данных [36] и в смоделированных данных со слабыми маргинальными эффектами. Было показано, что при отсутствии предельных эффектов BOOST дает гораздо больше ложноположительных результатов.Способность SNPInterForest обнаруживать эпистатические взаимодействия высокого порядка между более чем двумя SNP также оценивалась на смоделированных данных. Было создано пять наборов данных с использованием модели трех SNP, два из которых умеренно связаны с заболеванием чистым эпистатическим взаимодействием, а третий SNP с более слабым эффектом, который усиливает интерактивный эффект. SNPInterForest успешно идентифицировал взаимодействия во всех пяти наборах данных.

RF часто используются для выбора подмножества переменных [22], что делает их полезными для идентификации потенциально интересных SNP в двухэтапном подходе [33].Например, метод TRM [33] использует RF для идентификации и выбора важных вариантов и многомерные адаптивные регрессионные сплайны (MARS), метод непараметрической регрессии, для обнаружения взаимодействий. RFcouple [37], с другой стороны, был предложен в качестве метода предварительного скрининга на МЛУ. Преимущество двухэтапных подходов состоит в том, что подмножество потенциально значимых SNP выбирается алгоритмом фильтрации, а подход машинного обучения используется для поиска потенциальных взаимодействий; таким образом, в меньшем наборе потенциально интересных SNP можно провести исчерпывающий поиск эпистаза [3, 38].

Lin et al. [33] объединил как RF, так и MARS в подходе TRM, потому что ни один из методов по отдельности не считался оптимальным для выбора оптимальной комбинации генотипов для прогнозирования фенотипов в исследованиях с большим количеством SNP. Отдельные RF могут иметь трудности с выявлением основных паттернов взаимодействия, а MARS может испытывать трудности с обработкой множества нефункциональных SNP. В этом исследовании сравнивались три подхода: TRM OOB , TRM IS и только MARS.TRM OOB — это версия TRM, которая использует RF OOB и MARS, тогда как TRM IS использует RF IS и MARS. RF OOB основан на неиспользованных наблюдениях «OOB», а RF IS основан на спектре важности исходных данных по сравнению со спектром пермутированных данных. TRM OOB продемонстрировал более высокую частоту истинно положительных и более низкую частоту ложных срабатываний, чем два других подхода в имитационном исследовании со 100 SNP. TRM еще не применялся к большому набору данных, таким как GWAS, и его не сравнивали с другими более устоявшимися методами с доказанным успехом в прошлом.Однако исследование продемонстрировало двухэтапный подход к скринингу и тестированию SNP, способных выявить потенциальные взаимодействия.

Де Лобель и др. . [37] предлагают использовать RFcouple в качестве метода предварительной проверки на MDR. RFcouple основан на RF, но использует информацию о соотношении случаев и контролей для каждого генотипа, чтобы определить новую переменную для каждой пары SNP. Таким образом, набор данных содержит переменную для каждой пары SNP, а не для каждого отдельного SNP. RF строится на основе этих данных, и пары SNP выбираются на основе Z-оценок, которые связаны с ошибкой предсказания и стандартной ошибкой RF в переставленных данных.Отдельные SNP, составляющие эти пары, сохраняются и затем анализируются таким методом, как MDR. Мощность при использовании RFcouple до MDR всегда сравнима или больше, чем при использовании только MDR.

Random Jungle (RJ) — это реализация метода RF, который направлен на анализ данных в масштабе всего генома, то есть 1000 SNP [28]. Применение RJ к болезни Крона Данные GWAS подтвердили предыдущие выводы GWAS, а также выявили новые взаимодействия между генами, связанными с болезнью Крона. RJ гораздо более эффективен с точки зрения вычислений, чем другие реализации RF, что позволяет проводить реалистичный анализ данных GWAS большой размерности в реалистичные временные рамки.Тем не менее, RJ отличается от многих методов тем, что он проверяет ассоциацию, позволяющую взаимодействовать, а не напрямую проверяет взаимодействие [36]. В соответствии с традиционным радиочастотным подходом, RJ испытывает трудности с обнаружением взаимодействий, когда SNP имеют только слабые основные эффекты; деревья построены на основе основных эффектов SNP [36], поэтому такой подход бесполезен при отсутствии основных эффектов. В таблице 1 представлен обзор некоторых из основных подходов к ML, используемых для обнаружения взаимодействий ген-ген, а также некоторых их сильных сторон и ограничений.

Таблица 1:

Сильные стороны и ограничения некоторых подходов к машинному обучению

Метод . Сильные стороны . Ограничения .
MDR
  • Обнаруживает несколько генетических локусов одновременно, сохраняя низкий уровень ложноположительных результатов.

  • Без модели — важно, когда режим наследования неизвестен.

  • Непараметрический — количество условий взаимодействия не растет экспоненциально при добавлении каждой новой переменной.

  • Мощность остается высокой с 5% ошибкой генотипирования и / или 5% отсутствием данных для различных моделей двухлокусного эпистаза.

  • Перекрестная проверка сводит к минимуму количество ложных срабатываний.

  • Мощность значительно снижена при высокой (50%) фенокопии / генетической гетерогенности.

  • Отсутствует количественная оценка каждой модели для определения того, какая из них является наиболее рискованной — модели, которые трудно интерпретировать.

  • Может потребовать больших вычислительных ресурсов, особенно когда количество SNP, подлежащих оценке, превышает 10.

  • Частота ложноположительных / отрицательных ошибок высока, когда соотношение случай-контроль в тестовых данных близко к таковому во всем наборе данных.

  • Может определять совершенно разные модели, на которые влияют отсутствующие значения в данных.

RMDR Производит более простые для интерпретации модели, чем MDR — классифицирует генотипы с соотношением случай-контроль, близким ко всему набору данных, как «неизвестный риск» (исключенный из модели).
  • Значительная вычислительная нагрузка.

  • Для оценки односторонних, двусторонних и трехходовых моделей требуется больше времени, чем для MDR.

OR-MDR
  • Подобно MDR, но с отношением шансов для каждой комбинации генотипов — количественная мера риска заболевания.

  • Обеспечивает доверительный интервал для каждой комбинации генотипов.

  • Невозможно классифицировать пустую ячейку.

  • Вычислительно дорогие, особенно когда количество SNP превышает 10.

  • Влияние генетической гетерогенности / фенокопии неизвестно.

MB-MDR
  • Генотипы, классифицируемые как низкий / высокий риск / отсутствие доказательств — сокращение количества взаимодействий, классифицируемых как высокий риск.

  • Генотипы в группе «без доказательств» потенциально связаны с заболеванием и учитываются в модели.

  • Повышенная мощность и частота ложных срабатываний по сравнению с MDR.

Фенокопия и генетическая неоднородность значительно снижают мощность.
GMDR Использует оценку, основанную на максимальном правдоподобии (ML), а не на соотношении случай-контроль. Оценка ML включает ковариаты, что значительно повышает точность прогнозирования рисков.
  • Подобные генотипы МЛУ отнесены только к двум группам риска без количественной оценки.

  • Может потребовать больших вычислительных ресурсов, как указано выше.

Нейронные сети (NN)
  • Отличные возможности для распознавания / классификации образов

  • Способны работать с большими объемами данных.

  • Учитывает генетическую гетерогенность / полигенное наследование / высокие показатели фенокопии / неполную пенетрантность.

Невозможно перечислить все возможные архитектуры NN, и изменение архитектуры может изменить результаты анализа данных.Таким образом, невозможно быть уверенным в том, что используемая архитектура оптимальна.
GPNN
  • GP оптимизирует архитектуру NN.

  • Высокая мощность для обнаружения взаимодействий в присутствии нефункциональных SNP.

  • Предпочтительно, когда функциональные SNP неизвестны и требуется выбор переменных, а также подгонка модели.

  • Данные не «переоснащаются».

  • Высокая мощность в модели эпистаза со слабым краевым эффектом.

  • Гибкость моделирования — нет необходимости выбирать оптимальные входные данные, веса, соединения или скрытые слои.

  • Высокий уровень ложноположительных результатов в трех моделях локуса.

  • Требуется среда параллельной обработки.

  • На выходе получается дерево двоичных выражений, которое может быть большим (до 500 узлов) и трудным для интерпретации.

GENN
  • GE оптимизирует архитектуру NN.

  • Стабильно превосходит GPNN — оптимизирует NN более эффективно за меньшее количество поколений, чем GP.

  • Высокая мощность для обнаружения локусов риска при сложном заболевании.

RF
  • Может выявить взаимодействия между генами, которые не проявляют сильных основных эффектов.

  • Данные не «переоснащаются», и ошибка прогнозирования сводится к предельному значению.

  • Определяет SNP, предсказывающие фенотип.

  • Способность обнаруживать взаимодействия зависит от основных эффектов, какими бы слабыми они ни были.

  • Нет продемонстрированных успехов в данных GWAS.

  • Иногда занижает оценку важности SNP без предельных эффектов.

  • Извлечение полезной биологической информации может оказаться сложной задачей.

  • Обнаруживает только взаимодействия с большим размером эффекта.

SNPInterForest
  • Одновременно идентифицирует несколько взаимодействий.

  • Не занижает оценку важности SNP без маргинальных эффектов.

  • Выбор нескольких SNP на каждом узле улучшает способность обнаруживать болезни SNP даже при отсутствии маргинальных эффектов.

  • Оценивает силу взаимодействия комбинаций SNP.

  • Демонстрирует высокий уровень отзыва / низкий уровень ложных срабатываний.

  • Обнаружены взаимодействия при генетической гетерогенности.

Очень требовательны к вычислениям.
TRM Подмножество потенциально интересных SNP может подвергаться исчерпывающему поиску на предмет взаимодействий.
RJ
  • Предназначен для анализа данных в масштабе всего генома.

  • Более эффективен с точки зрения вычислений, чем реализации RF — возможен анализ многомерных данных GWAS.

SVM
  • Более интерпретируемый вывод по сравнению с MDR.

  • Легко обобщается на новые структуры данных.

  • Для классификации не требуется никаких пользовательских решений.

Метод . Сильные стороны . Ограничения .
MDR
  • Обнаруживает несколько генетических локусов одновременно, сохраняя низкий уровень ложноположительных результатов.

  • Без модели — важно, когда режим наследования неизвестен.

  • Непараметрический — количество условий взаимодействия не растет экспоненциально при добавлении каждой новой переменной.

  • Мощность остается высокой с 5% ошибкой генотипирования и / или 5% отсутствием данных для различных моделей двухлокусного эпистаза.

  • Перекрестная проверка сводит к минимуму количество ложных срабатываний.

  • Мощность значительно снижена при высокой (50%) фенокопии / генетической гетерогенности.

  • Отсутствует количественная оценка каждой модели для определения того, какая из них является наиболее рискованной — модели, которые трудно интерпретировать.

  • Может потребовать больших вычислительных ресурсов, особенно когда количество SNP, подлежащих оценке, превышает 10.

  • Частота ложноположительных / отрицательных ошибок высока, когда соотношение случай-контроль в тестовых данных близко к таковому во всем наборе данных.

  • Может определять совершенно разные модели, на которые влияют отсутствующие значения в данных.

RMDR Производит более простые для интерпретации модели, чем MDR — классифицирует генотипы с соотношением случай-контроль, близким ко всему набору данных, как «неизвестный риск» (исключенный из модели).
  • Значительная вычислительная нагрузка.

  • Для оценки односторонних, двусторонних и трехходовых моделей требуется больше времени, чем для MDR.

OR-MDR
  • Подобно MDR, но с отношением шансов для каждой комбинации генотипов — количественная мера риска заболевания.

  • Обеспечивает доверительный интервал для каждой комбинации генотипов.

  • Невозможно классифицировать пустую ячейку.

  • Вычислительно дорогие, особенно когда количество SNP превышает 10.

  • Влияние генетической гетерогенности / фенокопии неизвестно.

MB-MDR
  • Генотипы, классифицируемые как низкий / высокий риск / отсутствие доказательств — сокращение количества взаимодействий, классифицируемых как высокий риск.

  • Генотипы в группе «без доказательств» потенциально связаны с заболеванием и учитываются в модели.

  • Повышенная мощность и частота ложных срабатываний по сравнению с MDR.

Фенокопия и генетическая неоднородность значительно снижают мощность.
GMDR Использует оценку, основанную на максимальном правдоподобии (ML), а не на соотношении случай-контроль. Оценка ML включает ковариаты, что значительно повышает точность прогнозирования рисков.
  • Подобные генотипы МЛУ отнесены только к двум группам риска без количественной оценки.

  • Может потребовать больших вычислительных ресурсов, как указано выше.

Нейронные сети (NN)
  • Отличные возможности для распознавания / классификации образов

  • Способны работать с большими объемами данных.

  • Учитывает генетическую гетерогенность / полигенное наследование / высокие показатели фенокопии / неполную пенетрантность.

Невозможно перечислить все возможные архитектуры NN, и изменение архитектуры может изменить результаты анализа данных. Таким образом, невозможно быть уверенным в том, что используемая архитектура оптимальна.
GPNN
  • GP оптимизирует архитектуру NN.

  • Высокая мощность для обнаружения взаимодействий в присутствии нефункциональных SNP.

  • Предпочтительно, когда функциональные SNP неизвестны и требуется выбор переменных, а также подгонка модели.

  • Данные не «переоснащаются».

  • Высокая мощность в модели эпистаза со слабым краевым эффектом.

  • Гибкость моделирования — нет необходимости выбирать оптимальные входные данные, веса, соединения или скрытые слои.

  • Высокий уровень ложноположительных результатов в трех моделях локуса.

  • Требуется среда параллельной обработки.

  • На выходе получается дерево двоичных выражений, которое может быть большим (до 500 узлов) и трудным для интерпретации.

GENN
  • GE оптимизирует архитектуру NN.

  • Стабильно превосходит GPNN — оптимизирует NN более эффективно за меньшее количество поколений, чем GP.

  • Высокая мощность для обнаружения локусов риска при сложном заболевании.

RF
  • Может выявить взаимодействия между генами, которые не проявляют сильных основных эффектов.

  • Данные не «переоснащаются», и ошибка прогнозирования сводится к предельному значению.

  • Определяет SNP, предсказывающие фенотип.

  • Способность обнаруживать взаимодействия зависит от основных эффектов, какими бы слабыми они ни были.

  • Нет продемонстрированных успехов в данных GWAS.

  • Иногда занижает оценку важности SNP без предельных эффектов.

  • Извлечение полезной биологической информации может оказаться сложной задачей.

  • Обнаруживает только взаимодействия с большим размером эффекта.

SNPInterForest
  • Одновременно идентифицирует несколько взаимодействий.

  • Не занижает оценку важности SNP без маргинальных эффектов.

  • Выбор нескольких SNP на каждом узле улучшает способность обнаруживать болезни SNP даже при отсутствии маргинальных эффектов.

  • Оценивает силу взаимодействия комбинаций SNP.

  • Демонстрирует высокий уровень отзыва / низкий уровень ложных срабатываний.

  • Обнаружены взаимодействия при генетической гетерогенности.

Очень требовательны к вычислениям.
TRM Подмножество потенциально интересных SNP может подвергаться исчерпывающему поиску на предмет взаимодействий.
RJ
  • Предназначен для анализа данных в масштабе всего генома.

  • Более эффективен с точки зрения вычислений, чем реализации RF — возможен анализ многомерных данных GWAS.

SVM
  • Более интерпретируемый вывод по сравнению с MDR.

  • Легко обобщается на новые структуры данных.

  • Для классификации не требуется никаких пользовательских решений.

Таблица 1:

Сильные и слабые стороны некоторых подходов к машинному обучению

Метод . Сильные стороны . Ограничения .
MDR
  • Обнаруживает несколько генетических локусов одновременно, сохраняя низкий уровень ложноположительных результатов.

  • Без модели — важно, когда режим наследования неизвестен.

  • Непараметрический — количество условий взаимодействия не растет экспоненциально при добавлении каждой новой переменной.

  • Мощность остается высокой с 5% ошибкой генотипирования и / или 5% отсутствием данных для различных моделей двухлокусного эпистаза.

  • Перекрестная проверка сводит к минимуму количество ложных срабатываний.

  • Мощность значительно снижена при высокой (50%) фенокопии / генетической гетерогенности.

  • Отсутствует количественная оценка каждой модели для определения того, какая из них является наиболее рискованной — модели, которые трудно интерпретировать.

  • Может потребовать больших вычислительных ресурсов, особенно когда количество SNP, подлежащих оценке, превышает 10.

  • Частота ложноположительных / отрицательных ошибок высока, когда соотношение случай-контроль в тестовых данных близко к таковому во всем наборе данных.

  • Может определять совершенно разные модели, на которые влияют отсутствующие значения в данных.

RMDR Производит более простые для интерпретации модели, чем MDR — классифицирует генотипы с соотношением случай-контроль, близким ко всему набору данных, как «неизвестный риск» (исключенный из модели).
  • Значительная вычислительная нагрузка.

  • Для оценки односторонних, двусторонних и трехходовых моделей требуется больше времени, чем для MDR.

OR-MDR
  • Подобно MDR, но с отношением шансов для каждой комбинации генотипов — количественная мера риска заболевания.

  • Обеспечивает доверительный интервал для каждой комбинации генотипов.

  • Невозможно классифицировать пустую ячейку.

  • Вычислительно дорогие, особенно когда количество SNP превышает 10.

  • Влияние генетической гетерогенности / фенокопии неизвестно.

MB-MDR
  • Генотипы, классифицируемые как низкий / высокий риск / отсутствие доказательств — сокращение количества взаимодействий, классифицируемых как высокий риск.

  • Генотипы в группе «без доказательств» потенциально связаны с заболеванием и учитываются в модели.

  • Повышенная мощность и частота ложных срабатываний по сравнению с MDR.

Фенокопия и генетическая неоднородность значительно снижают мощность.
GMDR Использует оценку, основанную на максимальном правдоподобии (ML), а не на соотношении случай-контроль. Оценка ML включает ковариаты, что значительно повышает точность прогнозирования рисков.
  • Подобные генотипы МЛУ отнесены только к двум группам риска без количественной оценки.

  • Может потребовать больших вычислительных ресурсов, как указано выше.

Нейронные сети (NN)
  • Отличные возможности для распознавания / классификации образов

  • Способны работать с большими объемами данных.

  • Учитывает генетическую гетерогенность / полигенное наследование / высокие показатели фенокопии / неполную пенетрантность.

Невозможно перечислить все возможные архитектуры NN, и изменение архитектуры может изменить результаты анализа данных. Таким образом, невозможно быть уверенным в том, что используемая архитектура оптимальна.
GPNN
  • GP оптимизирует архитектуру NN.

  • Высокая мощность для обнаружения взаимодействий в присутствии нефункциональных SNP.

  • Предпочтительно, когда функциональные SNP неизвестны и требуется выбор переменных, а также подгонка модели.

  • Данные не «переоснащаются».

  • Высокая мощность в модели эпистаза со слабым краевым эффектом.

  • Гибкость моделирования — нет необходимости выбирать оптимальные входные данные, веса, соединения или скрытые слои.

  • Высокий уровень ложноположительных результатов в трех моделях локуса.

  • Требуется среда параллельной обработки.

  • На выходе получается дерево двоичных выражений, которое может быть большим (до 500 узлов) и трудным для интерпретации.

GENN
  • GE оптимизирует архитектуру NN.

  • Стабильно превосходит GPNN — оптимизирует NN более эффективно за меньшее количество поколений, чем GP.

  • Высокая мощность для обнаружения локусов риска при сложном заболевании.

RF
  • Может выявить взаимодействия между генами, которые не проявляют сильных основных эффектов.

  • Данные не «переоснащаются», и ошибка прогнозирования сводится к предельному значению.

  • Определяет SNP, предсказывающие фенотип.

  • Способность обнаруживать взаимодействия зависит от основных эффектов, какими бы слабыми они ни были.

  • Нет продемонстрированных успехов в данных GWAS.

  • Иногда занижает оценку важности SNP без предельных эффектов.

  • Извлечение полезной биологической информации может оказаться сложной задачей.

  • Обнаруживает только взаимодействия с большим размером эффекта.

SNPInterForest
  • Одновременно идентифицирует несколько взаимодействий.

  • Не занижает оценку важности SNP без маргинальных эффектов.

  • Выбор нескольких SNP на каждом узле улучшает способность обнаруживать болезни SNP даже при отсутствии маргинальных эффектов.

  • Оценивает силу взаимодействия комбинаций SNP.

  • Демонстрирует высокий уровень отзыва / низкий уровень ложных срабатываний.

  • Обнаружены взаимодействия при генетической гетерогенности.

Очень требовательны к вычислениям.
TRM Подмножество потенциально интересных SNP может подвергаться исчерпывающему поиску на предмет взаимодействий.
RJ
  • Предназначен для анализа данных в масштабе всего генома.

  • Более эффективен с точки зрения вычислений, чем реализации RF — возможен анализ многомерных данных GWAS.

SVM
  • Более интерпретируемый вывод по сравнению с MDR.

  • Легко обобщается на новые структуры данных.

  • Для классификации не требуется никаких пользовательских решений.

Метод . Сильные стороны . Ограничения .
MDR
  • Обнаруживает несколько генетических локусов одновременно, сохраняя низкий уровень ложноположительных результатов.

  • Без модели — важно, когда режим наследования неизвестен.

  • Непараметрический — количество условий взаимодействия не растет экспоненциально при добавлении каждой новой переменной.

  • Мощность остается высокой с 5% ошибкой генотипирования и / или 5% отсутствием данных для различных моделей двухлокусного эпистаза.

  • Перекрестная проверка сводит к минимуму количество ложных срабатываний.

  • Мощность значительно снижена при высокой (50%) фенокопии / генетической гетерогенности.

  • Отсутствует количественная оценка каждой модели для определения того, какая из них является наиболее рискованной — модели, которые трудно интерпретировать.

  • Может потребовать больших вычислительных ресурсов, особенно когда количество SNP, подлежащих оценке, превышает 10.

  • Частота ложноположительных / отрицательных ошибок высока, когда соотношение случай-контроль в тестовых данных близко к таковому во всем наборе данных.

  • Может определять совершенно разные модели, на которые влияют отсутствующие значения в данных.

RMDR Производит более простые для интерпретации модели, чем MDR — классифицирует генотипы с соотношением случай-контроль, близким ко всему набору данных, как «неизвестный риск» (исключенный из модели).
  • Значительная вычислительная нагрузка.

  • Для оценки односторонних, двусторонних и трехходовых моделей требуется больше времени, чем для MDR.

OR-MDR
  • Подобно MDR, но с отношением шансов для каждой комбинации генотипов — количественная мера риска заболевания.

  • Обеспечивает доверительный интервал для каждой комбинации генотипов.

  • Невозможно классифицировать пустую ячейку.

  • Вычислительно дорогие, особенно когда количество SNP превышает 10.

  • Влияние генетической гетерогенности / фенокопии неизвестно.

MB-MDR
  • Генотипы, классифицируемые как низкий / высокий риск / отсутствие доказательств — сокращение количества взаимодействий, классифицируемых как высокий риск.

  • Генотипы в группе «без доказательств» потенциально связаны с заболеванием и учитываются в модели.

  • Повышенная мощность и частота ложных срабатываний по сравнению с MDR.

Фенокопия и генетическая неоднородность значительно снижают мощность.
GMDR Использует оценку, основанную на максимальном правдоподобии (ML), а не на соотношении случай-контроль. Оценка ML включает ковариаты, что значительно повышает точность прогнозирования рисков.
  • Подобные генотипы МЛУ отнесены только к двум группам риска без количественной оценки.

  • Может потребовать больших вычислительных ресурсов, как указано выше.

Нейронные сети (NN)
  • Отличные возможности для распознавания / классификации образов

  • Способны работать с большими объемами данных.

  • Учитывает генетическую гетерогенность / полигенное наследование / высокие показатели фенокопии / неполную пенетрантность.

Невозможно перечислить все возможные архитектуры NN, и изменение архитектуры может изменить результаты анализа данных. Таким образом, невозможно быть уверенным в том, что используемая архитектура оптимальна.
GPNN
  • GP оптимизирует архитектуру NN.

  • Высокая мощность для обнаружения взаимодействий в присутствии нефункциональных SNP.

  • Предпочтительно, когда функциональные SNP неизвестны и требуется выбор переменных, а также подгонка модели.

  • Данные не «переоснащаются».

  • Высокая мощность в модели эпистаза со слабым краевым эффектом.

  • Гибкость моделирования — нет необходимости выбирать оптимальные входные данные, веса, соединения или скрытые слои.

  • Высокий уровень ложноположительных результатов в трех моделях локуса.

  • Требуется среда параллельной обработки.

  • На выходе получается дерево двоичных выражений, которое может быть большим (до 500 узлов) и трудным для интерпретации.

GENN
  • GE оптимизирует архитектуру NN.

  • Стабильно превосходит GPNN — оптимизирует NN более эффективно за меньшее количество поколений, чем GP.

  • Высокая мощность для обнаружения локусов риска при сложном заболевании.

RF
  • Может выявить взаимодействия между генами, которые не проявляют сильных основных эффектов.

  • Данные не «переоснащаются», и ошибка прогнозирования сводится к предельному значению.

  • Определяет SNP, предсказывающие фенотип.

  • Способность обнаруживать взаимодействия зависит от основных эффектов, какими бы слабыми они ни были.

  • Нет продемонстрированных успехов в данных GWAS.

  • Иногда занижает оценку важности SNP без предельных эффектов.

  • Извлечение полезной биологической информации может оказаться сложной задачей.

  • Обнаруживает только взаимодействия с большим размером эффекта.

SNPInterForest
  • Одновременно идентифицирует несколько взаимодействий.

  • Не занижает оценку важности SNP без маргинальных эффектов.

  • Выбор нескольких SNP на каждом узле улучшает способность обнаруживать болезни SNP даже при отсутствии маргинальных эффектов.

  • Оценивает силу взаимодействия комбинаций SNP.

  • Демонстрирует высокий уровень отзыва / низкий уровень ложных срабатываний.

  • Обнаружены взаимодействия при генетической гетерогенности.

Очень требовательны к вычислениям.
TRM Подмножество потенциально интересных SNP может подвергаться исчерпывающему поиску на предмет взаимодействий.
RJ
  • Предназначен для анализа данных в масштабе всего генома.

  • Более эффективен с точки зрения вычислений, чем реализации RF — возможен анализ многомерных данных GWAS.

SVM
  • Более интерпретируемый вывод по сравнению с MDR.

  • Легко обобщается на новые структуры данных.

  • Для классификации не требуется никаких пользовательских решений.

ОГРАНИЧЕНИЯ ТЕКУЩИХ МОДЕЛЕЙ И БУДУЩИХ НАПРАВЛЕНИЙ

Обнаружение эпистаза в GWAS связано с множеством трудностей, связанных как с анализируемыми данными, так и с возможностями используемых методов ML.Во-первых, это сложность данных о болезни, которая включает гетерогенность аллелей / локусов, фенокопии, гетерогенность признаков, фенотипическую изменчивость [38] и неполную пенетрантность [10]. Некоторые из обсуждаемых здесь моделей были разработаны для устранения таких ограничений. Например, было высказано предположение, что методы RF могут быть успешными в борьбе с определенными типами гетерогенности [22, 27, 28], в то время как некоторые характеристики NN делают их способными решать генетическую гетерогенность, полигенное наследование, высокие показатели фенокопии и неполная пенетрантность [17, 19].

Во-вторых, вычислительная нагрузка, связанная с поиском взаимодействий ген-ген (SNP-SNP), потенциально огромна [39], особенно при поиске взаимодействий между двумя или более SNP в GWAS [3]. Большинство обсуждаемых методов продемонстрировали успех в моделировании данных, содержащих не более нескольких сотен SNP. Хотя такие результаты обнадеживают, в настоящее время неясно, насколько успешными будут некоторые из этих методов при работе с до 500 000 SNP в GWAS. Помимо вычислительной нагрузки, результаты могут представлять серьезные проблемы для биологической интерпретации.Мощность многих методов значительно снижается при попытке раскрыть взаимодействия более высокого порядка. Вопросу разработки «достаточно мощных» исследований на сегодняшний день уделяется относительно мало внимания. Хотя исчерпывающий поиск парных взаимодействий в данных GWAS может стать вычислительно выполнимым, обширная проверка взаимодействий кандидатов в независимых выборках необходима, как и в GWAS в целом, для подтверждения или опровержения открытий. Необходимо разработать более сложные подходы, способные моделировать взаимодействия более высокого порядка, но может потребоваться использование экспертных знаний о биологических и биохимических путях для выбора SNP, которые могут быть связаны с конкретным заболеванием [22].Также может быть необходимо и более мощно использовать двухэтапную модель, в которой алгоритмы фильтрации выбирают подмножество SNP, а метод машинного обучения исчерпывающий поиск взаимодействий [3, 38, 40]. Этот подход может потребовать меньше времени и дать модели, которые легче интерпретировать [40]. Однако некоторые утверждают, что вполне вероятно, что SNP с сильным эпистазом, но слабыми основными эффектами будут отфильтрованы [36], поэтому эти методы не обязательно найдут оптимальное решение. Более того, часто бывает, что отдельные SNP оцениваются на предмет ассоциации с заболеванием на основе показателя важности, который не принимает во внимание взаимодействия с другими SNP.Очевидно, что при поиске эпистаза важны взаимодействия между SNP. Таким образом, SNP с высоким показателем важности, но не участвующий во взаимодействиях SNP-SNP, явно бесполезен в этом контексте.

Между биологическим и статистическим эпистазом может быть небольшое сходство; биологический эпистаз происходит на клеточном уровне внутри индивидуума, тогда как статистический эпистаз касается генетической изменчивости в масштабе популяции [1]. Однако большинство методов проверяют статистический, а не биологический эпистаз [36].

Наконец, все обсуждаемые подходы успешно раскрывают эпистаз в смоделированных данных, а некоторые также успешно применяются к данным о болезнях различного объема и сложности (Таблица 2). Однако большинство исследований сосредоточено на подтверждении ранее полученных результатов, и лишь немногие из них действительно раскрывают новые взаимодействия, связанные с заболеванием. Хотя важно, чтобы методы тестировались на реальных данных, для которых уже известны взаимодействия, существует острая потребность в приложениях машинного обучения, которые выявляют новые важные взаимодействия при распространенных заболеваниях.В этом отношении пока еще ни один метод не был особенно успешным.

Таблица 2:

Некоторые применения подходов машинного обучения к генетическим данным

Метод . Успешный сценарий . ссылку .
MDR Применяется к 10 полиморфизмам в пяти генах, связанных с метаболизмом эстрогена в ткани груди. Выявлено взаимодействие с четырьмя локусами, связанное с риском спорадического рака груди. [12]
RMDR В исследовании изучалась взаимосвязь между SNP генов репарации ДНК, курением и раком мочевого пузыря. Испытано семь SNP в пяти генах, участвующих в репарации ДНК. Подтвержденные результаты исследования МЛУ с использованием тех же данных, но предоставили гораздо более четкую модель взаимодействий высокого риска. [13]
OR-MDR Применяется к 42 SNP в 10 генах, связанных с синдромом хронической усталости. И MDR, и OR-MDR применялись ко всем возможным комбинациям SNP до четвертого порядка. [15]
MB-MDR Применяется к 282 SNP в 108 генах пути воспаления рака мочевого пузыря. Было идентифицировано восемь взаимодействий второго порядка и 14 взаимодействий третьего порядка. [34]
GMDR Применяется к 23 SNP в четырех генах для определения генов чувствительности к никотиновой зависимости. GMDR и MDR выявили одинаковые взаимодействия. [16]
GPNN Применяется к 22 SNP в генах митохондриального комплекса I с ядерным кодированием в когорте пациентов с болезнью Паркинсона.Обнаружено двухлокусное взаимодействие между геном DLST и полом. [41]
GENN Применяется к 35 SNP в пяти генах, которые кодируют белки, участвующие в передаче сигналов IL-2 / IL-15. Реплицированные результаты анализа с использованием MDR. [18]
RF Применяется к 42 SNP из гена ADAM33, связанного с астмой. [25]
SNPInterForest Применены к данным GWAS по ревматоидному артриту от Wellcome Trust Case Control Consortium (~ 500 000 SNP).Выявлены два новых взаимодействия. [27]
TRM Применяется к 106 SNP в шести генах, связанных с рецепторами эстрогена, от пациентов с раком простаты. Взаимодействия, выявленные между SNP в двух генах, ранее были связаны с риском рака простаты и преждевременной недостаточностью яичников. [33]
RJ Применяется к данным GWAS болезни Крона, содержащим ~ 275 000 SNP. Результаты подтвердили результаты других GWAS и выявили новые взаимодействия. [28]
SVM Применяется к 57 SNP в 18 генах в исследовании рака простаты. Выявлены взаимодействия высокого порядка между пятью SNP в соответствии с результатами MDR на тех же данных. [11]
Метод . Успешный сценарий . ссылку .
MDR Применяется к 10 полиморфизмам в пяти генах, связанных с метаболизмом эстрогена в ткани груди.Выявлено взаимодействие с четырьмя локусами, связанное с риском спорадического рака груди. [12]
RMDR В исследовании изучалась взаимосвязь между SNP генов репарации ДНК, курением и раком мочевого пузыря. Испытано семь SNP в пяти генах, участвующих в репарации ДНК. Подтвержденные результаты исследования МЛУ с использованием тех же данных, но предоставили гораздо более четкую модель взаимодействий высокого риска. [13]
OR-MDR Применяется к 42 SNP в 10 генах, связанных с синдромом хронической усталости.И MDR, и OR-MDR применялись ко всем возможным комбинациям SNP до четвертого порядка. [15]
MB-MDR Применяется к 282 SNP в 108 генах пути воспаления рака мочевого пузыря. Было идентифицировано восемь взаимодействий второго порядка и 14 взаимодействий третьего порядка. [34]
GMDR Применяется к 23 SNP в четырех генах для определения генов чувствительности к никотиновой зависимости. GMDR и MDR выявили одинаковые взаимодействия. [16]
GPNN Применяется к 22 SNP в генах митохондриального комплекса I с ядерным кодированием в когорте пациентов с болезнью Паркинсона. Обнаружено двухлокусное взаимодействие между геном DLST и полом. [41]
GENN Применяется к 35 SNP в пяти генах, которые кодируют белки, участвующие в передаче сигналов IL-2 / IL-15. Реплицированные результаты анализа с использованием MDR. [18]
RF Применяется к 42 SNP из гена ADAM33, связанного с астмой. [25]
SNPInterForest Применено к данным GWAS по ревматоидному артриту от Wellcome Trust Case Control Consortium (~ 500 000 SNP). Выявлены два новых взаимодействия. [27]
TRM Применяется к 106 SNP в шести генах, связанных с рецепторами эстрогена, от пациентов с раком простаты. Взаимодействия, выявленные между SNP в двух генах, ранее были связаны с риском рака простаты и преждевременной недостаточностью яичников. [33]
RJ Применяется к данным GWAS болезни Крона, содержащим ~ 275 000 SNP.Результаты подтвердили результаты других GWAS и выявили новые взаимодействия. [28]
SVM Применяется к 57 SNP в 18 генах в исследовании рака простаты. Выявлены взаимодействия высокого порядка между пятью SNP в соответствии с результатами MDR на тех же данных. [11]
Таблица 2:

Некоторые применения подходов машинного обучения к генетическим данным

Метод . Успешный сценарий . ссылку .
MDR Применяется к 10 полиморфизмам в пяти генах, связанных с метаболизмом эстрогена в ткани груди. Выявлено взаимодействие с четырьмя локусами, связанное с риском спорадического рака груди. [12]
RMDR В исследовании изучалась взаимосвязь между SNP генов репарации ДНК, курением и раком мочевого пузыря. Испытано семь SNP в пяти генах, участвующих в репарации ДНК. Подтвержденные результаты исследования МЛУ с использованием тех же данных, но предоставили гораздо более четкую модель взаимодействий высокого риска. [13]
OR-MDR Применяется к 42 SNP в 10 генах, связанных с синдромом хронической усталости. И MDR, и OR-MDR применялись ко всем возможным комбинациям SNP до четвертого порядка. [15]
MB-MDR Применяется к 282 SNP в 108 генах пути воспаления рака мочевого пузыря. Было идентифицировано восемь взаимодействий второго порядка и 14 взаимодействий третьего порядка. [34]
GMDR Применяется к 23 SNP в четырех генах для определения генов чувствительности к никотиновой зависимости.GMDR и MDR выявили одинаковые взаимодействия. [16]
GPNN Применяется к 22 SNP в генах митохондриального комплекса I с ядерным кодированием в когорте пациентов с болезнью Паркинсона. Обнаружено двухлокусное взаимодействие между геном DLST и полом. [41]
GENN Применяется к 35 SNP в пяти генах, которые кодируют белки, участвующие в передаче сигналов IL-2 / IL-15. Реплицированные результаты анализа с использованием MDR. [18]
RF Применяется к 42 SNP из гена ADAM33, связанного с астмой. [25]
SNPInterForest Применено к данным GWAS по ревматоидному артриту от Wellcome Trust Case Control Consortium (~ 500 000 SNP). Выявлены два новых взаимодействия. [27]
TRM Применяется к 106 SNP в шести генах, связанных с рецепторами эстрогена, от пациентов с раком простаты. Взаимодействия, выявленные между SNP в двух генах, ранее были связаны с риском рака простаты и преждевременной недостаточностью яичников. [33]
RJ Применяется к данным GWAS болезни Крона, содержащим ~ 275 000 SNP.Результаты подтвердили результаты других GWAS и выявили новые взаимодействия. [28]
SVM Применяется к 57 SNP в 18 генах в исследовании рака простаты. Выявлены взаимодействия высокого порядка между пятью SNP в соответствии с результатами MDR на тех же данных. [11]
Метод . Успешный сценарий . ссылку .
MDR Применяется к 10 полиморфизмам в пяти генах, связанных с метаболизмом эстрогена в ткани груди. Выявлено взаимодействие с четырьмя локусами, связанное с риском спорадического рака груди. [12]
RMDR В исследовании изучалась взаимосвязь между SNP генов репарации ДНК, курением и раком мочевого пузыря. Испытано семь SNP в пяти генах, участвующих в репарации ДНК. Подтвержденные результаты исследования МЛУ с использованием тех же данных, но предоставили гораздо более четкую модель взаимодействий высокого риска. [13]
OR-MDR Применяется к 42 SNP в 10 генах, связанных с синдромом хронической усталости. И MDR, и OR-MDR применялись ко всем возможным комбинациям SNP до четвертого порядка. [15]
MB-MDR Применяется к 282 SNP в 108 генах пути воспаления рака мочевого пузыря. Было идентифицировано восемь взаимодействий второго порядка и 14 взаимодействий третьего порядка. [34]
GMDR Применяется к 23 SNP в четырех генах для определения генов чувствительности к никотиновой зависимости.GMDR и MDR выявили одинаковые взаимодействия. [16]
GPNN Применяется к 22 SNP в генах митохондриального комплекса I с ядерным кодированием в когорте пациентов с болезнью Паркинсона. Обнаружено двухлокусное взаимодействие между геном DLST и полом. [41]
GENN Применяется к 35 SNP в пяти генах, которые кодируют белки, участвующие в передаче сигналов IL-2 / IL-15. Реплицированные результаты анализа с использованием MDR. [18]
RF Применяется к 42 SNP из гена ADAM33, связанного с астмой. [25]
SNPInterForest Применено к данным GWAS по ревматоидному артриту от Wellcome Trust Case Control Consortium (~ 500 000 SNP). Выявлены два новых взаимодействия. [27]
TRM Применяется к 106 SNP в шести генах, связанных с рецепторами эстрогена, от пациентов с раком простаты. Взаимодействия, выявленные между SNP в двух генах, ранее были связаны с риском рака простаты и преждевременной недостаточностью яичников. [33]
RJ Применяется к данным GWAS болезни Крона, содержащим ~ 275 000 SNP.Результаты подтвердили результаты других GWAS и выявили новые взаимодействия. [28]
SVM Применяется к 57 SNP в 18 генах в исследовании рака простаты. Выявлены взаимодействия высокого порядка между пятью SNP в соответствии с результатами MDR на тех же данных. [11]

Учитывая все более объемные генетические данные, которые в настоящее время производятся исследованиями секвенирования следующего поколения, и появляющиеся доказательства того, что очень большое количество вариантов индивидуального низкого риска лежат в основе распространенных заболеваний, потребность в мощных моделях машинного обучения возрастает. актуален как никогда.Очевидно, что существующие методы требуют дальнейшего развития, прежде чем можно будет заявить об успешном применении к этим огромным массивам данных, а их результаты улучшат понимание генетической эпидемиологии болезни или станут полезными в условиях прогнозирования риска клинических заболеваний.

  • Методы ML, включая многофакторное уменьшение размерности, RF, NN и SVM, были разработаны и успешно применяются для обнаружения взаимодействий ген-ген в моделируемых данных и данных о заболеваниях.

  • Расширения исходных моделей облегчили применение некоторых подходов к большим наборам данных, но вычислительные проблемы и проблемы биологической интерпретации остаются.

  • Недавние двухэтапные методы, которые изначально уменьшают количество потенциально интересных SNP, в которых нужно искать взаимодействие, могут быть многообещающими, но ни один из методов полностью не решает сложность проблемы.

  • Подходящие модели и приложения для еще более сложных и объемных данных секвенирования следующего поколения в настоящее время отсутствуют.

ФИНАНСИРОВАНИЕ

Эта работа поддержана Кампанией по борьбе с раком груди.

Список литературы

1,.

Эпистаз и его значение для личной генетики

,

Am J Hum Genet

,

2009

, vol.

85

(стр.

309

20

) 2.

Общегеномные исследования ассоциации — освещение биологических путей

,

N Eng J Med

,

2009

, vol.

360

стр.

1699701

3.

Выявление генно-генетических взаимодействий, лежащих в основе заболеваний человека

,

Nat Rev Genet

,

2009

, vol.

10

(стр.

392

404

) 4« и др.

Возможные этиологические и функциональные последствия полногеномных ассоциативных локусов для болезней и признаков человека

,

Proc Natl Acad Sci USA

,

2009

, vol.

106

(стр.

9362

7

) 5,.

Новый ландшафт восприимчивости к раку груди

,

Nat Genet

,

2008

, vol.

40

(стр.

17

22

) 6« и др.

Комбинированное влияние низкопенетрантных SNP на риск рака груди

,

Br J Cancer

,

2012

, vol.

106

(стр.

389

96

) 7,.

Проблемы полногеномных подходов к общим заболеваниям

,

JAMA

,

2004

, vol.

291

(стр.

1642

3

) 8,.

Преодоление концептуального разрыва между биологическим и статистическим эпистазом: системная биология и более современный синтез

,

BioEssays

,

2005

, vol.

27

(стр.

637

46

) 9.

Эпистаз — важная роль взаимодействия генов в структуре и эволюции генетических систем

,

Nat Rev Genet

,

2008

, vol.

9

(стр.

855

67

) 10.

Эпистаз: что это означает, что не означает, и статистические методы его обнаружения у людей

,

Hum Mol Genet

,

2002

, vol.

11

(стр.

2463

8

) 11« и др.

Машинный метод поддержки векторов для обнаружения взаимодействия ген-ген

,

Genet Epidemiol

,

2008

, vol.

32

(стр.

152

67

) 12,,, et al.

Уменьшение многофакторной размерности выявляет взаимодействия высокого порядка между генами метаболизма эстрогенов при спорадическом раке груди

,

Am J Hum Genet

,

2001

, vol.

69

(стр.

138

47

) 13,,, et al.

Надежный многофакторный метод уменьшения размерности для обнаружения взаимодействий генов с приложением к генетическому анализу предрасположенности к раку мочевого пузыря

,

Ann Hum Genet

,

2011

, vol.

75

(стр.

20

8

) 14,,.

Сила многофакторного уменьшения размерности для выявления взаимодействий ген-ген при наличии ошибки генотипирования, отсутствующих данных, фенокопии и генетической гетерогенности

,

Genet Epidemiol

,

2003

, vol.

24

(стр.

150

7

) 15,,, et al.

Метод многофакторного снижения размерности на основе отношения шансов для обнаружения взаимодействий ген-ген

,

Bioinformatics

,

2007

, vol.

23

(стр.

71

6

) 16« и др.

Обобщенный комбинаторный подход к обнаружению взаимодействий ген за геном и ген за средой с приложением к никотиновой зависимости

,

Am J Hum Genet

,

2007

, vol.

80

(стр.

1125

37

) 17« и др.

Сравнение подходов к оптимизации нейронных сетей для изучения генетики человека

,

Lect Notes Comp Sci

,

2006

, vol.

3907

(стр.

103

14

) 18,,, et al.

Сравнение подходов к оптимизации нейронных сетей с помощью машинного обучения для обнаружения взаимодействий генов в генетической эпидемиологии

,

Genet Epidemiol

,

2008

, vol.

32

(стр.

325

40

) 19,.

Нейросетевой анализ сложных признаков

,

Genet Epidemiol

,

1997

, vol.

14

(стр.

1101

6

) 20,,, et al.

Нейронные сети для генетического программирования: мощный инструмент биоинформатики для генетики человека

,

Appl Soft Comput

,

2007

, vol.

7

(стр.

471

9

) 21,.

«Генетическая генерация весов и архитектуры нейронной сети»

,

Neural Networks, 1991., IJCNN-91-Сиэтлская международная совместная конференция

,

1991

, vol.

Т. 392

(стр.

397

404

) 22,,.

Проблемы биоинформатики для полногеномных ассоциативных исследований

,

Биоинформатика

,

2010

, vol.

26

(стр.

445

55

) 23« и др.

Оптимизация архитектуры нейронной сети с помощью генетического программирования улучшает обнаружение и моделирование взаимодействия генов при изучении болезней человека

,

BMC Bioinformatics

,

2003

, vol.

4

стр.

28

24« и др.

Характеристика генетических взаимодействий в исследованиях ассоциации болезней человека с использованием статистических сетей эпистаза

,

BMC Bioinformatics

,

2011

, vol.

12

стр.

364

25« и др.

Идентификация SNP для прогнозирования фенотипа с использованием случайных лесов

,

Genet Epidemiol

,

2005

, vol.

28

(стр.

171

82

) 26.

Случайные леса

,

Mach Learn

,

2001

, vol.

45

(стр.

5

32

) 27,.

SNPInterForest: новый метод обнаружения эпистатических взаимодействий

,

BMC Bioinformatics

,

2011

, vol.

12

стр.

469

28,,.

На сафари в случайные джунгли: быстрая реализация случайных лесов для данных большой размерности

,

Биоинформатика

,

2010

, vol.

26

(стр.

1752

8

) 29,,.

Скрининг геномных взаимодействий на предрасположенность к ревматоидному артриту по всему геному

,

Human Genetics

,

2011

, vol.

129

(стр.

473

85

) 30,.

Сети опорных векторов

,

Mach Learn

,

1995

, vol.

20

(стр.

273

97

) 31« и др.

Прогностические модели предрасположенности к раку груди на основе множественных однонуклеотидных полиморфизмов

,

Clin Cancer Res

,

2004

, vol.

10

(стр.

2725

37

) 32« и др.

Уменьшение размерности с помощью машин разреженных опорных векторов

,

J Mach Learn Res

,

2003

, vol.

3

(стр.

1229

43

) 33« и др.

TRM: мощный двухэтапный подход машинного обучения для выявления взаимодействий SNP-SNP

,

Ann Hum Genet

,

2012

, vol.

76

(стр.

53

62

) 34« и др.

Совершенствование стратегий выявления генетических паттернов восприимчивости к болезням в ассоциативных исследованиях

,

Stat Med

,

2008

, vol.

27

(стр.

6532

46

) 35« и др.

Многофакторное снижение размерности на основе модели для обнаружения эпистаза в данных случай – контроль в присутствии шума

,

Ann Hum Genet

,

2011

, vol.

75

(стр.

78

89

) 36« и др.

BOOST: быстрый подход к выявлению взаимодействий ген-ген в общегеномных исследованиях случай-контроль

,

Am J Hum Genet

,

2010

, vol.

87

(стр.

325

40

) 37,,, et al.

Методология скрининга на основе случайных лесов для улучшения выявления взаимодействий генов

,

Eur J Hum Genet

,

2010

, vol.

18

(стр.

1127

32

) 38,,.

Генетика, статистика и болезни человека: аналитическое переоснащение для усложнения

,

Trends Genet

,

2004

, vol.

20

(стр.

640

7

) 39« и др.

Эмпирическое сравнение нескольких недавних методов обнаружения эпистатического взаимодействия

,

Bioinformatics

,

2011

, vol.

27

(стр.

2936

43

) 40,,.

Общегеномные стратегии обнаружения множественных локусов, влияющих на сложные заболевания

,

Nat Genet

,

2005

, vol.

37

(стр.

413

7

) 41« и др.

GPNN: силовые исследования и применение метода нейронных сетей для обнаружения взаимодействий генов в исследованиях болезней человека

,

BMC Bioinformatics

,

2006

, vol.

7

стр.

39

© Автор 2012.Опубликовано Oxford University Press. Для получения разрешений обращайтесь по электронной почте: [email protected]

.

Произошла ошибка при настройке пользовательского файла cookie

Этот сайт использует файлы cookie для повышения производительности. Если ваш браузер не принимает файлы cookie, вы не можете просматривать этот сайт.


Настройка вашего браузера для приема файлов cookie

Существует множество причин, по которым cookie не может быть установлен правильно. Ниже приведены наиболее частые причины:

  • В вашем браузере отключены файлы cookie.Вам необходимо сбросить настройки своего браузера, чтобы он принимал файлы cookie, или чтобы спросить вас, хотите ли вы принимать файлы cookie.
  • Ваш браузер спрашивает вас, хотите ли вы принимать файлы cookie, и вы отказались. Чтобы принять файлы cookie с этого сайта, нажмите кнопку «Назад» и примите файлы cookie.
  • Ваш браузер не поддерживает файлы cookie. Если вы подозреваете это, попробуйте другой браузер.
  • Дата на вашем компьютере в прошлом. Если часы вашего компьютера показывают дату до 1 января 1970 г., браузер автоматически забудет файл cookie.Чтобы исправить это, установите правильное время и дату на своем компьютере.
  • Вы установили приложение, которое отслеживает или блокирует установку файлов cookie. Вы должны отключить приложение при входе в систему или проконсультироваться с системным администратором.

Почему этому сайту требуются файлы cookie?

Этот сайт использует файлы cookie для повышения производительности, запоминая, что вы вошли в систему, когда переходите со страницы на страницу. Чтобы предоставить доступ без файлов cookie потребует, чтобы сайт создавал новый сеанс для каждой посещаемой страницы, что замедляет работу системы до неприемлемого уровня.


Что сохраняется в файле cookie?

Этот сайт не хранит ничего, кроме автоматически сгенерированного идентификатора сеанса в cookie; никакая другая информация не фиксируется.

Как правило, в файле cookie может храниться только информация, которую вы предоставляете, или выбор, который вы делаете при посещении веб-сайта. Например, сайт не может определить ваше имя электронной почты, пока вы не введете его. Разрешение веб-сайту создавать файлы cookie не дает этому или любому другому сайту доступа к остальной части вашего компьютера, и только сайт, который создал файл cookie, может его прочитать.

Морфологические и молекулярные доказательства функциональной организации вдоль рострокаудальной оси кишечника взрослых рыбок данио | BMC Genomics

Архитектурные различия вдоль кишечного тракта рыбок данио

Передне-задняя ось пищеварительного тракта была ранее описана для эмбриональных и молодых рыбок данио [7] и карповых [15, 16]. Таким образом, пищеварительный тракт взрослого человека состоит из рта, глотки, пищевода, кишечника и ануса (дополнительный файл 1).Тем не менее, данио относится к группе рыб без желудка, у которых кишечник выходит прямо из пищевода. У взрослых рыб он состоит из трех частей: ростральной кишечной луковицы, среднего и хвостового отделов кишечника (рис. 1А), как ранее сообщалось Wallance et al [9]. После отделения от животного и освобождения от окружающей брыжейки кишечник остается свернутым на два витка в три прямые области, которые анатомически соответствуют трем частям, как наблюдали in vivo (рис. 1B).Их диаметр уменьшается вдоль передне-задней оси (рис. 1В).

Рисунок 1

Анатомические особенности кишечника взрослых рыбок данио . (A) Частично рассеченный 6-месячный данио, чтобы показать складывание трех частей кишечника in vivo: ростральной кишки (RIB), средней кишки (MI) и каудальной кишки (CI). Показаны печень, яичник, задний проход, передняя (SBa) и задняя (SBp) камеры плавательного пузыря. (B) Изолированный кишечник рыбки данио in vitro после удаления окружающей брыжейки.Изолированный кишечник был разделен на семь сегментов примерно одинаковой длины, как показано зелеными линиями: S1-S2 от RIB, S3-S4 от MI и S5-S7 от CI. Показан ассоциированный желчный пузырь. (C-I) Виды поверхности сегментов S1-S7, показывающие складывание поверхности слизистой оболочки в кольцевые гребни. Масштабные линейки 500 мкм м.

Чтобы охарактеризовать функцию кишечника, мы разделили кишечную луковицу, среднюю часть кишечника и хвостовой отдел на семь сегментов, S1-S7 (рис. 1B) и исследовали их архитектуру под световым микроскопом.Мы наблюдаем, что поверхность кишечника рыбок данио в сегментах S1-S6 покрыта гребнями, которые ориентированы по окружности поперек оси кишечника (Рисунок 1C-1I, как сообщалось ранее [9]. Гребни плотно упакованы и сильно разветвлены. гребни короче и шире передних сегментов.Сегмент S7 морфологически отличается от других шести сегментов гладкой поверхностью, лишенной каких-либо складок или структур ворсинчатого типа (рис. 1I). Архитектура слизистой оболочки пищеварительного тракта рыбок данио, наружной мышечной ткани и серозного слоя (рис. 2).Слизистая оболочка кишечника состоит, очевидно, из энтероцитов столбчатой ​​формы и бокаловидных клеток, секретирующих слизистую оболочку. Другие типы клеток, такие как энтероэндокринные клетки, можно идентифицировать с помощью специального окрашивания или трансгенного мечения GFP [8–10]. Нижележащая пластинка содержит кровеносные капилляры, лимфатические сосуды, мышечные волокна и мезенхимальные клетки. Общая архитектура кишечника рыбок данио, как видно из поперечных сечений, напоминает структуру кишечника млекопитающих, как описано ранее [9]. Слой слизистой оболочки непосредственно окружен круговыми и продольными слоями гладких мышц наружной мышечной ткани, в которые встроены сплетения нейронов кишечника, как сообщалось ранее [8, 9].В двенадцатиперстной кишке млекопитающих типичный подслизистый слой содержит железы Бруннера, разветвленные трубчатые или разветвленные тубулоальвеолярные железы, которые производят щелочной секрет для нейтрализации кислого шума, поступающего в двенадцатиперстную кишку [17]. Однако в кишечнике рыбок данио подслизистый слой и железы Бруннера отсутствуют (рис. 2).

Рисунок 2

Гистологические особенности кишечника взрослых рыбок данио вдоль семи передне-задних сегментов . (A-G) Типичные поперечные срезы кишечника из сегментов S1-S7 соответственно.Все срезы окрашивали гематоксилином / эозином / альциановым синим. Сегменты S1-S6 содержат три тканевых слоя: слизистую оболочку, наружную мышечную оболочку и серозную оболочку, в то время как S7 имеет простой эпителий, непосредственно прилегающий к наружной мышечной ткани. Бокаловидные клетки (окрашенные в синий цвет) разбросаны среди абсорбирующих клеток. Примеры энтероцитов (e) и бокаловидных клеток (g) указаны на панелях (A) и (G). Масштаб: 50 мкм м.

В соответствии с нашими более ранними наблюдениями кишечных гребней в сегментах от S1 до S6 и отсутствия гребней в S7, эти гребни в поперечном сечении напоминают пространственно отдельные ворсинки в тонком кишечнике мыши или человека (Рис. 2).В отличие от кишечника млекопитающих, крипты отсутствуют в основании гребней, а специализированные клетки крипт, такие как клетки Панета, не наблюдаются [9]. Гребни ворсинок сопоставимы по высоте от сегментов S1 до S5 (Рисунок 2, укорачиваются и расширяются в сегменте S6 (Рисунок 2F) и отсутствуют в сегменте S7 (Рисунок 2G). Сегменты S5-S7 часто содержат компактные выделения, которые окружены слизистый слой (окрашен синим альциановым синим на рис. 2G). В дополнение к отсутствию ворсинок сегмент S7 отличается выстилкой из обильных бокаловидных клеток, которые перемежаются абсорбирующими эпителиальными клетками (рис. 2G).Наружная мышца видна, но слизистая оболочка в целом кажется очень тонкой по сравнению с другими сегментами кишечника. Таким образом, на основе гистологии и архитектуры слизистая оболочка кишечника делится на три морфологически различных региона: сегменты S1-5, S6 и S7.

Отчетливые молекулярные сигнатуры вдоль кишечного тракта рыбок данио

На основании общей морфологии сегменты S1-S5 схожи, а сегменты S6 и S7 различны. Эти различия в структуре предполагают, что должны быть внутренние различия в функциях.Чтобы проверить эту идею, мы исследовали и сравнили молекулярные сигнатуры каждого сегмента, профилируя их транскрипционную активность. Используя стандартное скорректированное по Бонферрони значение p <0,1 (с поправкой на ложное открытие), примененное к результатам одностороннего анализа ANOVA, мы идентифицировали 2558 генов, которые дифференциально экспрессировались по крайней мере в одном из семи сегментов, и организовали гены с помощью иерархической кластеризации. анализ [18] (рис. 3А) на предмет сходства в паттернах экспрессии генов. Этот анализ отсортировал семь сегментов в их анатомической последовательности, S1-S7 с S1-S5, более похожими друг на друга, чем на сегменты S6 и S7.

Рисунок 3

Анализы генов, дифференциально экспрессируемых вдоль передне-задней части кишечника . (A) Иерархическая кластеризация сегментов S1-S7 по дифференциально экспрессируемым генам, выбранным анализом ANOVA. Сегменты с S1 по S5 сгруппированы как одна группа; сегменты S6 и S7 сгруппированы как другая группа. (B) Анализ перекрытия активированных генов в соседних сегментах. Количество и процент перекрывающихся генов указаны внутри и под перекрестком соответственно.

Чтобы понять значимость кластеров, мы затем применили порог в 2,0 раза против объединенной РНК, выделенной из целых взрослых рыбок данио, к набору из 2558 генов из анализа ANOVA. Этот анализ показывает, что количество генов, которые широко экспрессируются в каждом отдельном сегменте: 830 (S1), 801 (S2), 820 (S3), 818 (S4), 825 (S5), 950 (S6) и 1023 (S7). ). Чтобы определить степень, в которой гены обычно экспрессируются в кишечном тракте, мы определили перекрытие в наборах генов между парами соседних сегментов (рис. 3B).В соответствии с результатами кластеризации на рисунке 3A, значительное пересечение было обнаружено между сегментами S1-S5 [более 700 генов (или ≥89,9%) для каждого перекрытия, рисунок 3B]. Однако сегменты S6 и S7 экспрессируют совершенно разные наборы генов, чем передние сегменты. S5 и S6 перекрываются в 12,3% генов, в то время как S6 и S7 имеют только 45,2% общих генов. Аналогичные результаты наблюдались и при анализе генов с пониженной регуляцией (дополнительный файл 2).

Чтобы подтвердить эти закономерности перекрытия, мы идентифицировали ряд генов, которые либо сильно экспрессировались в сегментах S1-S5 (например,грамм. gdpd1, chchd7 , zgc: 11410, hbl3 и т. Д.) Или в сегментах S6 и S7 (например, trp , ctsl1, ctsc, gnb3, gsbp1, ppp2r2 d и т. Д.), Предлагая полный функциональный переход кишечник рыбок данио (рис. 4А). Паттерны экспрессии vil1l (Рисунок 4B), fabp2 (Рисунок 4C), apoa1 (Рисунок 4D), apoa4 (Рисунок 4E), cfl1 (Рисунок 4F), zgc: 110410 (Рисунок 4G). ), тип (фиг. 4H) и ctsl1 (фиг. 4I) были подтверждены с помощью ОТ-ПЦР в реальном времени.Таким образом, на основе молекулярного анализа кишечник рыбок данио можно разделить на три молекулярно различных участка, представленных сегментами S1-S5, S6, S7 соответственно.

Рисунок 4

Паттерны экспрессии выбранных кишечных генов . (A) Паттерны экспрессии выбранных генов на основе данных микрочипа. Гены были отобраны на основе их известной функции в пищеварительном тракте и / или на основании их профилей экспрессии. (B-I) Подтвержденный с помощью qRT-PCR образец экспрессии выбранных генов.Гистограммы показывают относительные изменения уровней экспрессии генов по сравнению с их соответствующими уровнями гена домашнего хозяйства , бактина2 . Имена генов указаны на каждой панели.

Молекулярные особенности функций, подобных тонкой и толстой кишке

Показав, что кишечник можно подразделить на три области, S1-S5, S6 и S7, на основе сходства экспрессируемых генов, мы исследовали идентичность генов дает представление о функции кишечника, поэтому мы выбрали несколько генов-маркеров кишечника для более подробного анализа.

Функции тонкого кишечника мыши и человека были охарактеризованы хорошо известными молекулярными маркерами, включая fabp2 [19], vil1l [20–22], апоа1 и апоа4 [23–25]. Все эти гены были обнаружены в S1-S5 в наших анализах микрочипов по их более высоким уровням экспрессии по сравнению с общими РНК от цельной рыбы (рис. 4A) и подтверждены анализами RT-PCR в реальном времени (рис. 4B-E). Кишечный ген fabp2 кодирует белок, связывающий жирные кислоты, который специфически участвует во внутриклеточном транспорте жирных кислот в тонком кишечнике [19, 26, 27].Этот ген высоко консервативен у костистых, земноводных, птиц и млекопитающих [28]. Ранее была создана линия трансгенных рыбок данио RFP под кишечным промотором fabp2 , Tg (fabp2: RFP) , и репортерный ген RFP специфически экспрессировался в кишечнике [29]. Для дальнейшей проверки экспрессии кишечного fabp2 мы изолировали кишечник от 3-месячной трансгенной рыбки данио Tg (fabp2: RFP) и обнаружили, что флуоресценция RFP была высокой в ​​сегментах S1-S4, но быстро уменьшалась вокруг второй оборот кишечника (дополнительный файл 3, панель B).Этот паттерн экспрессии был также подтвержден прямым обнаружением экспрессии эндогенной мРНК fabp2 с помощью гибридизации in situ (дополнительный файл 3, панель C). Очень похожий на паттерн экспрессии fabp2 , экспрессия виллинов также ограничена желудочно-кишечным трактом млекопитающих, где она высоко экспрессируется в тонком кишечнике [21]. Наши данные микрочипа показывают, что ген виллина рыбок данио ( vil1l ) высоко экспрессируется в сегментах S1-S5, а его экспрессия снижена в сегментах S6 и S7.Этот результат дополнительно подтверждается с помощью ОТ-ПЦР в реальном времени (рис. 4C), где экспрессия vil1l снижается в сегменте S5 и до незначительного уровня в сегментах S6 и S7. В качестве дополнительного подтверждения того, что сегменты S1-S4 обладают чертами тонкой кишки, еще два консервативных маркера, апоа1 и апоа4 , также показали сходный паттерн экспрессии с генами fabp2 и vil1l вдоль передне-задней оси рыбок данио. кишечник. Эти два гена также можно рассматривать как надежные молекулярные маркеры тонкого кишечника, поскольку в 36 исследованных тканях человека и 45 тканях мышей экспрессия Apoa1 и Apoa4 млекопитающих сильно ограничена органами пищеварения, включая тонкий кишечник и печень (GSE2361 и GDS182, база данных GEO, NCBI).Эти паттерны маркеров тонкой кишки вместе с данными транскриптома предполагают, что тонкий кишечник включает сегменты S1-S4, и переход к другой функции происходит в сегменте S5.

Если сегменты S1-S4 подобны тонкому кишечнику, то мы исследовали, экспрессирует ли S5-S7 генные маркеры для толстого кишечника. Два гена, cfl1 ( cofilin1 ) и aqp3 ( аквапорин 3 ), различают сегменты S5-S7 от S1-S4. Cfl1 принадлежит к семейству актин-связывающих белков и обеспечивает динамическую стабилизацию актиновых филаментов [30].Наши данные на микрочипе и RT-PCR в реальном времени (рис. 4A, F) показывают, что cfl1 преимущественно экспрессируется в сегментах S5-S7, но подавляется в первых четырех сегментах. Анализ базы данных EST крыс предполагает, что cfl1 экспрессируется в толстой кишке, но не в тонкой кишке (программа просмотра профилей EST Unigene, Unigene Rn.11675, NCBI). Аналогичным образом, наши данные микроматрицы показали повышенную экспрессию Aqp3, белка осоморегуляторного канала на мембране эпителиальных клеток [31], особенно в толстой кишке млекопитающих [32] и слизистых клетках задней части кишечника костистого угря [33], в сегментах. S6 и S7 (рис. 4A, Dr.76207). Аквапорины представляют собой белки водных каналов, которые облегчают движение воды, следовательно, увеличивают проницаемость воды через клеточную мембрану, и поэтому увеличение экспрессии Aqp3 важно для абсорбции воды в кишечнике, в частности, для обезвоживания фекалий в толстом кишечнике. В соответствии с этим аквапорин 3 млекопитающих экспрессируется в желудочно-кишечном тракте, а его самая высокая экспрессия — в толстой кишке [31, 32]. Таким образом, в то время как сегменты S1-S5 обладают молекулярными особенностями тонкой кишки, сегменты S6 и S7 имеют молекулярные особенности толстой кишки с сегментом S5 в качестве переходной области).

Анализ онтологии генов (GO) вдоль передне-задней оси

Чтобы сделать вывод о функциях кишечных сегментов, для трех групп, S1-S5 ( 891 гена), S6 (1147 генов) и S7 (1107 генов). Мы предполагаем, что эти значительно активированные гены должны лучше отражать специфические функции различных сегментов кишечника, и поэтому для этих генов был проведен анализ генной онтологии с использованием GOTree Machine [34].Значительно обогащенные (p-значение <0,01) категории в каждом регионе показаны в дополнительном файле 4.

Как и ожидалось от основного метаболического органа, кишечник рыбок данио содержит богатую коллекцию генов, участвующих в метаболизме, молекулярном транспорте и локализации, каталитическом деятельности среди прочего. Однако основные различия были обнаружены между тремя группами S1-S5, S6 и S7. 56 категорий были статистически обогащены в S1-S5, но только 6 категорий в S6 и 8 категорий в S7.Среди этих обогащенных категорий гены с повышенной регуляцией в S1-S5 участвуют в широком спектре метаболических процессов, включая метаболизм жирных кислот, органических кислот, липидов, витаминов, гема, алкоголя, глюкозы, гексозы, моносахридов, углеводов и т. Д. (Дополнительный файл 4). Они также играют важную роль в производстве энергии и гомеостазе ионов, железа и катионов. Примечательно, что группа генов связана с каталитической активностью, такой как активность гидролазы и активность трансферазы, которые важны для абсорбционной функции тонкого кишечника.Разнообразие категорий GO в группе S1-S5 поддерживает множественные функции этой части кишечника рыбок данио с особенностями тонкой кишки (будет обсуждаться ниже).

Группы S6 и S7, с другой стороны, показывают только несколько статистически обогащенных категорий. Например, гены из S6 участвуют в активности оксидоредуктазы, в то время как гены из S7 обогащены биосинтезом витаминов и пиридиновых нуклеотидов (дополнительный файл 4). Они также участвуют во внутриклеточной передаче сигналов и активности пентозил / фосфорибозилтрансферазы.Кажется, что сегменты S6 и S7 представляют две области кишечника рыбок данио, которые выполняют задачи, очевидно отличные от таковых в S1-S5.

Межвидовой анализ обогащения набора генов (GSEA) показывает, что сегменты S1-S5 являются многофункциональными. S1-S5, S6 и S7 и сравнение их с помощью анализа GSEA с полными транскриптомами желудка, тонкого и толстого кишечника мыши и человека (GDS182 и GSE2361, база данных GEO, NCBI).Результаты, обобщенные в таблице 1, показывают, что сегменты S1-S5 очень похожи на тонкий кишечник мыши и человека с очень значимыми значениями FDR (

<0,001). Сегменты S1-S5 мало похожи на желудок (FDR мыши = 0,06; FDR человека = 0,68) и не имеют сходства с слепой кишкой человека. Анализ онтологии генов показывает, что большинство генов, соответствующих переднему краю кривой GSEA, участвуют в метаболизме липидов, жирных кислот, холестерина и глицеролипидов или участвуют в активности пептидазы и оксидоредуктазы, что напоминает активность тонкой кишки млекопитающих. (данные не показаны).

Таблица 1 Сравнение транскриптомного сходства кишечных сегментов рыбок данио и кишечника человека / мыши с помощью анализов GSEA

В отличие от сегментов S1-S5, сегмент S6 очень похож на слепую и прямую кишку толстой кишки человека (FDR <0,001), в то время как сегмент S7 напоминает только прямую кишку человека (FDR = 0,003). Анализ генной онтологии показывает, что S6 напоминает слепую кишку человека по гликолизу, оксидоредуктазной активности, метаболизму аминокислоты, производного амина, органической кислоты, карбоновой кислоты и спирта.В то время как в S7 было обнаружено, что метаболизм мембранных липидов обогащен. Задержка воды - обычная функция толстой кишки млекопитающих. В соответствии с этим несколько генов аквапоринов, включая аквапоринов 1, 3 и 10 , высоко экспрессируются в S6 / S7. В частности, хорошо известно, что аквапорин 3 является ключевым компонентом обезвоживания фекалий в толстой кишке млекопитающих [31, 32]. Интересно, что хотя S1-S5 больше всего напоминает тонкий кишечник, мы обнаружили некоторое значительное сходство с функциями, обнаруженными в толстой и прямой кишке человека (Таблица 1), предполагая, что сегменты S1-S5 рыбок данио могут иметь более широкие функции.Этот феномен может отражать менее специализированные и дифференцированные особенности кишечника рыб как примитивного вида позвоночных. Это особенно верно для «тонкого кишечника» рыб (S1-S5), поскольку он составляет более двух третей длины кишечника.

Таким образом, анализ GSEA подтверждает, что сегменты S1-S5 кишечника рыбок данио обладают чертами тонкого кишечника млекопитающих, тогда как сегменты S6 и S7 обладают чертами толстого кишечника млекопитающих (в частности, S7 напоминает прямую кишку).

Желудоподобные функции кишечника

Яркой особенностью анатомии рыбок данио является отсутствие желудка [9, 35]. Чтобы понять, выполняет ли кишечник скрытую функцию желудка, мы исследовали гены рыбок данио, кодирующие ферменты, включая пепсин и некоторые пищеварительные протеазы, с учетом функций желудка. Пепсиногены млекопитающих подразделяются на три основные группы и две второстепенные группы [36, 37], однако о гене пепсиногена у рыбок данио никогда не сообщалось.Мы провели поиск потенциальных последовательностей пепсиногена в геноме рыбок данио. Сначала мы провели поиск BLAST в базе данных генома Ensembl http://www.ensembl.org с использованием последовательностей PGC человека (PEPSINOGEN C) и PGA (PEPSINOGEN A), но не обнаружили каких-либо значимых совпадений, относящихся к гену пепсиногена. Затем в более конкретном поиске TBLASTN [38] с использованием домена pfam00026, который хорошо сохраняется для всех аспарагиновых протеаз у позвоночных, мы идентифицировали гены пепсиногена, а также некоторые гены аспарагиновой протеазы у человека, мыши, Xenopus и рыб Fugu, а также нескольких гены аспарагиновой протеазы рыбок данио и предполагаемая последовательность гена, кодирующая гипотетический белок NP956325.1. Чтобы определить, могут ли эти последовательности рыбок данио представлять ген пепсиногена, соответствующие аминокислотные последовательности были выровнены, филогенетическое дерево было построено с использованием алгоритма головоломки квартета, реализованного в программе Tree-Puzzle [39], и результат был визуализирован с помощью TreeViewX [40] ]. Наш анализ предполагает, что у рыбок данио есть гены, кодирующие реннин, нотгепсин и несколько членов катепсинов (рис. 5). Однако ни один из этих генов рыбок данио не похож на гены пепсиногена млекопитающих. Результаты поиска генома и результаты филогенетического анализа вместе предполагают, что локус гена пепсиногена не присутствует в геноме рыбок данио.

Рисунок 5

Филогенетический анализ генов рыбок данио, кодирующих аспарагиновые протеазы . Аминокислотные последовательности пищеварительных протеаз рыбок данио сравнивали с таковыми у других видов, включая млекопитающих, земноводных и рыб. Аспарагиновая протеаза паразита ( Haemonchus contortus ), CAA96571, используется в качестве внешней группы. * указывает на потенциальный гипотетический белковый продукт.

В то время как пепсиноген не кодируется в геноме рыбок данио, другие желудочные маркеры могут экспрессироваться в кишечнике.Например, lipf представляет собой ген липазы желудка, кодирующий ацидофильную липазу, секретируемую главными клетками желудка млекопитающих [41, 42].

Опубликовано в категории: Разное

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *