Вмененка для ип в 2019 году: Единый налог на вмененный доход (ЕНВД)

Содержание

Перечень отчетов для ИП в 2019 году

Представляем информацию, которую мы условно разобьем на четыре группы:

1) Отчеты в зависимости от выбранной системы налогообложения;

2) Отчеты в зависимости от того, есть у ИП наемные работники или нет;

3) Отчеты по прочим налогам;

4) Отчеты в статистику.

Какие отчеты надо сдавать предпринимателю в зависимости от системы налогообложения?

Система налогообложения для ИП

Вид отчетности

Сроки подачи отчетности для ИП

ОСНО – общепринятая система налогообложения

Декларация по НДС

По итогам каждого квартала до 25 числа месяца (включительно), следующего за отчетным кварталом.

Декларация представления только в электронном виде.

Форма 4-НДФЛ

Сдается после фактического появления доходов от хозяйственной деятельности в течение 5 дней после окончания месяца, в котором появились доходы.

Примечание:

На основании декларации ФНС рассчитывает авансовые платежи по НДФЛ на текущий год.

Если ИП работает не первый год и значительных колебаний дохода в текущем году не планируется – форма не сдается (авансы рассчитываются по данным формы 3-НДФЛ за предыдущий период).

Если в течение текущего года произошел резкий скачок дохода (увеличение или падение более чем на 50%) – подается корректирующая декларация для перерасчета авансов по налогу

Форма 3-НДФЛ

По итогам календарного года до 30 апреля следующего года. За 2018 год подается не позднее 2 мая 2019 года.

УСН – «упрощенка»

Декларация УСН

По итогам года до 30 апреля следующего года. За 2018 год подается не позднее 2 мая 2019 года.

ЕНВД – «вмененка»

Декларация по ЕНВД

По итогам квартала не позже 20 числа месяца, идущего за отчетным кварталом

ЕСХН

Декларация по ЕСХН

По итогам года до 31 марта следующего года включительно. За 2018 год подается не позднее 2 апреля 2019 года.

Патент

Отчеты сдавать не надо

Далее, «разбивка» отчетов идет в зависимости от того, есть у ИП наемные работники или нет.

Если у предпринимателя нет наемных работников, тогда он не сдает отчеты, о которых мы будем говорить ниже.

Если у предпринимателя есть наемные работники, тогда он обязан сдавать отчеты в три инстанции:

– налоговую инспекцию,

– пенсионный фонд,

– фонд социального страхования.

Список отчетов в ИФНС:

1) Сведения о среднесписочной численности работников по итогам года. Сдавать следует по итогам года не позже 20 января, следующего за отчетным.

2) Расчет 6-НДФЛ – сдавать надо четыре раза в год, по итогам каждого квартала. Порядок представления отчета.

3) Сведения по форме 2-НДФЛ – сдавать следует по итогам года. Порядок и сроки представления.

4) Расчет по страховым взносам – сдавать надо четыре раза в год, по итогам каждого квартала. Порядок представления отчета.

Список отчетов в ПФР:

1) СЗВ-М – ежемесячная форма отчетности, которую надо представлять в срок не позднее 15 числа месяца, следующего за отчетным. Пример заполнения СЗВ-М.

2) СЗВ-СТАЖ, ОДВ-1 – по итогам года до 1 марта года, идущего за отчетным. При подаче работником заявления о выходе на пенсию – в течение 3 дней с момента обращения лица к работодателю.

Отчеты в ФСС:

1) Расчет 4-ФСС – сдавать надо четыре раза в год, по итогам каждого квартала. Порядок представления отчета.

2) Заявление о подтверждении основного вида деятельности по итогам года – представляется раз в год. Образцы, примеры заполнения. 

Предприниматель вправе вести деятельность, которая попадает под обложение иными налогами и сборами и на этом основании придется сдавать следующую отчетность:

– Декларацию по водному налогу,

– Декларацию по акцизам,

– Декларацию по НДПИ,

– Сведения и выданных разрешениях на добычу животных,

– Сведения о количестве объектов, изъятых из среды обитания,

– Сведения о выданных разрешениях и суммах сбора к уплате,

– Расчет платежей за пользование недрами.

Отчеты в статистику

Сдавать статистическую отчетность обязаны:

1) ИП, относящиеся к малому бизнесу, которые попали в выборку Росстата,

2) ИП, относящиеся к среднему или крупному бизнесу. Предпринимателям органы статистики рассылают соответствующие уведомления. Проверить, должен ли коммерсант сдавать статистические отчеты, можно самостоятельно на сайте: statreg.gks.ru

Для того, чтобы разобраться, какие отчеты надо представить, советуем почитать нашу статью «Отчеты в статистику: как не получить штраф?».

КБК по ЕНВД для ИП в 2019 году: таблица

Какие КБК для ИП в 2019 году для уплаты? Это новые КБК для ИП? Поясним в таблице.

Таблица для ИП

КБКРасшифровка
182 1 05 020 10 02 1000 110КБК по ЕНВД
182 1 05 020 10 02 2100 110КБК пени ЕНВД 2019
182 1 05 020 10 02 3000 110КБК для уплаты штрафа по ЕНВД

Отчетность (ЕНВД) для ИП в 2019 году

Пе­ри­одСрок сдачи ЕНВД
4 квар­тал 2018 года21 ян­ва­ря 2019 года
1 квар­тал 2019 года22 ап­ре­ля 2019 года
2 квар­тал 2019 года22 июля 2019 года
3 квар­тал 2019 года21 ок­тяб­ря 2019 года

За непред­став­ле­ние на­ло­го­вой де­кла­ра­ции по ЕНВД в 2019 году в уста­нов­лен­ные сроки преду­смот­ре­но на­чис­ле­ние штра­фа в раз­ме­ре 5% от суммы на­ло­га, под­ле­жа­ще­го упла­те, но не более 30% от дан­ной суммы на­ло­га и не менее 1 000 руб­лей (п. 1 ст. 119 НК РФ).

ЕНВД: сроки уплаты для ИП 2019

Еди­ный налог упла­чи­ва­ет­ся в бюд­жет еже­квар­таль­но не позд­нее 25-го числа ме­ся­ца сле­ду­ю­ще­го за квар­та­лом (п. 1 ст. 346.32 НК РФ).

Пе­ри­одСрок упла­ты ЕНВД
4 квар­тал 2018 года25 ян­ва­ря 2019 года
1 квар­тал 2019 года25 ап­ре­ля 2019 года
2 квар­тал 2019 года25 июля 2019 года
3 квар­тал 2019 года25 ок­тяб­ря 2019 года

За неупла­ту еди­но­го на­ло­га преду­смот­ре­но на­чис­ле­ние штра­фа в раз­ме­ре 20% от суммы за­дол­жен­но­сти по на­ло­гу (п. 1 ст. 122 НК РФ). Он гро­зит при непра­виль­ном от­ра­же­нии на­ло­га в де­кла­ра­ции, при­вед­шем к неупла­те на­ло­га.

КБК ЕНВД 2019-2020 для ИП, пени, штрафы

 

В данной статье раскрыты особенности оплаты КБК ЕНВД 2019 для ИП. Указываются сроки и коды бюджетной организации для отправки оплаты.

Единый вмененный налог заменяет стандартные разрозненные платежи и облегчает нагрузку на малый бизнес. Чтобы не допустить ошибку при выплате, необходимо использовать КБК ЕНВД 2019 для ИП — цифровое обозначение бюджетного учреждения.

Куда платить ЕНВД

ФНС — орган, который отвечает за контроль налогообложения. Служба имеет подразделения в населенных пунктах. Выбор отделения для оплаты осуществляется по территориальному принципу с использованием ЕНВД КБК. Установлена общая норма: налог платится по месту осуществления деятельности.

Исключения из правила:

  • грузоперевозки;
  • транспортировка пассажиров;
  • реклама, которая размещена на транспортных средствах;
  • развозная торговля;
  • оплаты страховых взносов за работников.

Обе категории оплачиваются по месту регистрации ИП. Остальные виды деятельности, от бытовых и ветеринарных услуг до передачи торговой точки в аренду, подпадают под действие главной нормы.

Когда платить ЕНВД индивидуальным предпринимателям

Согласно законодательству, плательщик обязан своевременно погашать налоговые задолженности перед государством. ЕНВД — не исключение. Конкретные сроки уплаты закреплены в НК РФ (ст.346.32). Периодом признается квартал. Крайний день — 25 число месяца, следующего за последним налоговым периодом.

Срок уплаты в 2019 году

Правила не менялись. Изменений в сроках не произошло. Предусмотрено 4 квартала. По итогам каждого квартала коммерсант обязан оплатить ЕНВД.

Действовали следующие даты:

Четвертый квартал 2017 года

До 25 января 2018 года

Первый квартал 2018 года

До 25 апреля 2018 года

Второй квартал 2018 года

До 25 июля 2018 года

Третий квартал 2018 года

До 25 октября 2018 года

Последний день оплаты не приходился на рабочий день. Предприниматели платили по стандартной схеме, без переноса на рабочие будни. Обратите внимание на время подачи декларации. Срок отличается от непосредственной уплаты налога — до 20 числа соответствующих месяцев. Иными словами, акт подается раньше, чем оплата обязанности.

Срок уплаты в 2020 году

Нормы сохранятся. Причем ни один день не будет праздничным — коммерсанты платят по стандартной схеме в соответствии с КБК для оплаты ЕНВД в 2019 году. Кварталы заканчиваются аналогичным образом — в январе, апреле, июле и октябре соответственно. Сроки подачи декларации также не изменились.

Четвертый квартал 2018 года

До 25 января 2019 года

Первый квартал 2019 года

До 25 апреля 2019 года

Второй квартал 2019 года

До 25 июля 2019 года

Третий квартал 2019 года

До 25 октября 2019 года

КБК по ЕНВД для уплаты налогов, пени и штрафов ИП 2019-2020

Код бюджетной организации зависит от целей оплаты. Данные представлены в следующей таблице:

ЕНВД в 2020 году для ИП КБК (код самого налога)

182 1 05 02010 02 1000 110

Код штрафа

182 1 05 02010 02 3000 110

КБК пени ЕНВД

182 1 05 02010 02 2100 110

Пени — санкция, которая ежедневно начисляется за просрочку оплаты обязательства. В отличие от пени, штраф назначается за конкретное нарушение. Несмотря на непосредственное отношение санкций к «вмененке», КБК штрафов и пени отличается от кода самого налога. Рекомендуется сохранить данные, чтобы не перепутать направление денег.

Образец платежного поручения на уплату ЕНВД

Банком России в 2012 году было выпущено Положение № 383, которое утвердило унифицированную форму.

Содержание акта:

  • дата составления и вид платежа;
  • сведения об ИП, его наименование и ИНН;
  • информация о получателе (указать БИК, ИНН и КПП;
  • сумма оплаты числом и прописью.

Так как у индивидуального предпринимателя отсутствует КПП, то в поле указывается «0». Документ составляется в печатном виде на материальном носителе. Допустимо подготовить поручение в электронном формате. Для удобства восприятия ниже представлен образец платежного поручения, который поможет избежать ошибок и опечаток при заполнении.

Налоговый календарь на июнь 2019 года

В июне предпринимателей ждет четыре отчетных даты — 17, 20, 25 и 28 числа. Как всегда в первую очередь необходимо отчитаться работодателям: предоставить в контролирующие органы отчеты и уплатить страховые взносы за сотрудников.

Кроме того, организациям и некоторым индивидуальным предпринимателям предстоит совершить авансовые платежи по налогам на прибыль и НДС, а также представить декларацию и уплатить косвенный налог по импортированным товарам за май 2019 года. Подробнее о том, кому и какие отчеты необходимо подготовить — в налоговом календаре Фингуру. Выберите форму своего бизнеса с помощью меню и проверьте, что нужно подготовить именно вам, спланируйте свое время и подготовьте нужные документы.

Добавьте нужный налоговый календарь в свой Google-календарь, нажав соответствующую кнопку под таблицей. Кстати, от индивидуальных предпринимателей без сотрудников на спецрежимах в этом месяце не требуется никаких отчетов и платежей.

Содержание:

Налоговый календарь для ООО

Организации на ОСНО

Организации на УСН, ЕНВД, ЕСХН

ООО на ОСНО

ООО на УСН, ЕНВД и ЕСХН

Налоговый календарь для ИП (с сотрудниками)

ИП (с сотрудниками) на ОСНО

ИП (с сотрудниками) на УСН, ЕНВД, ЕСХН

ИП на ОСНО (с сотруд.)

ИП на УСН, ЕНВД и ЕСХН (с сотруд.)

Налоговый календарь для ИП (без сотрудников)

ИП (без сотрудников) на ОСНО

ИП (без сотрудников) на УСН, ЕНВД, ЕСХН

ИП на ОСНО (без сотруд.)

ИП на УСН, ЕНВД и ЕСХН (без сотруд.)

2622

Хочу все знать!

Свежие статьи про то, как экономить на полезных сервисах и получать удовольствие от ведения бизнеса

Новости, какие изменения ЕНВД произойдут в 2019 году

Один из законопроектов от 2011 года предлагал отменить ЕНВД в 2014 году. Рекомендованная альтернатива – переход на патентную систему. Но тогда инициативу не поддержали. Повторно вопрос подняли в 2012 году, когда налоговое законодательство было изменено внесением поправок. По ним ЕНВД должен был исчезнуть в 2018 году. Но в 2016 году правительство решило перенести момент отмены налога на 2021 год.

О налоге

Под аббревиатурой ЕНВД скрывается единый налог на вмененный доход, который был введен в 2003 году вместе с новым Налоговым кодексом. Суть его заключается в возможности выбора особого режима налогообложения. Он доступен не для всех предпринимателей, только для некоторых категорий. Например, для тех, кто связан с:

  • ремонтом и прочими бытовыми услугами;
  • розничной торговлей;
  • общепитом;
  • ветеринарными услугами;
  • и так далее.

Полный список в каждом субъекте РФ выглядит по-разному. У регионов есть право блокировать ЕНДВ в пределах их территории.

Основные характеристики ЕНВД:

  • фиксированный размер (15% от вмененного дохода) не зависит от фактического дохода и прибыли. Учитывается только текущий вид деятельности и различные коэффициенты на повышение или понижение ставки;
  • кратность уплаты в местный бюджет: 1 раз в 3 месяца;
  • бизнес освобожден от уплаты почти всех сборов и иных налогов;
  • допускается работа без кассового аппарата, так как рассчитывать прибыль не придется.

Такие льготные и удобные условия благоприятно действуют на развитие малого бизнеса, а значит и на российскую экономику в целом. При этом крупные компании не имеют права использовать ЕНВД. Есть и другие ограничения на право применения ЕНВД.

Статистика Минфина говорит о невероятной популярности данного режима начисления налогов. Только за 2017 год количество использовавших его предпринимателей превысило 2 миллиона, государственная казна получила огромную сумму: чуть более 50 миллиардов налоговой базы.

Отменят ли ЕНВД

С отменой ЕНВД согласны далеко не все, проходят бурные обсуждения, дискутируют на всех уровнях, в том числе и в правительстве. Немалое число экономистов и ИП утверждает, что эта система максимальна удобна для малого и иногда среднего (если бизнес подпадает под установленные условия) предпринимательства, на недостатки не стоит обращать внимания, так как достоинства их перекрывают. У патентной системы, на которую предлагают переходить, минусов гораздо больше. При замене одного способа налогообложения на другой появится много проблем. Например, режимы отчасти действуют для разных видов деятельности, их перечни не совпадают. То есть не все смогут перейти с ЕНВД на патентный режим.

Попытки перехода на виртуальные кассы также не были успешными, слишком много технических и административных препятствий.

У вмененного налога нашлись еще защитники, несколько депутатов и политиков выносили на обсуждение возможность сохранения ЕНВД в прежнем виде на долгие годы, желательно навсегда. Но к ним не прислушались.

Среди некоторых специалистов в финансовой сфере и чиновников бытует мнение, что эффективность ЕНВД практически равна нулю. Свою точку зрения они аргументируют несправедливым распределением налоговой нагрузки среди предпринимателей: показатели дохода и прибыли зачастую отличаются в разы, при этом отчисления в налоговую одинаковые. Также нельзя забывать, что бизнес может быть связан с разными видами деятельности, поэтому внутри ведется раздельный учет.

Что может измениться в 2019 году

Отсрочка отмены ЕНВД уже закреплена в принятом законе, но дискуссии не умолкают. Часто встречается необоснованный слух об отмене ЕНВД уже с 2019 года. От властей регулярно поступают рекомендации о необходимости срочного перехода с «вмененки» на УСН или патентную систему начисления налогов. Но у этих альтернатив есть существенные недостатки по сравнению с ЕНДВ:

  • все доходы ИП обязательно будут учтены. Кассовая техника закупается в обязательном порядке (или подключаются онлайн кассы), а это дополнительные расходы и сложности;
  • существует лимит на максимальный доход ИП, при его превышении указанные альтернативные системы налогообложения запрещено использовать.

Если же предприниматель пользуется ЕНВД, то его прибыль и доходы не обязаны вписываться в жесткие фиксированные рамки, их вообще не считают и нигде не учитывают.

Внесение недостающих сетевых данных: несколько простых процедур

Барабаши, А-Л. и Альберт Р. (1999). Появление масштабирования в случайных сетях. Наука, 286, 509–512.

Бур П., Хьюсман М., Снайдерс Т.А.Б., Стеглич C.E.G., Вичерс Л.Х.Й. и Зеггелинк E.P.H. (2006). StOCNET: открытая программная система для расширенного статистического анализа социальных сетей. Версия 1.7. Гронинген: ICS / SiencePlus. http://stat.gamma.rug.nl/stocnet/.

Боргатти, С.П. и Молина, Дж.Л. (2003). Этические и стратегические вопросы в организационном анализе социальных сетей. Журнал прикладной поведенческой науки, 39, 337–349.

Берт, Р. (1987a). Примечание об отсутствии сетевых данных в общем социальном опросе. Социальные сети, 9, 63–73.

Берт, Р.С. (1987b). Социальное заражение и инновации: сплоченность против структурной эквивалентности. Американский журнал социологии, 92, 1287–1335.

Баттс, C.T. (2003). Сетевой вывод, ошибка и (неточность) информатора: байесовский подход.Социальные сети, 25, 103–140.

Костенбадер, Э. и Валенте, Т.В. (2003). Стабильность показателей центральности при выборке сетей. Социальные сети, 25, 283–307.

Габбай, С. и Цукерман, E.W. (1998). Социальный капитал и возможности в корпоративных исследованиях и разработках: непредвиденный эффект плотности контактов при ожиданиях мобильности. Исследования в области социальных наук, 27, 189–217.

Ghani, A.C., Donnelly, C.A. и Гарнетт, Г. (1998). Предвзятость выборки и отсутствие данных в исследованиях сетей половых партнеров по распространению заболеваний, передающихся половым путем.Статистика в медицине, 17, 2079–2097.

Джайл К. и Хэндкок М.С. (2006). Модельная оценка влияния отсутствующих данных на логический вывод для сетей. Рабочий документ CSSS No. 66, Вашингтонский университет, Сиэтл. (http://www.csss.washington.edu/Papers/wp66.pdf)

Гольдштейн, Дж. Р. (1999). Сети родства, пересекающие расовые линии: исключение или правило? Демография, 36, 399–407.

Handcock, M.S. и Джайл, К. (2007). Моделирование социальных сетей с выборочными или отсутствующими данными.Рабочий документ CSSS No. 75, Вашингтонский университет, Сиэтл. (http://www.csss.washington.edu/Papers/wp75.pdf)

Huisman, M. и Steglich, C.E.G. (2008). Обработка отсутствия ответа в продольных сетевых исследованиях. Социальные сети, 30, 297–308.

Huisman, M. и van Duijn, M.A.J. (2005). Программное обеспечение для анализа социальных сетей. В Carrington, P.J., Scott, J., and Wasserman, S. (Eds.), Models and Methods in Social Network Analysis, pp. 270–316. Издательство Кембриджского университета, Кембридж.

Косинец Г. (2006). Эффекты отсутствия данных в социальных сетях. Социальные сети, 28, 247–268.

Коскинен, Дж. (2007). Подгонка моделей под социальные сети с недостающими данными. Доклад, представленный на Sunbelt XXVII, Международной конференции социальных сетей Sunbelt, 1–6 мая 2007 г., Корфу, Греция.

Литтл, Р.А.Дж. и Рубин, Д. (1987). Статистический анализ с отсутствующими данными. Нью-Йорк: Вили.

Макнайт, П.Е., Макнайт, К.М., Сидани, С., и Фигередо, А.Дж. (2007). Недостающие данные. Нежное введение. Нью-Йорк: Guildford Press.

Ньюман, M.E.J. (2003). Смешивание паттернов в сетях. Physical Review E, 67, 026126.

Ньюман М.Э.Дж., Строгац С.Х. и Уоттс Д.Дж. (2001). Случайные графы с произвольными распределениями степеней и их приложения. Physical Review E, 64, 026118.

Пирсон, М. и Уэст, П. (2003). Дрейфующие кольца дыма: анализ социальных сетей и марковские процессы в лонгитюдном исследовании групп дружбы и принятия риска.Связи, 25, 59–76.

Робинс, Г., Паттисон, П., и Вулкок, Дж. (2004). Отсутствующие данные в сетях: модели экспоненциального случайного графа (p ∗) для сетей с не респондентами. Социальные сети, 26, 257–283.

Рубин, Д. (1976). Вывод и недостающие данные. Биометрика, 63, 581–592.

Рубин, Д. (1987). Множественное вменение за неполучение ответов в опросах. Нью-Йорк: Вили.

Sande, I.G. (1982). Вменение в опросах: как справиться с реальностью. Американский статистик, 36, 145–152.

Шафер, Дж. Л., Грэм, Дж. У. (2002). Отсутствующие данные: наш взгляд на состояние дел. Психологические методы, 7, 147–177.

Снайдерс, T.A.B. (2005). Модели для продольных сетевых данных. В Carrington, P.J., Scott, J., and Wasserman, S. (Eds.), Models and Methods in Social Network Analysis, pp. 215–247. Издательство Кембриджского университета, Кембридж.

Steglich, C.E.G., Snijders, T.A.B., and West, P. (2006). Применение SIENA: наглядный анализ совместной эволюции дружеских связей подростков, музыкальных вкусов и потребления алкоголя.Методология, 2, 48–56.

Стейнли Д. и Вассерман С. (2006). Приблизительное распределение нескольких общих статистических данных: проверка гипотез применительно к террористической сети. Труды Американской статистической ассоциации, Статистические приложения в обороне и национальной безопасности. Санта-Моника, Калифорния: Rand Corporation.

Сторк Д. и Ричардс В. Д. (1992). Не респонденты в исследованиях сетей связи. Управление группами и организациями, 17, 193–209.

Ван де Бунт, Г.Г. (1999). Друзья по выбору. Ориентированная на акторов статистическая сетевая модель для сетей дружбы во времени. Амстердам: Издательство Тезисов.

Ward, M.D., Ho, P.D., and Lofdahl, C.L. (2003). Выявление международных сетей: скрытые пространства и вменение. В: Брейгер, Р., Карли, К., и Паттисон, П. (ред.), Динамическое моделирование и анализ социальных сетей: итоги семинара и документы, стр. 345–360. Вашингтон: Национальная академическая пресса.

Вассерман, С. и Фауст, К. (1994).Анализ социальных сетей. Методы и приложения. Кембридж: Издательство Кембриджского университета.

ГИБРИДНАЯ МНОЖЕСТВЕННАЯ ИМПУТАЦИЯ В БОЛЬШОМ МАСШТАБЕ КОМПЛЕКСНОГО ИССЛЕДОВАНИЯ

АНДЕРСОН А. Б., БАСИЛЕВСКИЙ А., ХУМ Д. П. (1983). Отсутствующие данные: обзор литературы. В J. D. W. P. H. Rossi и A. B. Anderson (Eds.), Handbook of Survey Research, New York: Academic Press.

АРНОЛЬД, Б. С., ПРЕСС, С. Дж. (1989). Совместимые условные распределения. Журнал Американской статистической ассоциации, 84, стр.152–156.

АЛЛИСОН, П. Д., (2000). Множественное вменение недостающих данных: поучительная история. Социологические методы и исследования, 28, с. 301–309.

AKE, C. F., (2005). Округление после множественного вменения с недвоичными категориальными ковариатами (статья 112-30). В материалах тринадцатой ежегодной международной конференции группы пользователей SAS, SAS Institute Inc., Кэри, Северная Каролина, стр. 1–11.

ЭНДРИДЖ Р. Р. (2009). Статистические методы поиска недостающих данных в сложных выборочных обследованиях.Кандидатская диссертация, Мичиганский университет.

АКМАТОВ М.К., (2011). Жестокое обращение с детьми в 28 развивающихся странах и странах с переходной экономикой — результаты кластерных обследований по множественным показателям, Int J Epidemiol, 40 (1), стр. 219–27.

АНКАЙЯ Н., РАВИ В. (2011). Новый гибрид мягких вычислений для вменения данных, Труды 7-й международной конференции по интеллектуальному анализу данных (DMIN), Лас-Вегас, США.

АЗИМ, С., АГГАРВАЛ, С. (2014). Гибридная модель для вменения данных: с использованием нечетких c-средних и многослойного персептрона.Конференция по передовым вычислениям (IACC), 2014 IEEE International. IEEE, стр. 1281–1285.

AUDIGIER, V., HUSSON, F., JOSSE, J., (2016). Метод главных компонентов для вменения пропущенных значений для смешанных данных, Advances in Data Analysis and Classification, 10 (1), pp. 5–26.

AKANDE, O., LI, F., REITER, J., (2017). Эмпирическое сравнение нескольких методов вменения для категориальных данных, Amer. Статист, 71, стр. 162–170.

ARMINA, R., ZAIN, A.M., ALI, N.A., SALLEHUDDIN, R., (2017). Обзор оценки пропущенных значений с использованием алгоритма вменения, Journal of Physics: Conference Series, 892, pp. 012004.

AUDIGIER, V., WHITE, IR, JOLANI, S., DEBRAY, T., QUARTAGNO, M., CARPENTER, J., ESCHE-RIGON, M., (2017a), Множественное вменение для многоуровневых данных с непрерывными и двоичными переменные, препринт arXiv, arXiv: 1702.00971.

AUDIGIER, V., HUSSON, F., JOSSE, J., (2017b). MIMCA: множественное вменение категориальных переменных с анализом множественных соответствий.Статистика и вычисления, 27, стр. 501–518.

БРЕЙМАН, Л., (2001). Случайные леса. Машинное обучение, 45 (1), стр. 5–32.

BERNAARDS, C. A., BELIN, T. R., SCHAFER, J. L., (2007). Устойчивость многомерного нормального приближения для вменения неполных двоичных данных, Статистика в медицине, 26, стр. 1368–1382.

БЮРЖЕТ, Л. Ф., РЕЙТЕР, Дж. П. (2010). Множественное вменение отсутствующих данных с помощью деревьев последовательной регрессии. Американский журнал эпидемиологии, Oxford University Press, 172 (9), стр.1070–6.

ЧИБ, С., Гамильтон, Б. Х. (2002). Полупараметрический байесовский анализ моделей обработки продольных данных, Journal of Econometrics, 110, стр. 67–89.

КАППА, К., ХАН, С.М., (2011). Понимание отношения опекунов к физическому наказанию детей: данные из 34 стран с низким и средним уровнем дохода, Child Abuse Negl, 35 (12), pp. 1009–21.

ДАНСОН, Д. Б., СИН, К., (2009). Непараметрическое байесовское моделирование многомерных категориальных данных, Журнал Американской статистической ассоциации, 104, стр.1042-1051.

ДЭНГ, Ю., ЧАНГ, К., ИДО, М.С., ЛОНГ, К., (2016). Множественное вменение для общих шаблонов отсутствующих данных при наличии многомерных данных. Научные отчеты, 6.

DOOVE, LISA, L., VAN BUUREN, S., ELISE, D., (2014). Рекурсивное разбиение для импутации отсутствующих данных при наличии эффектов взаимодействия, вычислительной статистики и анализа данных, Elsevier, 72, стр. 92–104.

ЕРОШЕВА Е.А., ФИЕНБЕРГ С.Э., ЮНКЕР Б.В. (2002). Альтернативные статистические модели и представления для больших разреженных многомерных таблиц непредвиденных обстоятельств, Annales de la Faculté des Sciences de Toulouse, 11, стр.485–505.

ФИЧМАН, М., КАММИНГС, Дж. Н. (2003). Множественное вменение отсутствующих данных: максимальное использование того, что вы знаете, методы организационного исследования, 6 (3), стр. 282–308.

Финч, В. Х., (2010). Методы вменения недостающих категориальных данных анкеты: сравнение подходов. Журнал науки о данных, 8, стр. 361–378.

ГЕЛЬМАН А., СКОРОСТЬ Т. П. (1993). Характеристика совместного распределения вероятностей с помощью условных выражений, Журнал Королевского статистического общества, серия B: Статистическая методология, 55, стр.185–188.

GRAHAM, J. W., SCHAFER, J. L., (1999). О выполнении множественного вменения для многомерных данных с малым размером выборки. В Р. Х. Хойле (ред.), Статистические стратегии для исследования малых выборок, Thousand Oaks, CA: Sage, pp. 1-29.

ЖЕНЕВЬЕВЕ, Р., ОЛЬГА, К., ДЖУЛИ, Дж., ЭРИК М., РОБЕРТ, Т. (2018). Основные эффекты и взаимодействия в смешанных и неполных фреймах данных. Препринт arXiv, arXiv: 1806.09734.

HASTIE, T., TIBSHIRANI, R., FRIEDMAN, J., (2001).Элементы статистического обучения; Интеллектуальный анализ данных, вывод и прогнозирование, второе изд. Springer Verlag, Нью-Йорк.

ХИРАНО, К., (2002). Полупараметрический байесовский вывод в моделях авторегрессионных панельных данных. Econometrica, 70, pp. 781–799.

HAREL, O., SCHAFER, J. L., (2003). Множественное вменение в два этапа. Труды исследовательской конференции Федерального комитета по статистической методологии, Вашингтон, округ Колумбия,

HORTON, N.J., LIPSITZ, S.P., PARZEN, M., (2003). Возможность систематической ошибки при округлении при множественном вменении. Американский статистик, 57, стр. 229–232.

ГАРЕЛЬ, О., (2007). Выводы об отсутствующей информации при множественном вменении и двухэтапном множественном вменении. Статистическая методология, 4, стр. 75–89.

HE, Y., (2010). Отсутствие анализа данных с использованием множественного вменения: вникаем в суть вопроса. Circ Cardiovasc Qual Outcomes, 3, стр. 98–105.

ХАСТИ, Т., МАЗУМДЕР, Р., ЛИ, Д. Д., ЗАДЕ, Р., (2015). Завершение матриц и svd низкого ранга с помощью быстро меняющихся наименьших квадратов, J. Mach. Учиться. Res., 16 (1), pp. 3367–3402.

ДЕРЖАТЕЛЬ, Л., (2015). Множественное вменение в условиях комплексного обследования: сравнение методов изучения поведения в отношении здоровья у детей школьного возраста, Королевский университет

HUSSON, F., J. JOSSE, B. NARASIMHAN, G. ROBIN., (2018). Расчет смешанных данных с многоуровневым разложением по сингулярным числам, электронные отпечатки arXiv, arXiv: 1804.11087.

IACUS, S.М., ПОРРО, Г., (2007). Вменение отсутствующих данных, сопоставление и другие применения случайного рекурсивного разбиения. Comput. Статист. Data Anal, 52, стр. 773–789.

ИАКУС, С.М., ПОРРО, Г., (2008). Инвариантные и свободные от метрики близости для сопоставления данных: пакет R. J. Stat. Softw, 25, стр. 1–22.

КИМ, Х., ЛОХ, У.Ю. (2001). Деревья классификации с несмещенными многовариантными разбиениями. Журнал Американской статистической ассоциации, 96, стр. 589–604.

КЮНГ, М., ГИЛЛ, Дж., CASELLA, G., (2010). Оценка в моделях случайных эффектов Дирихле. Анналы статистики, 38, стр.979–1009.

ВИРТ, К. Э., ЧЕТГЕН ЧЕТГЕН, Э. Дж. (2014). Учет систематической ошибки отбора в исследованиях ассоциаций со сложными данными опросов. Эпидемиология (Кембридж, Массачусетс), 25 (3), стр. 444–453.

LOH, W., SHIH, Y., (1997). Сплит-методы выбора для деревьев классификации. Statistica Sinica, 7, стр. 815–840.

МАЛЕНЬКИЙ, Р. Дж. А., РУБИН, Д. Б. (2002). Статистический анализ с отсутствующими данными (2 nd ed.). Нью-Йорк: Вили.

ЛИ, К.Дж., Галати, Дж. К., СИМПСОН, Дж. А., КАРЛИН, Дж. Б., (2012). Сравнение методов вменения порядковых данных с использованием многомерного нормального вменения: тематическое исследование нелинейных эффектов в большом когортном исследовании. Stat Med, 31 (30), стр. 4164–74.

LI, D., GU, H., ZHANG, L.Y., (2013). Гибридный генетический алгоритм с нечетким c-средним подходом для неполной кластеризации данных на основе интервалов ближайшего соседа. J. Soft Computing, 17, стр. 1787–1796.

LIANG, Z., ZHIKUI, C., ZHENNAN, Y., YUEMING, HU., (2015). Гибридный метод импутации неполных данных. 17-я Международная конференция IEEE 2015 г. по высокопроизводительным вычислениям и коммуникациям, 7-й Международный симпозиум IEEE 2015 г. по безопасности и защите киберпространства и 12-я Международная конференция IEEE 2015 г. по встроенному программному обеспечению и системам, Нью-Йорк, стр. 1725–1730.

LIYONG, Z., WEI, L., XIAODONG, L., WITOLD, P., CHONGQUAN, Z., LU, W., (2016). Подход глобальной кластеризации с использованием гибридной оптимизации для неполных данных на основе интервальной реконструкции недостающего значения, Международный журнал интеллектуальных систем, 31 (4), стр.297–313.

LOH, W. Y., ELTINGE, J., CHO, M., LI, Y., (2016). Классификация и методы дерева регрессии для неполных данных из выборочных обследований, препринт arXiv arXiv: 1603.01631.

ЛИ, К. Дж., КАРЛИН, Дж. Б. (2017). Множественное вменение при наличии ненормальных данных. Stat Med, 36 (4), стр. 606–17.

МАРКЕР, Д. А., ДЖУДКИНС, Д. Р., ВИНГЛИ, М. (2002), Крупномасштабное исчисление для комплексных обследований. Отсутствие ответа на опрос, Wiley: New York, стр. 329–341.

ЛУНЫ, К.Г. М., ДОНДЕРС, Р. А. Р. Т., СТИЙНЕН, Т., ХАРРЕЛЛ, Ф. Э., (2006). Было предпочтительнее использовать результат для вменения отсутствующих значений предикторов. J. Clin Epidemiol., 59 (10), стр. 1092–101.

МОРРИС, Т. П., ИАН, Р. В., ПАТРИК, Р., (2014). Настройка множественного вменения с помощью прогнозируемого среднего совпадения и локальных остаточных вытяжек. BMC Medical Research Methodology, BioMed Central, 14 (1), 75.

МАРШАЛЛ, Р. Дж., КИТСАНТАС, П., (2012). Стабильность и структура корзины и диапазона поиска сгенерировали разделы данных для анализа низкой массы тела при рождении.J. Data Sci, 10, стр. 61–73.

МЮРРЕЙ, Дж. С., РЕЙТЕР, Дж. П., (2016). Множественное вменение отсутствующих категориальных и непрерывных значений с помощью моделей байесовской смеси с локальной зависимостью. Журнал Американской статистической ассоциации, 111, стр. 1466–1479.

НОНЯН, Б.А.С., ФУЛКЕС, А.С., (2007). Множественное вменение и случайные леса (MIRF) для ненаблюдаемых многомерных данных. Int J Biostat, 3, стр. 1–18.

НИШАНТ, К. Дж., РАВИ, В., АНКАЙЯ, Н., БОЗ, И., (2012). Вменение на основе мягких вычислений и гибридный анализ данных и текста: случай прогнозирования серьезности фишинговых предупреждений. Expert Sys Appl, 39 (12), стр. 10583–10589.

НИШАНТ, К. Дж., РАВИ, В., (2013). Метод вменения онлайн-данных, основанный на вычислительном интеллекте: приложение для банковского дела. J. Inf. Процесс. Syst. 9. С. 633–650.

NIKFALAZAR, S., YEH C.H., BEDINGFIELD, S., KHORSHIDI, H.A., (2019). Гибридный метод вменения отсутствующих данных для построения индексов городской мобильности.В: Islam R. et al. (ред.) Data Mining. AusDM 2018. Коммуникации в компьютерных и информационных науках, Vol. 996. Спрингер, Сингапур.

ОБА, С., САТО, М., ТАКЕМАСА, И., МОНДЕН, М., МАЦУБАРА, К., ИШИИ, С., (2003). Байесовский метод оценки пропущенных значений для данных профиля экспрессии генов. Биоинформатика, 19, с. 2088–2096.

КВАНЛИ, В., ДАНИЭЛЬ, М.В., РЕЙТЕР, Дж. П., ДЖИГЧЕН, Х., (2018). NPBayesImputeCat: непараметрический байесовский множественный расчет для категориальных данных.Пакет R версии 0.1, https://CRAN.Rproject.org/package=NPBayesImputeCat.

РУБИН, Д. Б., (1987). Множественное вменение за неполучение ответов в опросах. Нью-Йорк: Джон Вили.

RAGHUNATHAN, T. W., LEPKOWKSI, J. M., VAN HOEWYK, J., SOLENBEGER, P. A., (2001). Многовариантный метод умножения пропущенных значений с использованием последовательности регрессионных моделей. Методология исследования, 27, стр. 85–95.

РУБИН, Д. Б., (2003). Вложенное множественное вменение NMES через частично несовместимый MCMC.Statistica Neerlandica, 57 (1), стр. 3–18.

REITER, J. P., DRECHSLER, J., (2007). Публикация синтетических данных с множественным условным исчислением, сгенерированных в два этапа, для защиты конфиденциальности. Документ для обсуждения IAB, 20, стр. 1–18.

REITER, J. P., RAGHUNATHAN, T. E., (2007). Множественные адаптации множественного вменения, Журнал Американской статистической ассоциации, 102, стр. 1462–1471.

РОДРИ´ГЕС, А., ДАНСОН, Д. Б., (2011). Непараметрические байесовские модели на основе пробит-ломких процессов.Байесовский анализ, 6, стр. 145–178.

R Основная команда (2018). R: Язык и среда для статистических вычислений, Фонд R для статистических вычислений, Вена, Австрия, https://www.Rproject.org/.

SCHAFER, J. L., (1997). Анализ неполных многомерных данных. Лондон: Чепмен и Холл.

STROBL, C., MALLEY, J., ZEILEIS, A., (2009). Введение в рекурсивное разбиение: обоснование, применение и характеристики деревьев классификации и регрессии, мешков и случайных лесов.Psychol. Методы, 14, с. 323–348.

СУ, Ю.С., ГЕЛЬМАН, А., ХИЛЛ, Дж., ЯДЖИМА, М., (2011). Множественные бвычисления с диагностикой (mi) в R: открытие окон в черный ящик. Журнал статистического программного обеспечения, 45 (2), стр. 1–31.

SEAMAN, S., BARTLETT, J., WHITE, I., (2012). Множественное вменение отсутствующих ковариат с нелинейными эффектами и взаимодействиями: оценка статистических методов. BMC Med Res Methodol, 12 (1), стр. 1–13.

СТЕХОВЕН, Д. Дж., БЮЛЬМАН, П., (2012). MissForest — непараметрическое вменение пропущенных значений для данных смешанного типа. Биоинформатика, 28, с.112–118.

С.И., Ю., РЕЙТЕР, Дж. П., (2013). Непараметрическое байесовское множественное вменение для неполных категориальных переменных в крупномасштабных оценочных обследованиях. Журнал образовательной и поведенческой статистики, 38, стр. 499–521.

ШАХ, А.Д., ДЖОНАТАН, В. Б., ДЖЕЙМС, К., ОУЕН, Н., ГАРРИ, Х., (2014). Сравнение моделей случайного леса и параметрического вменения для вменения отсутствующих данных с использованием мышей: исследование калибра.Американский журнал эпидемиологии, 179 (6). Oxford University Press, стр. 764–74.

ШУКУР О. Б., ЛИ М. Х. (2015). Подстановка пропущенных значений в суточные данные о скорости ветра с использованием гибридного метода AR-ANN. Современная прикладная наука.

ТЕМПЛ, М., АНДРЕАС, А., АЛЕКСАНДР, К., БЕРНД, П., (2012). VIM: Визуализация и вменение отсутствующих значений, http://cran.rproject.org/web/packages/VIM/VIM.pdf.

TING, J., YU, B., YU, D., MA, S., (2014). Анализ отсутствующих данных: гибридный алгоритм множественного вменения с использованием теории серых систем и энтропии, основанной на кластеризации, Прикладной интеллект, 40 (2), стр.376–388.

TANG, J., ZHANG, G., WANG, Y., WANG, H., LIU, F., (2015). Гибридный подход для интеграции метода вменения на основе нечетких C-средних с генетическим алгоритмом оценки недостающих данных об объеме трафика. Транспортные исследования, часть C: Новые технологии, 51, стр. 29–40.

ТОМАС, Л., (2019). mitools: Инструменты для множественного вменения отсутствующих данных. Пакет R версии 2.4, https://CRAN.R-project.org/package=mitools.

VAN BUUREN, S., OUDSHOORN, C.G.M., (1999). Гибкое многомерное вменение MICE. Tech. представитель, TNO Prevention and Health, Лейден.

ВАН БУРЕН, С., ГРУТУЙС-ОУДШУН, К., (2011). мышей: многомерное вычисление цепными уравнениями в журнале R. Journal of Statistical Software, 45 (3), стр. 1–67.

ВАН БУРЕН, С., (2007). Множественное вложение дискретных и непрерывных данных с помощью полностью условной спецификации. Статистические методы в медицинских исследованиях, Sage Publications Sage UK: Лондон, Англия, 16 (3), стр. 219–42.

ВЕРМУНТ, Дж. К., ВАН ГИНКЕЛЬ, Дж. Р., ВАН ДЕР АРК, Л. А., СИЙТСМА, К., (2008). Множественное вменение неполных категориальных данных с использованием анализа скрытых классов. Социологическая методология, 38, стр. 369–397.

ВАН БУРЕН, С., (2012). Гибкое вменение недостающих данных. Бока-Ратон: CRC Press.

БЕЛЫЙ И. Р., РОЙСТОН П., ВУД А. М. (2011). Множественное вменение с использованием связанных уравнений: проблемы и рекомендации для практики. Stat Med, 30 (4), стр. 377–99.

БЕЛЫЙ, I.Р., КАРЛИН, Дж. Б. (2010). Смещение и эффективность множественного вменения по сравнению с полным анализом пропущенных ковариантных значений. Stat Med, 29 (28), стр. 2920–31.

WEIRICH, S., HAAG, N., HECHT, M., BÖHME, K., SIEGLE, T., LÜDTKE, O., (2014). Вложенное множественное вменение в крупномасштабные оценки. Масштабная оценка. Образов., 2, с. 1–18.

XIE, X., MENG, X.-L., (2017). Анализ множественного вменения с точки зрения многоэтапного вывода: что происходит, когда модели Бога, импутера и аналитика несовместимы? Statistica Sinica 27, стр.1485–1594 (включая обсуждение).

ЮСЕЛЬ, Р.М., Х.Е., Ю., ЗАСЛАВСКИЙ, А.М., (2011). Основанные на Гауссе процедуры для вменения категориальных переменных в обследованиях состояния здоровья. Stat Med, 30 (29), стр. 3447–60.

ZHU, J., M., EISELE, M., (2013). Множественное вменение в комплексном обследовании домашних хозяйств, Немецкая группа по финансам домашних хозяйств (PHF): проблемы и решения. Руководство пользователя PHF.

ZHAO, Y., LONG, Q., (2016). Множественное вменение при наличии многомерных данных. Статистические методы в медицинских исследованиях, 25, стр.2021–2035 гг.

Алгоритм импутации данных о трафике, основанный на улучшенной декомпозиции матрицы низкого ранга

Данные о трафике играют очень важную роль в интеллектуальных транспортных системах (ИТС). ITS требует полных данных о трафике для контроля, управления, руководства и оценки перевозок. Однако данные о трафике, собранные с датчиков различных типов, часто содержат недостающие данные из-за повреждения датчика или ошибки передачи данных, что влияет на эффективность и надежность ИТС.Чтобы гарантировать качество и целостность данных о потоках трафика, очень важно предложить удовлетворительный метод вменения данных. Однако большинство существующих методов вменения не могут полностью учесть влияние данных датчиков с отсутствующими данными и пространственно-временных корреляционных характеристик транспортного потока на результаты вменения. В этой статье предлагается метод вменения данных трафика, основанный на улучшенном разложении матриц низкого ранга (ILRMD), который полностью учитывает влияние отсутствующих данных и эффективно использует характеристики пространственно-временной корреляции между данными трафика.Предлагаемый метод использует не только данные о дорожном движении вокруг датчика, включая недостающие данные, но также данные датчика с отсутствующими данными. Информация об отсутствующих данных отражается в матрице коэффициентов, а характеристики пространственно-временной корреляции применяются для получения более точных результатов вменения. Реальные данные трафика, собранные с помощью системы измерения эффективности Caltrans (PeMS), используются для оценки эффективности условного исчисления предлагаемого метода. Результаты экспериментов показывают, что средняя точность вменения с помощью предлагаемого метода может быть улучшена 87.07% по сравнению с SVR, ARIMA, KNN, DBN-SVR, WNN и традиционными методами MC, и это эффективный метод для вменения данных.

1. Введение

С быстрым развитием социальной экономики внедряются многие виды крупной дорожной инфраструктуры [1–4], но заторы на шоссе все еще существуют. Следовательно, необходимо собирать информацию о шоссе для удобства передвижения людей. С развитием информационных технологий становится возможным сбор информации о шоссе, и оборудование для сбора, используемое для автомагистралей, включает датчик Bluetooth, микроволновый датчик дистанционного движения, видеодатчики и детекторы петель.Однако данные о потоках трафика теряются в разной степени из-за повреждения датчика, неисправности или ошибок передачи и т. Д. Отсутствие данных затрудняет извлечение достоверной информации из данных трафика. Между тем, отсутствующие данные также являются препятствием в области прогнозирования трафика и времени в пути [5–8], а целостность данных о транспортных потоках является предпосылкой анализа данных в ИТС. Поэтому очень важно предложить эффективный метод вменения данных о трафике. В настоящее время появились различные методы вменения данных о потоках трафика.Эти методы вменения можно условно разделить на три категории: методы прогнозирования, методы интерполяции и методы статистического обучения [9].

Модели прогнозирования транспортных потоков [10–12] имеют решающее значение для управления дорожным движением в сложных дорожных сетях. Методы прогнозирования обычно создают прогнозные модели с историческими данными и обрабатывают отсутствующие данные как значения, которые необходимо прогнозировать. Существует множество способов построения моделей прогнозирования транспортных потоков, от простого вменения нулевого значения до сложных пространственно-временных моделей вменения [13].Репрезентативные методы прогнозирования включают в себя интегрированную модель авторегрессионного скользящего среднего (ARIMA) [14–16], байесовские сети (BN) [17–19] и поддержку векторной регрессии (SVR) [20, 21]. Elshenawy et al. [22] предложил интеллектуальный метод вменения данных с моделью ARIMA и представил механизм, основанный на алгоритме Хайндмана-Хандакара для определения параметров ARIMA. Sun et al. [23] разделили день на разные временные отрезки и использовали SVR для прогнозирования данных о транспортном потоке. Chen et al. [24] предложили авторегрессионную интегрированную скользящую среднюю с обобщенной авторегрессионной условной гетероскедастичностью (ARIMA-GARCH) для прогнозирования транспортного потока.Однако эти методы прогнозирования не смогли использовать информацию датчика с отсутствующими данными, что могло бы повлиять на точность вменения данных.

Методы интерполяции подразделяются на соседние по времени и соседние по шаблону [25]. Методы с соседними по времени методами восполняют недостающие данные известными данными с тех же датчиков в одно и то же суточное время, но в некоторые соседние дни [20, 26]. Методы соседства с образцом используют характеристики сходства ежедневных данных о транспортном потоке [27] и оценивают недостающие данные, используя исторические данные, собранные с одних и тех же датчиков в разные дни [17, 20].Типичные методы соседнего шаблона включают модель K-ближайших соседей (KNN) [28, 29] и модель локальных наименьших квадратов (LLS) [30, 31], и ключевая сложность этих методов состоит в том, чтобы определить соседей на соответствующем расстоянии. метрика [32, 33]. Nguyen et al. [34] использовали среднее значение исторических данных для оценки недостающих данных. Smith et al. [35] использовали исторические данные или данные из окружающих периодов и мест для вменения недостающих данных. Модель интерполяции предполагает, что данные о ежедневном потоке трафика аналогичны, но фактические данные о потоке трафика колеблются и изменяются со временем.Следовательно, невозможно получить удовлетворительные характеристики условного исчисления.

Метод, основанный на статистическом обучении, был разработан в последние годы. Этот метод в первую очередь предполагал модель распределения вероятностей данных трафика и использовал итерационные методы для оценки параметров распределения вероятностей. Затем наблюдаемые данные использовались для вменения недостающих данных. Методы статистического обучения включают вероятностный анализ главных компонентов (PPCA) [6, 9], байесовский анализ главных компонентов (BPCA) [26], метод нейронных сетей [36] и Монте-Карло цепи Маркова (MCMC) [37].MCMC — это типичный метод вменения, основанный на статистическом обучении. Основная идея метода MCMC рассматривает отсутствующие данные как целевой параметр и оценивает параметр по выборочным значениям параметра. Y Higashijima et al. [38] предложили метод вменения дерева регрессии и использовали метод предварительной обработки для повышения точности вменения. Wei et al. [39] предложили метод вменения на основе данных и использовали кластеризацию k-средних для группировки наиболее коррелированных участков дороги; Обученная модель способна оценить недостающие данные в нескольких местах в рамках единой структуры.Хотя методы, основанные на статистическом обучении, имеют сильную гипотезу о данных о трафике, их эффективность превосходит традиционные методы вменения [40], поскольку предполагаемое распределение вероятностей охватывает основные аспекты потока трафика.

Методы, основанные на прогнозировании и интерполяции, просто присваивают данным временную или пространственную корреляционную характеристику и учитывают только информацию исторических данных. Исторические методы вменения заполняют недостающие данные известными точками данных, собранными на одних и тех же датчиках в одно и то же ежедневное время, но в разные дни.Эти методы требуют более высокой стабильности исторических данных, но данные о потоках трафика обычно нестабильны и в некоторой степени колеблются в практических приложениях. Традиционный метод вменения устанавливает все отсутствующие данные в ноль и использует матрицу данных с заполнением нулями для участия в операции вменения данных, которая не может учитывать влияние отсутствующих данных датчика на результат вменения. Как правило, датчики, включающие недостающие данные, имеют наибольшую корреляцию с окончательными результатами вменения.Однако отсутствующие данные устанавливаются на ноль непосредственно в традиционном методе вменения, который игнорирует влияние отсутствующих данных на результаты вменения и снижает точность результатов вменения. Для решения вышеуказанных проблем предлагается метод вменения данных трафика, основанный на улучшенном разложении матриц низкого ранга (ILRMD). По сравнению с традиционным методом вменения, метод ILRMD полностью учитывает влияние отсутствующих данных в результатах вменения. В процессе вменения данных метод ILRMD не отбрасывает напрямую информацию об отсутствующих данных, и влияние отсутствующих данных отражается в матрице коэффициентов.Восстановленная матрица данных, умноженная на матрицу коэффициентов, содержащую информацию об отсутствующих данных, является результатом вменения. Метод ILRMD использует не только данные о трафике вокруг датчика, включая отсутствующие данные, но также данные датчика с отсутствующими данными. Информация, содержащаяся в недостающих данных, полностью учитывается, и характеристики пространственно-временной корреляции потока трафика используются адекватно. Результаты тестирования с данными о трафике, собранными с помощью системы измерения эффективности Caltrans (PeMS), показывают, что предложенный алгоритм имеет превосходную точность вменения.

Остальная часть этого документа организована следующим образом. В разделе 2 рассматривается соответствующая работа по условному исчислению данных о трафике и дается краткое введение. Традиционный подход условного исчисления представлен в Разделе 3. Раздел 4 описывает метод ILRMD, предложенный в этой статье. Раздел 5 обсуждает анализ результатов и сравнение методов. Раздел 6 подводит итог этой статьи и дает некоторые рекомендации.

2. Сопутствующие работы

С быстрым развитием машинного обучения, распознавания образов, компьютерного зрения и интеллектуального анализа данных обработка больших данных становится все более важной.Масштаб и скорость роста больших данных постоянно увеличиваются, но крупномасштабные многомерные данные часто коррелируют и избыточны. Следовательно, необходимо выполнять разумную обработку сжатия для крупномасштабных данных. Чтобы уменьшить избыточность данных, Кандес [41] в 2009 году предложил концепцию разложения разреженной матрицы низкого ранга, которую также называют восстановлением матрицы низкого ранга (LRMR), разложением матрицы низкого ранга (LRMD) или надежным анализом главных компонентов. (RPCA).

2.1. Разложение матрицы низкого ранга

Для данной матрицы данных, распределенной в линейном подпространстве с приблизительно низкой размерностью, она может быть разложена на матрицу низкого ранга и разреженную матрицу [42].

где представляет норму матрицы и представляет коэффициент компромисса матриц и.

Поскольку задача оптимизации (1) является NP-сложной задачей, ее можно ослабить до задачи выпуклой оптимизации [41–43], которая обозначена следующим образом:

где представляет ядерную норму матрицы; — норма матрицы.

Характеристика низкого ранга восстановленной матрицы определяет эффективность вменения матрицы. Поэтому выбор подходящего метода решения LRMD имеет решающее значение. Основные алгоритмы решения проблемы LRMD включают метод итерационного порога [44, 45], двойной подход [46], алгоритм ускоренного проксимального градиента [47] и метод расширенного множителя Лагранжа [48]. В этой статье используется метод расширенного множителя Лагранжа.

2.2. Вменение матрицы на основе разложения матрицы низкого ранга

Как правило, мы не можем восстановить все данные с частичной выборкой данных.Но Кандес [42] доказал, что недостающие данные можно восстановить более точно, когда матрица данных имеет низкий или почти низкий ранг. Из раздела 2.1 матрица низкого ранга получается на основе LRMD, которую можно использовать для вменения недостающих данных.

Модель вменения матрицы можно отметить следующим образом:

где — набор известных индексов элементов, и, — оператор линейной проекции, который может быть определен следующим образом:

Задача оптимизации (3) также является NP-сложная задача, поэтому ее нужно преобразовать в задачу выпуклой оптимизации:

2.3. Матричный вменение на основе матричного представления низкого ранга

Упомянутый выше метод вменения матрицы низкого ранга напрямую минимизирует ранг вмененных данных. Для повышения эффективности вменения к LRMD применяется самовыражение, которое называется матричным представлением низкого ранга [49, 50]. Матрица данных представлена ​​как линейная комбинация с матрицей словаря, то есть. Матрица является матрицей коэффициентов, и ожидается, что она будет низкого ранга. может быть получено путем решения задачи оптимизации следующим образом:

Уравнение (6) можно выпукло ослабить, чтобы получить следующее:

Если матрица данных выбрана в качестве матрицы словаря, (7) можно отметить следующим образом:

В практических приложениях матрица данных может искажаться из-за шума.Чтобы повысить надежность, (8) можно изменить следующим образом:

Матрица данных представлена ​​словарем данных, а матрица коэффициентов будет более разреженной, если имеет большее сходство с. Но стохастический шум обычно добавляется в матрицу данных, что влияет на корреляцию в матрице данных. Когда стохастический шум удален, корреляция матрицы данных может быть улучшена. выбран в качестве словаря, и его суть заключается в выявлении корреляции внутри матрицы данных.Когда матрица коэффициентов разреженная, столбцы данных в матрице данных представлены столбцами друг друга с минимальным количеством коэффициентов, насколько это возможно. Для данных о потоках трафика они имеют высокие характеристики пространственно-временной корреляции, но на них влияют погода, праздники и другие факторы, что делает данные о потоках трафика стохастической волатильностью. Следовательно, если влияние этой стохастической волатильности на данные трафика устранено, корреляция между данными трафика будет улучшена.После устранения влияния стохастического шума корреляция между самими данными дополнительно исследуется, и сходство между данными выражается с помощью как можно меньшего количества информации. Затем внутренняя корреляция данных потока трафика используется для вменения данных.

2.4. Решение матрицы коэффициентов

Чтобы получить решение уравнения (9), вводится переменная, которая позволяет разделить переменную. Матрица коэффициентов может быть вычислена с помощью метода расширенного множителя Лагранжа, и модель оптимизации становится следующей:

Создайте расширенную функцию Лагранжа как (11), где — множитель Лагранжа, это норма Фибоначчи, которая представляет собой сумму абсолютных квадратов элементов и является весом для настройки члена ошибки.

Метод точного расширенного множителя Лагранжа (EALM) используется для решения матриц в соответствии со следующим:

Обновление матрицы коэффициентов происходит следующим образом. Во-первых, матрица проекции используется для выражения позиции матрицы, и. Для удобства set и (13) можно выразить следующим образом:

Чтобы получить производную относительно в (14), перекрестное произведение следует заменить на внутреннее произведение. Матрицы (14) распределены по столбцам следующим образом:

где,, и являются, соответственно, столбцом матриц, и.

Изменить вектор на диагональную матрицу, т. Е. И. Следовательно, (15) может быть выражено следующим образом:

Для упрощения (16) обозначается как, и обозначается как. Тогда (16) можно упростить следующим образом:

Для (17) можно обновить следующим образом:

Затем повторите описанный выше процесс до сходимости целевой функции. Матрица коэффициентов может быть получена, когда выполнено условие завершения, и она выражается следующим образом:

3. Традиционный метод вменения с LRMD

Традиционный метод вменял недостающие данные с помощью операции заполнения нулями.Для исходной матрицы предположим, что она отсутствует, где представляет столбец в. Пропущенный столбец матрицы равен 0, который может быть представлен в виде матрицы:

, где — конкретные элементы в матрице.

Умножение на столбец матрицы коэффициентов может быть восстановлено следующим образом:

Операция заполнения нулями используется для традиционного метода вменения матрицы для заполнения пропущенного столбца. Затем восстановленная матрица умножается на соответствующий столбец матрицы коэффициентов; получены условно исчисленные данные отсутствующего столбца.Этот метод использует данные только вокруг отсутствующего столбца для вменения недостающих данных; иными словами, отсутствующий столбец не влияет на результат вменения. Как правило, датчики, включающие недостающие данные, имеют наибольшую корреляцию с окончательными результатами вменения. Однако отсутствующие данные устанавливаются на ноль непосредственно в традиционном методе вменения, который игнорирует влияние отсутствующих данных на результаты вменения и снижает точность результатов вменения.

4. Импутация данных трафика с помощью ILRMD

Отсутствующие данные, как правило, можно разделить на три различных типа: отсутствующие полностью случайным образом (MCAR), отсутствующие случайным образом (MAR) и отсутствующие при обнаружении (MAD).Эта статья в основном посвящена проблеме определения пропавших без вести. В дорожных сетях данные о дорожном движении собирались с помощью датчиков различных типов, которые обычно демонстрировали высокие характеристики пространственно-временной корреляции; то есть данные трафика имеют низкоранговую характеристику.

Предположим, что в дорожной сети есть датчики, и каждый датчик имеет выборки данных, которые можно обозначить как матрицу данных. В этой статье предполагается, что данные в датчике отсутствуют в формате. Традиционный метод вменения, основанный на LRMD, не учитывает влияние отсутствующих столбцов данных на результаты вменения.Чтобы устранить этот недостаток и объединить характеристики пространственно-временной корреляции транспортного потока, в этой статье предлагается метод вменения данных, основанный на ILRMD.

4.1. Предлагаемая модель ILRMD

В (9) предполагается, что элементы () наблюдаемого датчика в момент () времени, соответственно, присутствующие в наблюдаемой матрице и матрице шума. — это элемент матрицы коэффициентов, а матрица коэффициентов. Согласно правилу умножения получается следующее:

Тогда (22) можно преобразовать в следующее:

Матрица коэффициентов наблюдаемого датчика может быть выражена следующим образом:

Итоговая матрица коэффициентов всех наблюдаемых датчиков описывается следующим образом:

Предполагается, что представляет собой матрицу, удаляющую столбец.Согласно правилу умножения матриц, матрица умножается на столбец матрицы коэффициентов. Значение получается и может быть записано следующим образом:

Метод ILRMD, предложенный в этой статье, предполагает, что определенный столбец данных в матрице потерян, а затем умножает матрицу на матрицу коэффициентов для восстановления недостающих данных. Учитывается влияние всех наблюдаемых датчиков, включая датчик с недостающими данными. В (24), если значение равно нулю, данные окружающих датчиков используются для вменения.Если значение не равно нулю, используются данные окружающих датчиков и датчика, включая недостающие данные.

Различия между методом ILRMD и традиционным методом вменения обсуждаются ниже. Традиционный метод вменения выполняет операцию заполнения нулями отсутствующего столбца, а затем напрямую умножается на соответствующий столбец матрицы коэффициентов. Традиционный метод вменения использует данные, собранные с окружающих датчиков, для восстановления матрицы и игнорирует влияние датчиков, включая недостающие данные.Метод ILRMD предполагает, что столбец данных полностью отсутствует, а матрица представляет собой матрицу после удаления данных столбца. Затем после преобразования вес, наиболее релевантный для каждого датчика, выражается в другой форме, чтобы уменьшить влияние наиболее релевантного веса на результат вменения. Из (22) — (24) получается матрица коэффициентов. Матрица коэффициентов учитывает не только окружающие датчики, но и влияние датчика, включая недостающие данные.В конечном итоге матрица умножается на матрицу коэффициентов для получения результата вменения.

Основные этапы предлагаемого метода вменения заключаются в следующем.

Шаг 1. Данные потока трафика предварительно обрабатываются путем сглаживания и фильтрации, и для построения обучающей матрицы случайным образом выбираются полные данные потока трафика за один день.

Шаг 2. Предварительно обработанная матрица раскладывается на матрицу низкого ранга и разреженную матрицу согласно (1).

Шаг 3. Согласно (9) матрица раскладывается на и, а от (10) до (20) решается матрица коэффициентов.

Шаг 4. Постройте тестовую матрицу и установите матрицу как матрицу словаря. представляет матрицу, удаляющую столбец.

Шаг 5. Матрица коэффициентов получается в соответствии с (25), а недостающие данные, которые необходимо вычислить, получают по (26).

4.2. Критерии оценки эффективности

Критерии оценки для измерения ошибки вмененных данных включали среднеквадратичную ошибку (RMSE), среднюю абсолютную ошибку (MAE), среднеквадратичную ошибку в процентах (MSPE) и среднюю абсолютную ошибку в процентах (MAPE).В этом документе выбраны RMSE и MAPE. Формулы имеют следующий вид:

где — общее количество отсутствующих данных, — фактическое значение отсутствующей точки данных и — соответствующее оценочное значение.

5. Результаты эксперимента
5.1. Описание данных

Данные, использованные для оценки производительности предложенной модели, были собраны в магистральных детекторах, предоставленных базой данных PeMS, которая включает более 39 000 отдельных датчиков, которые охватывают систему шоссе во всех крупных мегаполисах Калифорнии.В этом документе 46 основных датчиков с номерами от 1108512 до 1221232 выбраны для выполнения теста вменения данных с 1 апреля 2018 г. по 30 апреля 2018 г. Данные о транспортных потоках агрегируются с 5-минутными интервалами и генерируют 288 точек данных для ежедневного использования. поток. Данные за 1 день, 7 дней и 14 дней, соответственно, выбираются для построения обучающей матрицы; однако экспериментальные результаты показывают, что улучшение точности вменения не является очевидным, когда обучающие выборки становятся все больше и больше.Таким образом, данные о потоке трафика 23 апреля 2018 года используются в качестве обучающих данных, а данные 30 апреля 2018 года используются в качестве тестовых данных. Предполагается, что данные в датчике с номером 1108512 отсутствуют, и их необходимо вычислить. Согласно анализу пространственно-временных корреляционных характеристик транспортного потока, данные транспортного потока в один и тот же день в разные последовательные недели имеют высокую регулярность и актуальность. Таким образом, в данном документе для проведения эксперимента выбираются данные о потоках трафика за один и тот же день в последовательные недели (два понедельника).Данные о транспортном потоке 46 наблюдаемых датчиков 23 апреля 2018 г. выбраны в качестве обучающей матрицы, и предполагается, что данные в датчике с номером 1108512 на 30 апреля 2018 г. отсутствуют, что требует условного исчисления.

Из-за влияния желания людей совершить поездку, погоды и других факторов данные о транспортном потоке имеют определенные стохастические колебания и резкие колебания. Чтобы уменьшить влияние стохастических колебаний данных транспортного потока на результаты вменения, для предварительной обработки данных использовался метод фильтрации с пятью точками сглаживания.Исходные и отфильтрованные данные в датчике с номером 1108512 от 8 апреля 2018 г. показаны на рисунке 1.


Из рисунка 1 видно, что отфильтрованные данные интуитивно отражают регулярность данных трафика, а крутые точки эффективно отфильтровываются в исходных данных транспортного потока.

В этой статье обучающие данные и тестовые данные сначала предварительно обрабатываются с помощью метода сглаживающей фильтрации, который может удалить аномальные точки в данных датчика.Затем мы случайным образом предполагаем, что данные датчика отсутствуют, а затем приписываем недостающие данные датчика предлагаемой модели.

5.2. Анализ результатов и показателей
5.2.1. Влияние параметра

Фактор компромисса является важным параметром разложения матрицы низкого ранга, и различные значения имеют важное влияние на производительность вменения данных. Чтобы проверить эффективность метода ILRMD, анализируется влияние параметра. RMSE и MAPE изменений результатов вменения в зависимости от компромиссного фактора, соответственно, показаны на рисунках 2 (a) и 2 (b).


(a) Изменения RMSE с компромиссным фактором
(b) Изменения MAPE с компромиссным фактором
(a) Изменения RMSE с компромиссным фактором
(b) MAPE изменяются с компромиссным фактором

Из рисунка 2, мы можем видеть, что для традиционного метода MC и RMSE, и MAPE постепенно уменьшаются с увеличением фактора компрометации. После того, как RMSE и MAPE достигнут минимального значения (), которое снова увеличится. Для метода ILRMD все RMSE и MAPE уменьшаются с изменением.Когда они достигают минимума, а затем медленно увеличиваются. В любом случае традиционный метод MC намного менее эффективен, чем метод ILRMD. Поэтому, чтобы сравнить результаты вменения двух методов в лучшем состоянии, в этой статье установлено 0,08 для традиционного метода MC и 0,15 для метода ILRMD.

5.2.2. Выбор обучающих данных

Из-за того, что поток трафика имеет высокие пространственно-временные корреляционные характеристики, необходимо проанализировать влияние различных обучающих данных на результаты вменения.Однако выбор обучающих данных мало влияет на производительность предлагаемого метода ILRMD. Чтобы показать, что производительность предложенного метода не зависит от времени, случайным образом выбираются данные о потоке трафика за четыре дня (21 апреля 2018 г., 22 апреля 2018 г., 23 апреля 2018 г. и 24 апреля 2018 г.). в качестве обучающих данных для вменения данных от 30 апреля 2018 г. Результаты экспериментов показаны на рисунках 3 (a), 3 (b), 3 (c) и 3 (d).

Из рисунка 3 видно, что предлагаемый метод ILRMD всегда имеет хорошую производительность и не чувствителен к выбору обучающих данных.И эффективность вменения различных данных обучения показана в таблице 1.

9044 9044 , 2018

Данные обучения MAPE RMSE
0,0294 0,0454
22 апреля 2018 г. 0,0364 0,0588
23 апреля 2018 г. 0.0260 0,0453
24 апреля 2018 г. 0,0207 0,0409

Из таблицы 1 видно, что предлагаемый метод всегда дает хорошие данные используется. Результаты показывают, что выбор времени мало влияет на предлагаемый метод ILRMD. Поэтому мы выбираем данные о потоке трафика только за один день (23 апреля 2018 г.), чтобы проверить предложенную в статье модель.

5.2.3. Сравнение результатов вменения

С целью проверки эффективности метода ILRMD предлагаемый метод сравнивается с традиционным методом. Результаты вменения метода ILRMD при наилучшем условии () и традиционного метода при наилучшем условии () показаны на рисунках 4 (a) и 4 (b).


(a) Результаты вменения двух методов вменения ()
(b) Результаты вменения двух методов вменения ()
(a) Результаты вменения двух методов вменения ()
(b ) Результаты вменения двух методов вменения ()

Из рисунка 4 видно, что результаты вменения данных о потоках трафика через ILRMD более точны, чем традиционный метод MC.Хотя результат вменения получается с оптимальным компромиссным фактором с помощью традиционного метода MC, существует большое отклонение между результатом вменения и реальными данными, и метод ILRMD по-прежнему более точно восстанавливает недостающие данные о трафике. Когда компромиссный фактор установлен как оптимальное значение для метода ILRMD, результат вменения почти идентичен реальному значению, но в традиционных методах больше отклонений. Замечено, что результаты вменения предложенного метода ILRMD имеют сходные модели трафика с реальным потоком трафика, особенно в утренние и вечерние часы пик.

5.2.4. Сравнение ILRMD и других методов вменения

Для того, чтобы оценить преимущества предлагаемого нами подхода, ARIMA, SVR, DBN-SVR, WNN, KNN и традиционные методы вменения MC выбраны в соответствии с предпосылкой тестирования с использованием того же экспериментального метода. данные. В модели ARIMA порядки авторегрессии, скользящего среднего и разности соответственно установлены как 5, 5 и 1. В модели SVR ядерная функция настроена как «», количество итераций составляет 10 000 и штрафной коэффициент принимается равным 0.01. В модели WNN количество итераций равно 1000, количество узлов скрытого уровня равно 3. В модели DBN-SVR количество сетевых уровней в модели DBN установлено равным 3, а количество итераций равно 200. Модель ILRMD, предложенная в этой статье, сравнивается с этими методами вменения; результаты условного исчисления различных моделей и реального транспортного потока показаны в течение одного дня на рисунке 5.


Как видно из рисунка 5, условный поток трафика имеет аналогичные модели трафика с реальным потоком трафика.Модель DBN-SVR имеет худшие характеристики условного исчисления; ARIMA, SVR, KNN и WNN лучше, чем DBN-SVR, хотя они показывают слабость по сравнению с методом ILRMD. Значение вменения предложенной модели ILRMD практически совпадает с данными измерений. Замечено, что предложенная модель ILRMD имеет лучшую производительность вменения.

Тест анализа ошибок проводится с использованием двух критериев оценки ошибок, которые представлены в таблице 2. Для более точной проверки производительности предложенной модели для выполнения теста случайным образом выбирается другой датчик с номером 1119921.В таблице 2 предполагается, что датчики с номерами 1108512 и 1119921, соответственно, рассчитаны для проверки работоспособности предложенной модели. Как видно из таблицы 2, когда предполагается, что датчики с номерами 1108512 и 1119921 являются условно исчисленными, все предлагаемые модели ILRMD имеют лучшую производительность по сравнению с другими подходами. Эти эксперименты могут подтвердить, что модель ILRMD, предложенная в этой статье, является эффективным методом вменения данных.

904 904 904 904 904 9044

Отсутствует ID датчика 1108512 1119921
КНН 0.В наличии SVR 0,1129 0,6402 0,0994 0,7280
ARIMA 0,2078 0.6065 0.2047 0.5968
Традиционный MC 0,3717 0,1830 0,1350 0,1099
ILRMD 0,0260 0,0453 0,0260 0,0453 0,0495 9044 9044 9044 9044 9044 9044 9044 9044 904 2 первого условия (датчик 1108512) видно, что точность вменения модели ILRMD, соответственно, улучшается на 93,01%, 74,61%, 95,96%, 80,57%, 96,30% и 81.97% по сравнению с традиционными методами MC, SVR, ARIMA, KNN, DBN-SVR и WNN. Средняя точность вменения на 87,07% выше, чем у других методов вменения. Результаты показывают, что предложенная модель ILRMD имеет лучшую производительность по сравнению с другими подходами и является эффективным методом вменения данных.

6. Выводы и рекомендации

В статье предлагается метод вменения данных для вменения недостающих данных о потоках трафика. В отличие от наиболее известных методов вменения данных о потоках трафика, модель ILRMD эффективно использует информацию об отсутствующих датчиках и в полной мере использует характеристики высокой пространственно-временной корреляции данных о потоках трафика.Результат эксперимента показывает, что предложенный метод вменения превосходит другие методы. Однако в этой статье основное внимание уделяется работе с отсутствующими данными трафика на одном датчике; мы рассмотрели только один наблюдаемый датчик с отсутствующими данными. На практике недостающие данные трафика всегда распределяются по мультисенсорам.

В наших будущих исследованиях изучается анализ недостающих данных на мультисенсорах. Можно ввести понятие коэффициента пропущенных данных, и можно предложить более эффективный метод вменения данных для разной степени пропущенных данных, чтобы повысить точность вменения.

Доступность данных

Данные, используемые в этой статье, собраны из системы измерения производительности Caltrans (PeMS) с 46 датчиков с номерами от 1108512 до 1221232 на 01.04.2018 ~ 27.04.2018. Если какой-либо исследователь запросит эти данные, он может войти на сайт: http://pems.dot.ca.gov/.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов в отношении публикации этой статьи.

Благодарности

Это исследование было частично поддержано Национальной программой ключевых исследований и разработок Китая (2018YFC0808706) и Национальным фондом естественных наук Китая (грант №5157081053). Авторы также благодарны PeMS за предоставленные данные.

Вменение отсутствующих данных наземного электромагнетизма MAGDAS-9 с контролируемым машинным обучением и традиционными моделями статистического анализа

Резюме

Исследования вменения данных включают реконструкцию или оценку пробелов в несовершенных данных, вызванных отказом системного зондирования, а передача данных без ответа остается проблемой. открытый вопрос. В приложениях космической погоды вменение земного электромагнетизма имеет важное значение для фиксации сложного взаимодействия Солнца и Земли до последующего анализа эффектов космической погоды.Ключевые вклады в демонстрацию подхода вменения контролируемого машинного обучения (ML) с искусственной нейронной сетью, K-ближайшим соседом, опорной векторной регрессией (SVR) и общей регрессионной нейронной сетью (GRNN) для набора данных наземного электромагнетизма MAGDAS-9 еще не были сделаны. учредил. В общей сложности 1585950 точек данных были проанализированы с помощью контролируемых моделей машинного обучения, которые включали эталон производительности со статистическим анализом, а именно замену нулевого значения, удаление по списку, замену среднего и условное исчисление.Чтобы добиться низких ошибок восстановления, различные модели вменения с настройками гиперпараметров варьируются, и было показано, что выполнение расчетного времени способствует эффективности вменения. Показатели производительности, измеренные с помощью среднеквадратичной ошибки (MSE), средней абсолютной ошибки (MAE), средней абсолютной процентной ошибки (MAPE) и времени выполнения, соответственно, демонстрируют способность SVR точно вменять недостающие данные для всех компонентов наземного электромагнетизма в среднем 0,314 MSE, 0,738 MAPE, близость к 0.510 MAE и 0,91 секунды при разном процентном уровне отсутствия данных. Сравнение с традиционным условным исчислением показывает, что контролируемая модель ML с SVR улучшила эффективность условного исчисления до 80% пробелов в данных. Результат предложенного вменения принесет пользу приложениям космической погоды для определения характеристик событий, которые будут охватывать большое количество недостающих данных в наборе данных MAGDAS-9.

Ключевые слова

Отсутствующий набор данных

Расчет

Геомагнитная буря

Космическая погода

Обучение с учителем

Рекомендуемые статьиЦитирующие статьи (0)

© 2021 АВТОРЫ.Опубликовано Elsevier BV от имени инженерного факультета Александрийского университета.

Рекомендуемые статьи

Цитирующие статьи

Вменение генотипа с сохранением конфиденциальности в среде доверенного исполнения

Резюме

Вменение генотипа — важный инструмент в генетических исследованиях, при котором недостающие генотипы выводятся на основе панели эталонных геномов для улучшения мощность последующего анализа. Недавно были разработаны общедоступные серверы вменения, позволяющие исследователям использовать все более крупномасштабные и разнообразные репозитории генетических данных для вменения.Однако соображения конфиденциальности, связанные с загрузкой генетических данных на сторонний сервер, значительно ограничивают полезность этих услуг. В этой статье мы представляем практическое, безопасное аппаратное решение для службы вменения, сохраняющей конфиденциальность, которая сохраняет входные геномы в секрете от поставщика услуг, обрабатывая данные только в рамках Trusted Execution Environment (TEE), предлагаемой Intel SGX. технология. Наше решение включает SMac, эффективный, устойчивый к побочным каналам алгоритм вменения, разработанный для Intel SGX, который использует стратегию вменения на основе скрытой марковской модели (HMM), которая также используется современным программным обеспечением для вменения Minimac.SMac достигает точности вменения, практически идентичной точности Minimac, и обеспечивает защиту от известных атак на SGX, сохраняя при этом масштабируемость до больших наборов данных. Мы дополнительно показываем необходимость наших стратегий для снижения побочных рисков путем выявления уязвимостей в существующем программном обеспечении для вменения и контроля их информационного воздействия. В целом, наша работа представляет собой руководство по практическому и безопасному внедрению инструментов генетического анализа в SGX, представляя собой шаг к сервисам анализа с сохранением конфиденциальности, которые могут облегчить обмен данными и ускорить генетические исследования.

1 Введение

Хотя достижения в технологии высокопроизводительного секвенирования привели к крупномасштабному набору геномных последовательностей, стоимость секвенирования остается непомерно высокой для исследователей, изучающих большие группы. В результате во многих крупномасштабных исследованиях используются основанные на массивах или целевые платформы секвенирования, которые характеризуют только подмножество потенциальных генетических вариантов [1–3]. Более того, даже когда доступны данные по всему геному, отсутствие покрытия или повторяющиеся последовательности могут сделать вызов варианта неубедительным в ключевых областях генома [4].

Методы вменения генотипов [5–12], которые позволяют сделать вывод об отсутствующих генотипах в наборе данных с использованием контрольной панели высококачественных гаплотипов, таким образом, стали важным инструментом для улучшения последующего анализа, такого как исследования ассоциаций всего генома и точное картирование путем усиления разрешение набора данных. Ряд репозиториев геномных данных теперь предоставляют вменение генотипов в виде онлайн-сервиса (например, Michigan Imputation Server [11]), что позволяет исследователям вменять свои данные в большую контрольную панель для повышения точности вменения.К сожалению, для использования этих услуг исследователь должен загрузить свой набор данных на внешний сервер, управляемый поставщиком услуг вменения, что вызывает серьезные проблемы с безопасностью и конфиденциальностью. Чтобы эти услуги были широко применимы для широкого круга исследователей по всему миру с различными потребностями в конфиденциальности, нам требуются новые инструменты для аутсорсинга вменения генотипа, которые не ставят под угрозу конфиденциальность данных пользователя.

С этой целью мы разрабатываем решение, основанное на быстро развивающихся технологиях Trusted Execution Environment (TEE), в частности, на платформе Intel SGX (Software Guard Extensions) [13], которая широко доступна в процессорах Intel последних поколений.Интуитивно SGX обеспечивает защиту во время выполнения для приложений, работающих внутри анклава SGX, с помощью шифрования памяти на уровне страниц и контроля доступа, применяемого на аппаратном уровне. Технология SGX привлекает растущий интерес со стороны биоинформатического сообщества [14–16] из-за ее потенциала для создания конвейеров анализа конфиденциальных генетических данных, сохраняющих конфиденциальность. В отличие от альтернативных криптографических структур для безопасных вычислений, таких как гомоморфное шифрование (HE) [17], ключевым преимуществом SGX является то, что он несет относительно небольшие вычислительные издержки, поскольку большая часть его вычислений выполняется внутри анклава SGX на основе данных открытого текста. .Примечательно, что на недавнем конкурсе iDASH-2019 Track-2 (http://www.humangenomeprivacy.org/2019/) изучались решения на основе HE для вменения генотипа с сохранением конфиденциальности. Хотя конкуренция привела к многообещающим решениям [18, 19], существующие предложения, вероятно, столкнутся с дополнительными проблемами при принятии из-за их зависимости от упрощенных алгоритмов вменения с ограниченной точностью, как мы показываем в наших результатах.

Несмотря на обещания технологии Intel SGX, развертывание быстрой и безопасной программы в SGX является весьма нетривиальной задачей по ряду причин.Во-первых, поскольку безопасность Intel SGX зависит от предположений об аппаратной среде, существует ряд потенциальных векторов атак (например, атаки по побочным каналам из-за шаблонов доступа к памяти, различий во времени выполнения или конкуренции за ресурсы [20–22]), которые требуют следует учитывать при разработке решений на базе SGX. Как мы демонстрируем в нашей работе на ряде примеров атак, готовое развертывание существующего программного обеспечения в анклаве SGX обеспечивает только частичную защиту данных, что может не соответствовать требованиям безопасности для задач, связанных с конфиденциальной генетической информацией.Кроме того, архитектура SGX увеличивает стоимость доступа к памяти из-за дополнительного уровня шифрования, введенного SGX. В результате необходимо тщательно разрабатывать программы, чтобы оптимизировать использование памяти и кеша, чтобы избежать чрезмерных накладных расходов во время выполнения.

В этой работе мы преодолеваем эти проблемы, чтобы представить SMac, масштабируемый и сохраняющий конфиденциальность алгоритм вменения генотипа для Intel SGX. Наша стратегия вменения близко соответствует стратегии Minimac [11], современного инструмента вменения, принятого Michigan Imputation Server, при этом дополнительно обеспечивая надежную анклавную защиту данных пользователя.Мы устраняем вышеупомянутые ловушки SGX, используя ряд методов, в том числе алгоритмический дизайн и стратегии реализации программного обеспечения, чтобы обеспечить комплексную защиту от ключевых уязвимостей SGX по побочным каналам и эффективную реализацию алгоритма для минимизации использования памяти. Мы оцениваем SMac на двух реальных наборах данных, включая 1000 Genomes Phase 3 (1KG) [23] и Консорциум эталонных гаплотипов (HRC) [24], и показываем, что SMac достигает той же точности вменения, что и Minimac (в частности Minimac3, наиболее точная, но более медленная версия Minimac без дополнительной эвристики, представленной в Minimac4), при этом дополнительно сохраняя конфиденциальность пользователя.Мы также демонстрируем, что SMac предлагает значительно лучшую точность по сравнению с недавними решениями на основе HE для вменения генотипа. Даже с дополнительными накладными расходами среды SGX и ограниченным объемом доступной оперативной памяти вычислительная производительность SMac остается практичной, вызывая примерно более 50% накладных расходов во время выполнения по сравнению с Minimac (точнее, Minimac4, самой последней и самой быстрой версией Minimac, которая, из-за некоторых эвристических сокращений, которые он использует, потенциально менее точен, чем Minimac3) для полного набора данных HRC, включая 54k гаплотипов.Эти результаты демонстрируют эффективность вменения генотипа на основе SGX с помощью SMac. Наша реализация SMac с открытым исходным кодом находится в открытом доступе по адресу https://github.com/ndokmai/sgx-genotype-imputation

2 SMac: Наше решение SGX для безопасной импутации генотипа

Здесь мы описываем SMac, наше решение для обеспечения конфиденциальности: сохранение вменения генотипа на основе Intel SGX. Общий рабочий процесс SMac (показан на рисунке 1) выглядит следующим образом. Сначала пользователь отправляет свои зашифрованные входные данные (т.е., частично наблюдаемые профили генотипов, подлежащие вменению) поставщику услуг вменения (SP), оснащенному процессорами с поддержкой Intel SGX. Целостность ЦП SP и двоичного кода программы для работы в защищенном анклаве (т. Е. Исполняемого файла SMac) проверяется с помощью процесса, известного как «удаленная аттестация» [25]. Обратите внимание, что SP также содержит «контрольную панель» (набор полностью секвенированных гаплотипов, см. Определение ниже) для использования для вменения, которая дополнительно предоставляется в качестве входных данных для SMac; поскольку SMac работает в системе SP, справочная панель считается общедоступной для наших целей, хотя это не является строгим требованием для осуществимости SMac.После успешного завершения удаленной аттестации и получения пользовательского ввода SP, SMac запускается в анклаве SGX для вменения данных пользователя. Зашифрованный ввод пользователя, а также любые промежуточные данные (в ОЗУ), используемые процессом SGX, дешифруются только в анклаве, а это свойство безопасности обеспечивается на аппаратном уровне. Важно отметить, что SMac использует дополнительные методы, которые мы вводим для обеспечения защиты от утечек конфиденциальной информации по побочным каналам, тем самым обеспечивая более строгие свойства безопасности, чем традиционные подходы к развертыванию приложения SGX.После того, как все данные вменяются в SMac, вмененные генотипы возвращаются пользователю в зашифрованном виде для локального дешифрования пользователем для получения окончательных результатов. Детали реализации нашей системной архитектуры включены в Приложение. В следующих разделах мы более подробно опишем наши стратегии проектирования для SMac.

Рисунок 1: Обзор SMac.

Сравнение рабочего процесса SMac (справа) с существующими серверами вменения на основе Minimac (например, Michigan Imputation Server) (слева).Ключевые отличия включают удаленную аттестацию (которая проверяет целостность аппаратной / программной конфигурации сервера для пользователя), сквозное шифрование входных (частичных) и выходных (вмененных) профилей генотипов и обработку контрольной панели как поток из-за того, что SMac имеет доступ только к ограниченной части RAM (EPC) в анклаве SGX. SMac позволяет использовать службу вменения генотипов с более надежными гарантиями безопасности. ЦП: центральный процессор. RAM: оперативная память. EPC: кеш страницы анклава.

2.1 Обзор импутации генотипа

Мы начнем с предоставления высокоуровневого описания алгоритма вменения генотипа, реализованного в SMac, который использует основанный на скрытой марковской модели (HMM) подход, введенный Minimac [11, 26]. -современный программный инструмент для вменения генотипа (принят Michigan Imputation Server). Входные данные для SMac включают: (i) целевой гаплотип от пользователя, представленный как последовательность из n генотипов , подмножество которых представляет собой ненаблюдаемые скрытые переменные, где обозначает алфавит (например.грамм. и (ii) эталонная панель , которая состоит из m полностью наблюдаемых гаплотипов, которые будут использоваться для вменения данных пользователя. Пусть O ⊂ [ n ] будет подмножеством индексов, где S i ∈ O наблюдается в целевом гаплотипе, и определим S O ≔ ( S i ′ ∈ O ) i′∈O . Пусть M = [ n ] \ O будет набором отсутствующих генотипов в целевом гаплотипе для вменения.Цель SMac — вывести отсутствующий генотип S i для каждого i ∈ M на основе входной контрольной панели и наблюдаемых генотипов S O . В частности, мы хотим вычислить условное распределение ℙ ( S i | S O ) для каждого отсутствующего генотипа i ∈ M . Использование HMM в качестве модели выбора для представления распределения генотипов ℙ ( S 1 ,…, S n ), классический и широко используемый метод в генетике [27], вычисление убеждения относительно отсутствующих генотипов могут быть выполнены с использованием простого алгоритма динамического программирования [28] (также известного как алгоритм вперед-назад) с временем выполнения O ( минут ) для вменения целевого гаплотипа.На практике время выполнения может быть значительно сокращено за счет использования сходства между гаплотипами в небольших сегментах генома [11, 26, 29–34]. Следуя подходу Minimac, SMac использует преимущества этой избыточности, принимая в качестве входных данных сжатую контрольную панель, которая была разделена на последовательные блоки с различными гаплотипами в каждом объединенном блоке. Мы включаем детали алгоритма вменения SMac в Приложение.

2.2 Обзор модели безопасности Intel SGX и ее ограничений

Технология Intel SGX [35] предлагает аппаратную защиту приложений, работающих внутри анклава SGX, от потенциально вредоносного ядра или операционной системы.Требования безопасности SGX включают конфиденциальность и целостность данных и двоичного кода приложения во время выполнения. Это достигается с помощью криптографических строительных блоков аппаратного уровня, механизмов контроля доступа и аутентифицированного механизма шифрования для страниц памяти, встроенных во все процессоры Intel начиная с 6-го поколения (выпущенного в 2015 году). В среде SGX данные всегда хранятся в зашифрованном виде и расшифровываются только в самом ЦП для обработки. По сравнению с программной защитой (например, виртуализацией) компрометация аппаратной безопасности требует более сложных атак на сложную аппаратную архитектуру, а иногда и на само физическое оборудование.

Обычный вариант использования SGX — это безопасное вычисление , переданное на аутсорсинг, (например, служба вменения генотипа), когда пользователь отправляет личные данные в удаленный анклав SGX, управляемый недоверенной стороной, для безопасной обработки данных. Для достижения желаемых свойств безопасности в этой удаленной настройке Intel SGX использует процесс, известный как удаленная аттестация . Используя преимущества компонента цифровой подписи на аппаратном уровне, удаленная аттестация обеспечивает подтверждение подлинности для пользователя, что гарантирует целостность двоичного файла приложения, работающего внутри анклава SGX, а также безопасность канала связи между пользователем и удаленный анклав (что позволяет избежать атак типа «злоумышленник в середине»).

Несмотря на заявления SGX о безопасности, существуют дополнительные проблемы безопасности, которые практикующие, стремящиеся использовать эту технологию, должны принять во внимание. Во-первых, Intel принимает к сведению четыре вектора атаки по побочному каналу (т. Е. Утечку конфиденциальной информации посредством мониторинга поведения компьютерной системы, внешнего по отношению к самой программе), которые не включены в модель безопасности SGX: статистика энергопотребления, статистика пропусков кэша, ветвление. время и доступ к страницам через таблицы страниц [13, 36].Понятно, что это проектное решение направлено на снижение сложности архитектуры и, следовательно, снижения производительности и векторов атак. Однако это означает, что на уровне программного обеспечения необходимо использовать дополнительные стратегии смягчения последствий, чтобы добиться сильных свойств безопасности. Наша работа направлена ​​на устранение этого ограничения SGX путем разработки алгоритмического проектирования и стратегий реализации для защиты от ключевых уязвимостей побочного канала в модели угроз SMac (описанной в следующем разделе).

Отметим, что в последние годы исследователями были обнаружены дополнительные аппаратные уязвимости и атаки, связанные с SGX. К ним относятся L1 Terminal Fault [37, 38], также известный как Foreshadow, Microarchitectural Data Sampling [39–42], а также атаки по побочным каналам в PLATYPUS [43]. Чтобы смягчить эти атаки, Intel недавно опубликовала обновления микрокода и добавила кремниевую защиту для новых процессоров Intel [44–46]. Мы можем проверить, что Microsoft Azure Confidential Computing [47] предлагает облачные серверы SGX со всеми средствами защиты по умолчанию.Мы рекомендуем практикам, желающим развернуть приложения SGX, строго следовать рекомендациям по снижению риска или использовать облачные сервисы SGX, которые принимают серьезные меры предосторожности против этих уязвимостей.

2.3 Наша модель угроз и векторы атак

В нашей модели угроз для SMac предполагается, что поставщик услуг (SP) является злоумышленником и полностью контролирует операционную систему, ядро ​​и операции ввода-вывода запущенных анклавов. Другими словами, SP — это активный злоумышленник , который может попытаться подслушать и / или вмешаться в любые шаги анклавов SGX и каналов связи в них и из них.Целью вредоносного SP является извлечение данных генотипа, принадлежащих пользователю, потенциально через промежуточные результаты вычислений SMac, которые могут косвенно выявить лежащие в основе генотипы. Мы предполагаем, что ИП полностью осведомлен о справочной панели.

Мы полагаемся на стандартную модель безопасности SGX, как обсуждалось ранее в разделе 2.2, где шаблоны доступа к памяти и информация о времени считаются векторами атаки. Таким образом, мы предполагаем, что известные аппаратные уязвимости были должным образом устранены в соответствии с рекомендациями Intel [44, 45].При наличии протокола удаленной аттестации SGX мы предполагаем существование безопасного аутентифицированного канала между пользователем и анклавом SGX и что двоичный файл SMac, работающий внутри анклава, является подлинным и проверен пользователем. Мы исключаем из рассмотрения физические атаки (например, прослушивание шины, анализ мощности) из-за сложности и высокой стоимости выполнения (и предотвращения) этого класса атак.

Чтобы сосредоточить наши усилия на рассмотрении реалистичных сценариев атак для вменения генотипа в SGX, мы тщательно рассмотрели алгоритм Minimac в контексте известных в литературе векторов атак SGX по побочным каналам.Мы обнаружили двух основных векторов атаки , описанных ниже. Обратите внимание, что в наших результатах мы демонстрируем, как можно использовать эти уязвимости для извлечения генотипов пользователей, когда эти угрозы не устранены должным образом.

(i) Зависящие от секрета временные различия в операциях с плавающей запятой

Andrysco et al. [20] продемонстрировали, что арифметические операции с плавающей запятой, обрабатываемые блоком с плавающей запятой (FPU) ЦП Intel, могут приводить к различным статистическим данным по времени на основе предоставленных входных значений.Это расхождение во времени наиболее ярко проявляется между нормальными и субнормальными (то есть небольшими значениями, близкими к нулю) операциями с плавающей запятой (относительная разница более 100% для умножения и деления). Интересно, что это несоответствие является результатом оптимизации FPU. Хотя такая оптимизация чрезвычайно полезна во многих приложениях, для такой критически важной для безопасности задачи, как анализ генетических данных, она, к сожалению, также выявляет вектор атаки. Хотя генотипы пользователя в Minimac не кодируются напрямую как числа с плавающей запятой, различные решения о ветвлении, основанные на вводе пользователя, могут приводить к выполнению различных классов операций с плавающей запятой, таким образом генерируя статистику времени, которая может привести к утечке основных генотипов.

(ii) Секретно-зависимые шаблоны доступа к памяти

Мы обнаружили, что Minimac демонстрирует как пространственные , так и временные шаблоны доступа к памяти , зависящие от генотипов пользователя в L1, L2, кэше последнего уровня (LLC). Шаблоны доступа к пространственной памяти раскрываются путем принятия решений о ветвлении, основанных на генотипах пользователя, в результате чего две ветви обращаются к двум разным адресам памяти. Шаблоны временного доступа раскрываются косвенно, когда временной интервал между двумя экземплярами вызовов доступа к памяти зависит от секрета из-за различий во времени в инструкциях, выполняемых между ними (например,грамм. расхождения во времени операций с плавающей запятой). Как показывают наши результаты, все эти векторы атак представляют реальную угрозу для безопасности вменения генотипа на основе SGX, тем самым мотивируя наши стратегии смягчения, представленные в следующем разделе.

2.4 Наши методы отказоустойчивой реализации побочных каналов для SMac

Для предотвращения атак на SMac с использованием побочных каналов, включая те, что представлены в предыдущем разделе, мы разработали и применили ключевые методы алгоритмического и программного проектирования при реализации SMac для обеспечить защиту от побочных каналов при сохранении точности результатов вменения.Наша основная стратегия — принять устойчивую к утечкам арифметику и операции ветвления для замены всех уязвимых кодов в SMac, используя инструкции ЦП, которые, как известно, выполняются в постоянном времени независимо от ввода. Чтобы полагаться исключительно на операции, устойчивые к утечкам, при обеспечении точных вычислений, мы преобразовали основной алгоритм вменения, используемый Minimac, для использования целых чисел с фиксированной запятой для представления непрерывных значений в логарифмической области. Это потребовало от нас разработки новых подпрограмм, устойчивых к утечкам, для ключевых операций в нашем алгоритме, включая функции log-sum-exp (LSE) и log-diff-exp (LDE).Наконец, мы разработали структуру программирования на основе строгой типизации для обеспечения устойчивости всей программы SMac к утечкам на синтаксическом уровне . Мы опишем каждый из этих подходов более подробно ниже.

Инструкции ЦП с постоянным временем

Мы использовали инструкции ЦП с постоянным временем в качестве строительных блоков для реализации устойчивой к утечке арифметики и операций ветвления для замены всех уязвимых кодов в SMac. В частности, мы следуем Andrysco et al. Аргумент [20] о том, что арифметика с плавающей запятой (например,грамм. fadd, fsub, fmul, fdiv ) и инструкции целочисленного деления (например, idiv ) на процессоре Intel могут открывать побочный канал синхронизации, в то время как другие целочисленные операции (сложение, вычитание, умножение, сравнение и битовые сдвиги) и Логические операции выполняются в постоянное время. Мы эмпирически подтвердили эти устоявшиеся утверждения в наших экспериментальных условиях (данные не включены). Поэтому мы решили разработать наши устойчивые к утечкам операции на основе этих постоянных инструкций. Обратите внимание, что операции ветвления в программе могут быть защищены путем оценки обеих ветвей и выбора намеченного вывода через мультиплексор (т.е. умножьте на горячий вектор бинарных индикаторов по ветвям и просуммируйте результаты). Далее мы описываем, как все аспекты алгоритма вменения могут быть реализованы с использованием только этого ограниченного набора безопасных операций.

Представление с фиксированной запятой

Во-первых, мы стремились полностью исключить инструкции с плавающей запятой (учитывая утечку времени в операциях с плавающей запятой, которые мы описали ранее), представляя действительные числа как целые числа с фиксированной запятой .Интуитивно, представление с фиксированной точкой преобразует действительное число в целое, увеличивая его на постоянный коэффициент. Например, 1,39485 можно представить как ⌊1,19485 × 2 20 ⌋. Сложение и вычитание чисел в представлении с фиксированной точкой естественно следуют из лежащей в основе целочисленной арифметики до тех пор, пока коэффициенты масштабирования совпадают. Однако умножение вызовет сдвиг шкалы, например ⌊8,28 × 2 20 ⌋ × ⌊0,5 × 2 20 ⌋ ≈ ⌊4,14 × 2 20 ⌋ / 2 20 .Мы добавляем к каждому умножению шаг повторного масштабирования, который применяет битовый сдвиг (также безопасная операция) для усечения наименее значимых битов.

Ключевым препятствием, возникающим из-за нашей зависимости от представлений с фиксированной точкой, является точность . Значения с фиксированной запятой обычно требуют больше битов информации, чем с плавающей запятой для представления небольших чисел. На практике использование собственных 64-битных целых чисел в Intel x86-64 для представления фиксированных точек с разумным выбором коэффициента масштабирования 2 20 ограничит наименьшее число, которое может быть представлено 2 20 ≈ 9.54 × 10 7 . Мы обнаружили, что это крайне недостаточный уровень точности для получения значимых результатов вменения. Действительно, существующая универсальная библиотека для арифметики с фиксированной точкой с фиксированным временем [20] использует 64-битные целые числа, что приводит к огромной потере точности для нашего приложения. В принципе, вместо них можно использовать 128- или 256-битные целые числа, если они изначально поддерживаются ЦП и считаются безопасными; однако этот подход эффективно удваивает или учетверяет использование памяти, при этом обеспечивая ограниченную точность по сравнению с операциями с плавающей запятой.

Фиксированные точки с логическим преобразованием

Для решения вышеуказанной проблемы мы выбрали логарифмическое преобразование с плавающей запятой до преобразования с фиксированной точкой для использования в нашей устойчивой программе побочного канала. Это привело к ключевым улучшениям в точности нашего алгоритма вменения; Фактически, наши эксперименты демонстрируют, что представления с фиксированной точкой, основанные на 32-битных целых числах, достаточны для получения высокоточных результатов для вменения генотипа. Обратите внимание, что существующее программное обеспечение Minimac не выполняет вычисления в области журнала, вместо этого полагаясь на точность чисел с плавающей запятой.Еще одно важное преимущество логарифмического преобразования состоит в том, что оно преобразует попарные умножения и деления в алгоритме в сложения и вычитания, соответственно, которые эффективны и, естественно, устойчивы к утечкам в настройке с фиксированной точкой. Отметим, что алгоритм вменения на основе HMM в значительной степени полагается на умножения, поскольку алгоритм вычисляет агрегированные произведения вероятностей для скрытых переменных по мере его прохождения по генетической последовательности; Таким образом, преобразование журнала также помогло нам добиться улучшений во время выполнения.

Подпрограммы, устойчивые к утечкам для фиксированных точек с логарифмическим преобразованием: LSE и LDE

Ключевая трудность при работе с логарифмическими преобразованными числами состоит в том, что сложение и вычитание в исходном пространстве становится нелинейным в преобразованном пространстве, то есть сложнее выполнить, используя только доступные нам безопасные операции. Мы называем эти необходимые подпрограммы как log-sum-exp (LSE) и log-diff-exp (LDE), которые неявно реализуют сложение и вычитание в исходном пространстве соответственно.Теоретически можно было бы определить подпрограммы, устойчивые к утечкам, для функций log и exp (например, на основе полиномиальных приближений), затем использовать их для сопоставления чисел с исходным пространством, выполнения сложения или вычитания, а затем обратно в log-домен для реализации LSE и LDE. Однако прямое вычисление log и exp является численно нестабильным из-за высокой нелинейности этих функций и того факта, что промежуточные результаты этих шагов, представленные в виде фиксированных точек в исходном пространстве, приводят к потере точности и, в некоторой степени, побеждают цель нашей стратегии трансформации журналов.Таким образом, вместо этого мы разработали подпрограммы, устойчивые к утечкам, которые непосредственно аппроксимируют функции LSE и LDE на основе кусочно-полиномиальных функций, которые, как мы обнаружили, являются более точными и эффективными, чем вышеупомянутый наивный подход. Мы приводим детали этих подпрограмм в Приложении.

Строгая типизация для синтаксического обеспечения устойчивости к утечкам

Чтобы гарантировать, что все уязвимые коды в SMac были заменены, мы разрабатываем надежный защищенный по времени тип для представления генотипов пользователя и отмены всех его небезопасных операций нашими безопасными.На синтаксическом уровне это гарантирует невозможность случайной утечки генотипов пользователя в соответствии со стандартным предположением SGX, если только мы не раскроем их явно . Таким образом, безопасность нашей программы сводится к безопасности элементарных операций, устойчивых к утечкам, которые мы тщательно проверили. Мы включаем формальное определение системы строгой типизации, которую мы разработали и использовали для реализации SMac в Приложении.

Взятые вместе, эти методы позволили нам реализовать алгоритм вменения в SMac точным, эффективным и устойчивым к утечкам способом.Мы включили технические детали программной реализации SMac, а также дальнейшие стратегии оптимизации в Приложение.

3 Результаты экспериментов

Уязвимости побочного канала SGX угрожают безопасности вменения генотипа в безопасных анклавах и мотивируют наши стратегии смягчения последствий

Чтобы продемонстрировать проблемы безопасного развертывания существующих конвейеров вменения генотипов в доверенных средах выполнения, мы определили два уязвимых « гаджеты »в Minimac, которые могут передавать чувствительные генотипы пользователей в SGX через побочные каналы к злоумышленнику, контролирующему сервер вменения (рис. 2).Первый гаджет является частью шага перенормировки в Minimac: если промежуточные значения падают ниже определенного порога, Minimac умножает их на фиксированную константу, чтобы избежать потери числового значения. Поскольку размеры промежуточных значений определяются генотипами пользователей, знание этого решения ветвления может быть использовано для их вывода. Второй гаджет является частью шага эмиссии в Minimac, где значение вероятности эмиссии ( e 1 или e 2 на рисунке) используется для обновления представлений о скрытых состояниях в HMM определяется тем, соответствует ли генотип пользователя эталонному генотипу в данной позиции.Расхождение во времени, вызванное умножением двух различных вероятностей излучения, может раскрыть генотип пользователя.

Рисунок 2: Демонстрация уязвимостей побочного канала в исходном алгоритме вменения Minimac.

Мы определили два уязвимых устройства в Minimac — перенормировку (верхний ряд) и выброс (нижний ряд) — и продемонстрировали два типа атак (конфликт портов и Prime + Probe), как описано в основном тексте. Мы предоставляем псевдокоды двух устройств ( A и D ) с извлекаемыми секретами, выделенными пурпурным цветом, и измеримыми поверхностями атаки синим цветом. B и E показывают успешную атаку на оба устройства через побочный канал конфликта портов. Каждая точка данных отражает количество конфликтов в тактовых циклах. Горизонтальные линии красного и зеленого цвета обозначают выборочное среднее значение для каждого сегмента процесса-жертвы, которое успешно распознает лежащие в основе секреты (0 или 1), показанные вверху. C и F демонстрируют другой тип атаки, основанный на Prime + Probe, который действует даже тогда, когда функция одновременной многопоточности (SMT) SGX отключена в качестве меры безопасности, в отличие от конфликта портов.Каждая точка данных отражает задержку на этапе зондирования атаки в тактовых циклах. Между разными пользовательскими секретами (0 или 1), показанными вверху, наблюдается четкое различие в задержке.

Чтобы продемонстрировать уязвимость двух обнаруженных нами гаджетов, мы реализовали против них два типа атак, основанных на методах конкуренции портов [22, 48] и Prime + Probe [36, 49, 50]. Примечательно, что первая атака требует включения одновременной многопоточности (SMT) в процессоре Intel, что часто желательно из соображений производительности, в то время как последняя будет работать, даже если SMT отключен в качестве дополнительной меры безопасности.Атаки демонстрируются в настройках с процессором Intel i7-6700 с отключенным Turbo Boost, а также в Ubuntu 16.04 и Linux Kernel v4.4.0. Ни один из кодов гаджета не запускается в SGX во время атак, чтобы упростить обнаружение адресов памяти, но в остальном мы делаем такое же предположение об угрозе, как если бы он выполнялся в SGX. Обратите внимание, что обнаружение адресов памяти в SGX было продемонстрировано на практике [21].

Сначала мы выполнили атаку с конкуренцией портов [22, 48] на процесс-жертва, выполняющий код гаджета, вызвав конкуренцию за ресурсы в целевом модуле с плавающей запятой (FPU).Эта конкуренция наблюдается и измеряется (в количестве тактов), чтобы сделать вывод, сколько времени требуется коду гаджета для обработки умножения с плавающей запятой, что может привести к утечке информации о частных входных данных. Чтобы повысить отношение сигнал / шум, мы применяем недавно предложенную технику MicroScope [21], чтобы заставить гаджет многократно запускаться в спекулятивном исполнении, вызывая сбои страниц на целевой странице памяти. Затем мы обучили классификатор различать наблюдаемые шаблоны измерений между двумя возможными входными данными пользователя (0 или 1, представляющие генотип). В эксперименте с 1000 случайно выбранными битами, представляющими частный вход, наша атака на гаджет перенормировки достигает 99.Точность классификации 4% при среднем времени выполнения 1,04 секунды / бит, а наша атака на гаджет с выбросами достигает точности 88,5% при среднем времени выполнения 1,35 секунды / бит. Примеры результатов атаки показаны на рисунках 2B и 2E. Затем мы выполнили атаку Prime + Probe [36, 49, 50] на процесс-жертву, выполняющий код гаджета, вызывая промахи в кэше последнего уровня (LLC). Статистика пропусков кэш-памяти умножения с плавающей запятой в коде гаджета, происходящего между двумя вызовами доступа к памяти (показанными на рисунках 2A и 2D), может быть измерена (на этапе пробы ), чтобы сделать вывод о продолжительности умножения. , и поэтому раскрыть секретные биты.Чтобы проиллюстрировать, что статистика промахов кэша может привести к утечке секретной информации, мы модифицируем гаджет для искусственного усиления побочного канала, заставляя каждое умножение повторяться 1000 раз, что на практике может быть достигнуто с помощью таких методов, как атака MicroScope [21]. Мы показываем результаты, основанные на этой атаке, на рисунках 2C и 2F, которые демонстрируют, что существует четкая различимая разница между двумя возможными значениями секретного бита. Эти результаты свидетельствуют о том, что уязвимости побочных каналов в Minimac представляют собой реальную угрозу безопасности, от которой мы защищаемся с помощью наших стратегий реализации с постоянным временем.

SMac достигает той же точности вменения, что и Minimac, сохраняя при этом входные данные конфиденциальными от поставщика услуг

Для оценки точности наших методов мы использовали два общедоступных набора данных, обычно используемых для сравнительного анализа методов вменения генотипов: (i) 1000 Genomes Phase 3 (1 кг) набор данных (5008 гаплотипов от 2504 субъектов) и (ii) набор данных Haplotype Reference Consortium (HRC) (54 330 гаплотипов от 27 165 субъектов). Мы сосредоточили наш анализ на генетических вариантах в первом из трех одинаковых по размеру фрагментов хромосомы 20 (длиной примерно 23 Мбит / с), генерируемых Minimac; обратите внимание, что Minimac делит геном на большие перекрывающиеся фрагменты и вменяет каждый фрагмент отдельно.В результате в нашем анализе было рассмотрено 401 627 вариантов для 1 кг и 339 328 вариантов для HRC. Мы включили все типы вариантов, представленные в исходных наборах данных, включая как однонуклеотидные полиморфизмы, так и структурные варианты, такие как вставки и делеции.

Для перекрестной проверки мы выделили небольшую подгруппу субъектов для тестирования (100 субъектов для 1 кг и 510 субъектов для HRC) и использовали остальную часть набора данных в качестве контрольной панели для выполнения вменения данных теста.Для удерживаемых субъектов мы рассмотрели только варианты на чипе Illumina Human1M-Duo v3.0 для анализа ДНК BeadChip в качестве наблюдаемых входных данных и оценили точность вывода остальных вариантов в наборе данных, отражая наиболее распространенный вариант использования. вменения, где ограниченные данные из массивов генотипирования вменяются для получения более полных профилей генотипов для субъектов исследования. Примечательно, что варианты в массиве Illumina составляют лишь небольшую часть вариантов в наших наборах данных; 11012 вариантов (2.7%) для 1 кг и 10925 вариантов (3,2%) для HRC были охвачены массивом Illumina и, таким образом, предоставлены методам вменения в качестве входных данных. Следуя предыдущей работе, которая представила Minimac, мы использовали возведенные в квадрат коэффициенты корреляции Пирсона ( r 2 ) между основной истиной и вмененными (ожидаемыми) дозами аллелей для тестовых вариантов в качестве меры оценки для трех различных частот второстепенных аллелей ( MAF) категории: 0,01–0,5%, 0,01–0,5% и 5–50%.

Результаты, показанные на Рисунке 3, демонстрируют, что точность вменения SMac практически идентична точности Minimac во всех категориях MAF.Фактически, значение r 2 , вычисленное для каждого удерживаемого индивидуума, точно совпадает между SMac и Minimac для всех индивидуумов в тестовых данных (рис. 3B). Эти результаты показывают, что SMac точно соответствует поведению современного алгоритма Minimac, а также обеспечивает более надежную защиту конфиденциальности для пользователя; Напомним, что конвейер вменения SMac выполняется внутри анклава SGX без разглашения данных, введенных пользователем, поставщику услуг вменения. Кроме того, SMac обеспечивает комплексную защиту от уязвимостей побочного канала, связанных с синхронизацией и доступом к памяти, еще больше усиливая его свойства безопасности.Тот факт, что в результатах SMac нет потери точности, заслуживает внимания, учитывая, что SMac использует несколько методов аппроксимации для достижения устойчивости к побочным каналам, включая арифметику с фиксированной точкой в ​​логарифмической области и приближения к функциям LSE / LME (раздел 2.4).

Рис. 3: Точность вменения SMac идентична Minimac и существенно выше, чем у решений на основе HE.

Мы провели эксперимент по перекрестной проверке наборов данных 1KG и HRC (хромосома 20), чтобы сравнить точность SMac с Minimac4 (последняя версия Minimac) и новейшими методами вменения на основе гомоморфного шифрования (HE-EPFL и HE-UTMSR). ( А ).Точность измеряется Pearson r 2 в пределах каждого диапазона частот минорных аллелей (MAF) целевого варианта (0,01-0,5%, 0,5-5%, 5-50%). Черная точка указывает среднее значение r 2 , красная горизонтальная линия указывает медианное значение, прямоугольники простираются до верхних и нижних квартилей, а усы — до крайних значений, за исключением выбросов, отмеченных красным символом «плюс». Мы также наносим на график r 2 растворов на основе SMac и HE для отдельных испытуемых (ось y) против Minimac r 2 (ось x) на данных HRC, 0.5-5% категория MAF ( B ). Обратите внимание, что синие точки, представляющие SMac, расположены по диагонали, показывая, что результаты SMac и Minimac идентичны.

SMac обеспечивает значительное повышение точности по сравнению с подходами, основанными на гомоморфном шифровании, для безопасного вменения генотипа. шифрование

(HE).Интуитивно, HE — это особая форма шифрования, которая позволяет неявно выполнять вычисления над секретами, лежащими в основе зашифрованных текстов, работая только над зашифрованными текстами (без их дешифрования). Этот мощный метод теоретически позволяет производить произвольные расчеты над частным набором данных без получения аналитиком какой-либо информации об этих данных, тем самым обещая заманчивое решение для безопасного вменения генотипа, при котором пользователь предоставляет данные, зашифрованные с использованием HE, поставщику услуг. который затем выполняет вменение и возвращает зашифрованные результаты пользователю, не узнавая никакой информации о генотипах пользователя.Однако ключевой задачей для HE является разработка алгоритмов, которые поддаются эффективному вычислению в HE; определенные нелинейные операции, такие как деление и сравнение, являются дорогостоящими для выполнения в HE, часто представляя ключевое узкое место для достижения практической производительности в сложных аналитических конвейерах.

С этой целью в конкурсе iDASH-2019 была поставлена ​​задача, в ходе которой участников попросили разработать эффективные стратегии на основе HE для безопасного вменения генотипа. Отражая вышеупомянутое узкое место, в большинстве лучших решений использовалась линейная модель (например.грамм. линейная или логистическая регрессия) для прогнозирования генотипа отсутствующего варианта с использованием наблюдаемых поблизости вариантов, что представляет собой значительный отход от современных алгоритмов вменения, таких как Minimac. Хотя эти решения на основе HE дали многообещающие результаты [18], мы задались вопросом, может ли наша стратегия на основе SGX стать жизнеспособной альтернативой, которая может обеспечить более точную производительность вменения, особенно за счет строгой гарантии конфиденциальности, предоставляемой HE, которая может быть желательным компромиссом, когда получение точных результатов является приоритетом.

В наших экспериментах мы оценили два лучших решения iDASH на основе общей точности вменения, которую мы называем HE-EPFL и HE-UTMSR, что соответствует EPFL (на основе логистической регрессии) и UTMSR (на основе линейной регрессии). ) решения в оригинальной публикации [18] соответственно. С целью сравнения точности мы обучили и оценили линейные модели, используемые решениями на основе HE в открытом тексте , то есть без какого-либо шифрования. Это отражает оптимистичную оценку этих подходов, учитывая, что использование обученных моделей в HE для генерации прогнозов может привести к дополнительной потере точности.Обратите внимание, что структуры HE основаны на модульной целочисленной арифметике и, следовательно, естественно не поддерживают высокоточные операции с плавающей запятой. Для обоих методов на основе HE мы загрузили программное обеспечение, опубликованное авторами (https://github.com/K-miran/secure-imputation), и оценили методы в наших наборах данных с использованием предложенных параметров по умолчанию. Из-за вычислительной нагрузки, связанной с обучением прогнозирующей модели для каждого варианта теста, мы отобрали 1000 вариантов теста равномерно случайным образом для каждой категории MAF, чтобы приблизиться к значению r 2 для каждого испытуемого.Наши результаты для Minimac и SMac также основаны на одном и том же наборе тестовых вариантов для честности сравнения. Как для наборов данных 1 кг, так и для HRC, линейные модели, используемые решениями на основе HE, дали значительно более низкую точность вменения во всех трех категориях MAF, при этом HE-EPFL последовательно дает более точные результаты, чем HE-UTMSR (рисунок 3). Например, варианты испытаний с MAF от 0,5 до 5% были рассчитаны со средним значением r 2 0,88 для Minimac / SMac, 0,70 для HE-EPFL и 0.58 для HE-UTMSR. Изучение значений r 2 отдельных испытуемых показало, что разница в точности между Minimac / SMac и решениями на основе HE одинакова практически для всех испытуемых. Эти наблюдения согласуются с интуицией, что методы вменения на основе HMM, такие как Minimac, могут использовать более сложные и долгосрочные модели корреляции в наборе данных генотипа, чем те, которые могут улавливать локально обученные линейные модели в решениях на основе HE. В целом, наши результаты показывают, что SMac является убедительным решением для безопасного вменения генотипа, которое обеспечивает высочайшую точность наряду с нашей усиленной устойчивостью к утечкам в рамках модели SGX.

SMac эффективно масштабируется до больших наборов данных как во время выполнения, так и при использовании памяти. ограниченный объем памяти, доступной процессу SGX. Это вызывает потенциальную обеспокоенность тем, что безопасное вменение генотипа на основе SGX может повлечь за собой огромные вычислительные затраты для появляющихся крупномасштабных наборов генетических данных (например,грамм. справочная панель TOPMed, которая приближается к 100 тыс. человек [51]). Чтобы решить эту проблему, мы оценили масштабируемость SMac как с точки зрения времени выполнения, так и использования памяти для ряда наборов данных разного размера, включая 1 кг (~ 5 тыс. Гаплотипов), наборы данных HRC с равномерной субдискретизацией (гаплотипы 10 и 25 тыс.) И полные Набор данных HRC (~ 54 тыс. Гаплотипов). Для полноты картины мы дополнительно протестировали вариант SMac, названный SMac-lite, который соответствует решению на основе SGX, которое реализует алгоритм Mini-mac так же, как SMac, но без дополнительных механизмов защиты, которые мы ввели для побочного канала. утечки.Мы измерили показатели производительности для вменения всей хромосомы 20, которая выполняется путем последовательной обработки каждого из трех перекрывающихся сегментов хромосомы, сгенерированных Minimac в случае SMac / SMac-lite. Все наши эксперименты проводились в системе с процессором Intel Xeon E-2288G с поддержкой Intel SGX, с 16 ГБ ОЗУ и 112 МБ анклавного страничного кеша (EPC; т. Е. Объем памяти, доступный для процесса SGX). Использование памяти, превышающее предел EPC, переключается в ОЗУ с аутентифицированным шифрованием страниц памяти, полагаясь на встроенную функцию SGX.Передача данных между клиентом и сервером моделировалась с помощью loopback TCP, а измерения пикового использования кучи проводились с помощью massif (valgrind), стандартного инструмента профилирования памяти для Linux.

Наши эксперименты продемонстрировали линейное масштабирование как времени выполнения, так и памяти по отношению к размеру контрольной панели для всех оцениваемых методов (рис. 4). Как и ожидалось, SMac показывает накладные расходы во время выполнения (54% дополнительного времени выполнения для полного набора данных HRC), но мы считаем, что это дополнительное бремя — небольшая цена по сравнению с ценностью улучшенной защиты конфиденциальности, которую наши решения дополнительно предоставляют пользователям.Обратите внимание, что при жестких ограничениях времени выполнения SMac-lite может быть жизнеспособной альтернативой, учитывая его быстрое время выполнения, которое в среднем на 36% ниже, чем у Minimac, благодаря нашей эффективной реализации в отношении использования памяти и использования собственных функций ЦП. Хотя SMac-lite не получает преимуществ от наших механизмов защиты от утечек по побочным каналам и, таким образом, остается уязвимым для изощренных злоумышленников с достаточными стимулами, мы все же отмечаем, что SMac-lite по-прежнему запускает конвейер вменения полностью внутри анклава SGX, что обеспечивает более высокую безопасность. гарантия, чем статус-кво загрузки необработанных данных пользователя на сторонний сервер.

Рисунок 4: SMac обеспечивает практическую производительность в отношении времени выполнения и использования памяти.

Мы измерили время выполнения ( A, ) и использование памяти ( B ) SMac и Minimac4 для импортирования хромосомы 20 одного образца на ряд эталонных панелей разного размера, включая 1 кг, HRC и подвыборку наборов данных HRC с 10к и 25к гаплотипов каждый. Мы также демонстрируем производительность SMac-lite, менее безопасной альтернативы SMac, которая использует тот же алгоритм вменения, что и SMac в SGX, без нашей дополнительной защиты от утечек по побочным каналам.Все результаты отражают среднее значение пяти испытаний. Все методы демонстрируют линейное масштабирование как во время выполнения, так и в памяти по отношению к размеру данных, а SMac несет скромные 54% накладные расходы времени выполнения для самого большого набора данных с 54 КБ гаплотипов, одновременно обеспечивая дополнительную защиту данных пользователя. SMac и SMac-lite используют ~ 100 МБ в кэше страниц анклава (EPC), а остальное — в ОЗУ, отличном от EPC, для подкачки (общее количество отображается как EPC + swap). Это в целом вдвое снижает использование памяти Minimac4.

Что касается использования памяти, SMac и SMac-lite идентичны, и оба они используют значительно меньше памяти, чем Minimac (например.грамм. На 55% меньше по полным данным HRC). Это связано с оптимизированным использованием памяти в нашей алгоритмической реализации, чему дополнительно способствуют эффективные методы управления памятью в Rust. Напомним, что любое выделение избыточной памяти сверх лимита EPC перекачивается в RAM, что увеличивает вычислительные затраты приложений SGX; однако SMac / SMac-lite имеет простой шаблон доступа к памяти из-за последовательного характера алгоритма вменения, который снижает нагрузку на использование памяти подкачки, на что указывают скромные накладные расходы времени выполнения наших инструментов.Эти результаты показывают, что наш основанный на SGX подход к безопасному вменению генотипов почти так же практичен, как и существующие конвейеры вменения, и останется применимым для появляющихся крупномасштабных эталонных наборов данных. В целом наша работа представляет собой полезное методологическое руководство по тому, как современные алгоритмы и программные инструменты для анализа конфиденциальных наборов геномных данных могут быть перенесены в надежные среды выполнения безопасным и эффективным способом.

сравнение трех стратегий

использование NEST или APPEND, когда отношения во времени

точки являются слабыми и когда связи между временем

точек сильны.Мы обнаружили небольшое снижение эффективности

APPEND по сравнению с NEST, поэтому за его эксплуатационные преимущества приходится платить (небольшую)

.

Настоящая статья была ограничена исследованием применимости

RE-IMPUTE, NEST и APPEND в относительно простых сценариях

с целью прояснить, является ли и если да,

когда — осторожность в первую очередь оправдана. На практике могут быть интересны более сложные ситуации с большим числом переменных и временных точек

.Мы сделали

, наблюдая, что лежащие в основе процедуры вменения

не обрабатывают автокоррелированные данные должным образом, что в целом остается разрешенным для продольных данных

.

Информация о статье

Раскрытие информации о конфликте интересов: Каждый автор подписал форму

для раскрытия информации о потенциальных конфликтах интересов. Авторы

не сообщали о каких-либо финансовых или иных конфликтах интересов в связи с описываемой работой.

Этические принципы: Авторы подтверждают, что при подготовке этой работы следовали профессиональным этическим принципам

.Эти

руководящие принципы включают получение информированного согласия от людей

участников, соблюдение этических норм и уважение

прав человека или животных участников, а также обеспечение

конфиденциальности участников и их данных, например, обеспечение

того, что отдельные участники не могут быть идентифицированы в отчетных результатах

или в общедоступных исходных или архивных данных.

Финансирование: Эта работа не финансировалась.

Роль спонсоров / спонсоров: Ни один из спонсоров или спонсоров

этого исследования не принимал участия в разработке и проведении

исследования; сбор, управление, анализ и интерпретация данных

; подготовка, рецензирование или утверждение

рукописи; или решение о подаче рукописи для публикации

.

Выражение признательности: идеи и мнения, выраженные здесь

, принадлежат только авторам, и одобрение со стороны

организаций авторов не предназначено и не должно предполагаться

.

Доступность данных

Данные, подтверждающие выводы этого исследования, доступны в Figshare по адресу https://doi.org/10.6084/m9.figshare.

9

6. Для подмножества данных POPS, использованных в этом исследовании

, администратор когорты POPS, д-р С.М. van

der Pal в TNO Child Health, Лейден, Нидерланды (см.

http://www.tno.nl/pops). Данные

не являются общедоступными из-за ограничений конфиденциальности и этических норм.

ORCID

XM Kavelaars http://orcid.org/0000-0003-1600-3153

JR van Ginkel http://orcid.org/0000-0002-4137-0943

S. van Buuren http: //orcid.org/0000-0003-1098-2119

Ссылки

Aardoom, JJ, Dingemans, AE, Spinhoven, P., van

Ginkel, JR, de Rooij, M., & van Furth, EF ( 2016а).

Полностью автоматизированная самопомощь на основе Интернета с различными уровнями

терапевтической поддержки лиц с расстройством пищевого поведения

симптомов: рандомизированное контролируемое исследование.Журнал

Медицинские интернет-исследования, 18 (6), e159. https://doi.org/10.

2196 / jmir.5709.

Aardoom, J. J., Dingemans, A. E., van Ginkel, J. R.,

Spinhoven, P., Van Furth, E. F., & Van den Akker-van

, Marle, M. E. (2016b). Рентабельность интернет-вмешательства

с поддержкой терапевта или без нее по сравнению с

сопоставлением с листом ожидания для людей с расстройством пищевого поведения

порядка симптомов: рандомизированное контролируемое исследование.

Международный журнал расстройств пищевого поведения, 49 (12),

1068–1076. https://doi.org/10.1002/eat.22587.

Курран П. Дж., Обейдат К. и Лосардо Д. (2010). Двенадцать часто задаваемых вопросов о моделировании кривой роста.

Журнал познания и развития: Официальный журнал

Общества когнитивного развития, 11 (2), 121–136.

https://doi.org/10.1080/15248371003699969.

Дэниэлс, М. Дж., Ван, К., и Маркус, Б.Х. (2014). Полностью

Байесовский вывод при игнорируемом отсутствии

при наличии вспомогательных ковариат. Биометрия, 70 (1), 62–72.

https://doi.org/10.1111/biom.12121.

Grund, S., L €

udtke, O., & Robitzsch, A. (2018). Множественное вменение

недостающих данных для многоуровневых моделей.

Организационные методы исследования, 21 (1), 111–149. https: //

doi.org/10.1177/1094428117703686

Grund, S., Robitzsch, A., Людтке, О. (2019). mitml: Инструменты для

множественного вменения в многоуровневом моделировании. Пакет R

версии 0.3-7. https://CRAN.R-project.org/package=

mitml.

Хилле, Э. Т. М. (2005). Ошибка отсутствия ответов в последующем исследовании

с участием 19-летних подростков, рожденных недоношенными детьми.

Педиатрия, 116 (5), e662 – e666. https://doi.org/10.1542/

чел.2005-0682.

Мэн, X.-L. (1994). Выводы с множественным вменением с

несовместимых источников ввода.Статистическая наука, 9 (4),

538–558. https://doi.org/10.1214/ss/1177010269

Оберман, Х. И., Ван Бюрен, С., Винк, Г. (2020). Отсутствует

, точка: Несходимость в алгоритме итеративного вменения —

ритмов. Https://openreview.net/pdf? Id = fHSVg6mVqpw.

Пинейро, Дж. (2020). nlme: Линейные и нелинейные смешанные эффекты

модели. Пакет R версии 3.1-150. https: //CRAN.R-pro-

ject.org/package=nlme.

R Основная команда (2016).R: Язык и среда для статистических вычислений

. R Фонд для статистических вычислений

. http://www.R-project.org/.

Робитч А., Грунд С., Хенке Т. (июль 2020 г.). miceadds:

Некоторые дополнительные функции множественного вменения, особенно

для мышей. Пакет R версии 3.10-28. https: //CRAN.R-pro-

ject.org/package=miceadds.

Рубин Д. Б. (1987). Множественное вменение для неполучения ответов в опросах

. Эд.Дональд Б. Рубин. (Том 81). Джон Уайли и

Сыновья. https://doi.org/10.1002/9780470316696

Рубин Д. Б. (2003). Вложенное множественное вменение NMES

через частично несовместимый MCMC. Statistica Neerlandica,

57 (1), 3–18. https://doi.org/10.1111/1467-9574.00217

10 X. M. KAVELAARS ET AL.

SCITEPRESS — ПУБЛИКАЦИИ ПО НАУКЕ И ТЕХНОЛОГИЯМ

SCITEPRESS — ПУБЛИКАЦИИ ПО НАУКЕ И ТЕХНОЛОГИЯМ

До Ким, Джин Чой

Аннотация

В реальном наборе данных данные могут отсутствовать по разным причинам.С этими пропущенными значениями следует обращаться, поскольку большинство методов анализа данных предполагают, что набор данных полный. Метод удаления данных может быть простой альтернативой, но он не подходит для набора данных с большим количеством пропущенных значений и может быть недостаточно репрезентативным. Кроме того, существующие методы вменения данных обычно игнорируют важность локального пространства вокруг пропущенных значений, что может повлиять на качество вмененных значений. Основываясь на этих наблюдениях, мы предлагаем метод вменения с использованием дескриптора гипер-прямоугольника (ܪܴܦ), который может фокусироваться на локальном пространстве вокруг пропущенных значений.Мы описываем, как можно выполнить условное исчисление данных с помощью ܪܴܦ, названного ܪܴܦ_Ý… Ý ‰’Ý Ý, и проверяем эффективность предложенного метода условного исчисления с помощью численного эксперимента путем сравнения с результатами условного исчисления без ܪܴܦ. Также в качестве будущей работы изображаем некоторые идеи для дальнейшего развития нашей работы.

Скачать
Цитата из статьи

в гарвардском стиле

Ким Д. и Чой Дж.(2019). Эффективный метод вменения для отсутствующих данных с фокусом на локальном пространстве, сформированном гипер-прямоугольными дескрипторами .In Труды 8-й Международной конференции по исследованию операций и корпоративным системам — Том 1: ICORES, ISBN 978-989-758-352-0 , страницы 467-472. DOI: 10.5220 / 0007582104670472


в стиле Bibtex

@conference {icores19,
author = {Do Kim and Jin Choi},
title = {Эффективный метод вменения недостающих данных с фокусом на локальном пространстве, образованном гипер-прямоугольными дескрипторами},
booktitle = {Труды 8-й Международной конференции по Исследование операций и корпоративные системы — Том 1: ICORES,},
год = {2019},
страниц = {467-472},
publisher = {SciTePress},
organization = {INSTICC},
doi = {10.5220/0007582104670472},
isbn = {978-989-758-352-0},
}


в стиле EndNote

TY — CONF

JO — Труды 8-й Международной конференции по исследованию операций и корпоративным системам — Том 1: ICORES,
TI — Эффективный метод импутации для отсутствующих данных с фокусом на локальном пространстве, сформированном гипер-прямоугольными дескрипторами
SN — 978- 989-758-352-0
AU — Ким Д.

Опубликовано в категории: Разное

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

2019 © Все права защищены.