Перечень отчетов для ИП в 2019 году
Представляем информацию, которую мы условно разобьем на четыре группы:
1) Отчеты в зависимости от выбранной системы налогообложения;
2) Отчеты в зависимости от того, есть у ИП наемные работники или нет;
3) Отчеты по прочим налогам;
4) Отчеты в статистику.
Какие отчеты надо сдавать предпринимателю в зависимости от системы налогообложения?
Система налогообложения для ИП |
Вид отчетности |
Сроки подачи отчетности для ИП |
ОСНО – общепринятая система налогообложения |
Декларация по НДС |
По итогам каждого квартала до 25 числа месяца (включительно), следующего за отчетным кварталом. |
Форма 4-НДФЛ |
Сдается после фактического появления доходов от хозяйственной деятельности в течение 5 дней после окончания месяца, в котором появились доходы. Примечание: На основании декларации ФНС рассчитывает авансовые платежи по НДФЛ на текущий год. Если ИП работает не первый год и значительных колебаний дохода в текущем году не планируется – форма не сдается (авансы рассчитываются по данным формы 3-НДФЛ за предыдущий период). Если в течение текущего года произошел резкий скачок дохода (увеличение или падение более чем на 50%) – подается корректирующая декларация для перерасчета авансов по налогу |
|
Форма 3-НДФЛ |
По итогам календарного года до 30 апреля следующего года. За 2018 год подается не позднее 2 мая 2019 года. |
|
УСН – «упрощенка» |
Декларация УСН |
По итогам года до 30 апреля следующего года. За 2018 год подается не позднее 2 мая 2019 года. |
ЕНВД – «вмененка» |
Декларация по ЕНВД |
По итогам квартала не позже 20 числа месяца, идущего за отчетным кварталом |
ЕСХН |
Декларация по ЕСХН |
По итогам года до 31 марта следующего года включительно. За 2018 год подается не позднее 2 апреля 2019 года. |
Патент |
Отчеты сдавать не надо |
Далее, «разбивка» отчетов идет в зависимости от того, есть у ИП наемные работники или нет.
Если у предпринимателя нет наемных работников, тогда он не сдает отчеты, о которых мы будем говорить ниже.
Если у предпринимателя есть наемные работники, тогда он обязан сдавать отчеты в три инстанции:
– налоговую инспекцию,
– пенсионный фонд,
– фонд социального страхования.
Список отчетов в ИФНС:
1) Сведения о среднесписочной численности работников по итогам года. Сдавать следует по итогам года не позже 20 января, следующего за отчетным.
2) Расчет 6-НДФЛ – сдавать надо четыре раза в год, по итогам каждого квартала. Порядок представления отчета.
3) Сведения по форме 2-НДФЛ – сдавать следует по итогам года. Порядок и сроки представления.
4) Расчет по страховым взносам – сдавать надо четыре раза в год, по итогам каждого квартала. Порядок представления отчета.
Список отчетов в ПФР:
1) СЗВ-М – ежемесячная форма отчетности, которую надо представлять в срок не позднее 15 числа месяца, следующего за отчетным. Пример заполнения СЗВ-М.
2) СЗВ-СТАЖ, ОДВ-1 – по итогам года до 1 марта года, идущего за отчетным. При подаче работником заявления о выходе на пенсию – в течение 3 дней с момента обращения лица к работодателю.
Отчеты в ФСС:
1) Расчет 4-ФСС – сдавать надо четыре раза в год, по итогам каждого квартала. Порядок представления отчета.
2) Заявление о подтверждении основного вида деятельности по итогам года – представляется раз в год. Образцы, примеры заполнения.
Предприниматель вправе вести деятельность, которая попадает под обложение иными налогами и сборами и на этом основании придется сдавать следующую отчетность:
– Декларацию по водному налогу,
– Декларацию по акцизам,
– Декларацию по НДПИ,
– Сведения и выданных разрешениях на добычу животных,
– Сведения о количестве объектов, изъятых из среды обитания,
– Сведения о выданных разрешениях и суммах сбора к уплате,
– Расчет платежей за пользование недрами.
Отчеты в статистику
Сдавать статистическую отчетность обязаны:
1) ИП, относящиеся к малому бизнесу, которые попали в выборку Росстата,
2) ИП, относящиеся к среднему или крупному бизнесу. Предпринимателям органы статистики рассылают соответствующие уведомления. Проверить, должен ли коммерсант сдавать статистические отчеты, можно самостоятельно на сайте: statreg.gks.ru
Для того, чтобы разобраться, какие отчеты надо представить, советуем почитать нашу статью «Отчеты в статистику: как не получить штраф?».
КБК по ЕНВД для ИП в 2019 году: таблица
Какие КБК для ИП в 2019 году для уплаты? Это новые КБК для ИП? Поясним в таблице.
Таблица для ИП
КБК | Расшифровка |
---|---|
182 1 05 020 10 02 1000 110 | КБК по ЕНВД |
182 1 05 020 10 02 2100 110 | КБК пени ЕНВД 2019 |
182 1 05 020 10 02 3000 110 | КБК для уплаты штрафа по ЕНВД |
Отчетность (ЕНВД) для ИП в 2019 году
Период | Срок сдачи ЕНВД |
---|---|
4 квартал 2018 года | 21 января 2019 года |
1 квартал 2019 года | 22 апреля 2019 года |
2 квартал 2019 года | 22 июля 2019 года |
3 квартал 2019 года | 21 октября 2019 года |
За непредставление налоговой декларации по ЕНВД в 2019 году в установленные сроки предусмотрено начисление штрафа в размере 5% от суммы налога, подлежащего уплате, но не более 30% от данной суммы налога и не менее 1 000 рублей (п. 1 ст. 119 НК РФ).
ЕНВД: сроки уплаты для ИП 2019
Единый налог уплачивается в бюджет ежеквартально не позднее 25-го числа месяца следующего за кварталом (п. 1 ст. 346.32 НК РФ).
Период | Срок уплаты ЕНВД |
---|---|
4 квартал 2018 года | 25 января 2019 года |
1 квартал 2019 года | 25 апреля 2019 года |
2 квартал 2019 года | 25 июля 2019 года |
3 квартал 2019 года | 25 октября 2019 года |
За неуплату единого налога предусмотрено начисление штрафа в размере 20% от суммы задолженности по налогу (п. 1 ст. 122 НК РФ). Он грозит при неправильном отражении налога в декларации, приведшем к неуплате налога.
КБК ЕНВД 2019-2020 для ИП, пени, штрафы
В данной статье раскрыты особенности оплаты КБК ЕНВД 2019 для ИП. Указываются сроки и коды бюджетной организации для отправки оплаты.
Единый вмененный налог заменяет стандартные разрозненные платежи и облегчает нагрузку на малый бизнес. Чтобы не допустить ошибку при выплате, необходимо использовать КБК ЕНВД 2019 для ИП — цифровое обозначение бюджетного учреждения.
Куда платить ЕНВД
ФНС — орган, который отвечает за контроль налогообложения. Служба имеет подразделения в населенных пунктах. Выбор отделения для оплаты осуществляется по территориальному принципу с использованием ЕНВД КБК. Установлена общая норма: налог платится по месту осуществления деятельности.
Исключения из правила:
- грузоперевозки;
- транспортировка пассажиров;
- реклама, которая размещена на транспортных средствах;
- развозная торговля;
- оплаты страховых взносов за работников.
Обе категории оплачиваются по месту регистрации ИП. Остальные виды деятельности, от бытовых и ветеринарных услуг до передачи торговой точки в аренду, подпадают под действие главной нормы.
Когда платить ЕНВД индивидуальным предпринимателям
Согласно законодательству, плательщик обязан своевременно погашать налоговые задолженности перед государством. ЕНВД — не исключение. Конкретные сроки уплаты закреплены в НК РФ (ст.346.32). Периодом признается квартал. Крайний день — 25 число месяца, следующего за последним налоговым периодом.
Срок уплаты в 2019 году
Правила не менялись. Изменений в сроках не произошло. Предусмотрено 4 квартала. По итогам каждого квартала коммерсант обязан оплатить ЕНВД.
Действовали следующие даты:
Четвертый квартал 2017 года | До 25 января 2018 года |
Первый квартал 2018 года | До 25 апреля 2018 года |
Второй квартал 2018 года | До 25 июля 2018 года |
Третий квартал 2018 года | До 25 октября 2018 года |
Последний день оплаты не приходился на рабочий день. Предприниматели платили по стандартной схеме, без переноса на рабочие будни. Обратите внимание на время подачи декларации. Срок отличается от непосредственной уплаты налога — до 20 числа соответствующих месяцев. Иными словами, акт подается раньше, чем оплата обязанности.
Срок уплаты в 2020 году
Нормы сохранятся. Причем ни один день не будет праздничным — коммерсанты платят по стандартной схеме в соответствии с КБК для оплаты ЕНВД в 2019 году. Кварталы заканчиваются аналогичным образом — в январе, апреле, июле и октябре соответственно. Сроки подачи декларации также не изменились.
Четвертый квартал 2018 года | До 25 января 2019 года |
Первый квартал 2019 года | До 25 апреля 2019 года |
Второй квартал 2019 года | До 25 июля 2019 года |
Третий квартал 2019 года | До 25 октября 2019 года |
КБК по ЕНВД для уплаты налогов, пени и штрафов ИП 2019-2020
Код бюджетной организации зависит от целей оплаты. Данные представлены в следующей таблице:
ЕНВД в 2020 году для ИП КБК (код самого налога) | 182 1 05 02010 02 1000 110 |
Код штрафа | 182 1 05 02010 02 3000 110 |
КБК пени ЕНВД | 182 1 05 02010 02 2100 110 |
Пени — санкция, которая ежедневно начисляется за просрочку оплаты обязательства. В отличие от пени, штраф назначается за конкретное нарушение. Несмотря на непосредственное отношение санкций к «вмененке», КБК штрафов и пени отличается от кода самого налога. Рекомендуется сохранить данные, чтобы не перепутать направление денег.
Образец платежного поручения на уплату ЕНВД
Банком России в 2012 году было выпущено Положение № 383, которое утвердило унифицированную форму.
Содержание акта:
- дата составления и вид платежа;
- сведения об ИП, его наименование и ИНН;
- информация о получателе (указать БИК, ИНН и КПП;
- сумма оплаты числом и прописью.
Так как у индивидуального предпринимателя отсутствует КПП, то в поле указывается «0». Документ составляется в печатном виде на материальном носителе. Допустимо подготовить поручение в электронном формате. Для удобства восприятия ниже представлен образец платежного поручения, который поможет избежать ошибок и опечаток при заполнении.
Налоговый календарь на июнь 2019 года
В июне предпринимателей ждет четыре отчетных даты — 17, 20, 25 и 28 числа. Как всегда в первую очередь необходимо отчитаться работодателям: предоставить в контролирующие органы отчеты и уплатить страховые взносы за сотрудников.
Кроме того, организациям и некоторым индивидуальным предпринимателям предстоит совершить авансовые платежи по налогам на прибыль и НДС, а также представить декларацию и уплатить косвенный налог по импортированным товарам за май 2019 года. Подробнее о том, кому и какие отчеты необходимо подготовить — в налоговом календаре Фингуру. Выберите форму своего бизнеса с помощью меню и проверьте, что нужно подготовить именно вам, спланируйте свое время и подготовьте нужные документы.
Добавьте нужный налоговый календарь в свой Google-календарь, нажав соответствующую кнопку под таблицей. Кстати, от индивидуальных предпринимателей без сотрудников на спецрежимах в этом месяце не требуется никаких отчетов и платежей.
Содержание:
Налоговый календарь для ООО
Организации на ОСНО
Организации на УСН, ЕНВД, ЕСХН
ООО на ОСНО
ООО на УСН, ЕНВД и ЕСХН
Налоговый календарь для ИП (с сотрудниками)
ИП (с сотрудниками) на ОСНО
ИП (с сотрудниками) на УСН, ЕНВД, ЕСХН
ИП на ОСНО (с сотруд.)
ИП на УСН, ЕНВД и ЕСХН (с сотруд.)
Налоговый календарь для ИП (без сотрудников)
ИП (без сотрудников) на ОСНО
ИП (без сотрудников) на УСН, ЕНВД, ЕСХН
ИП на ОСНО (без сотруд.)
ИП на УСН, ЕНВД и ЕСХН (без сотруд.)
2622
Хочу все знать!Свежие статьи про то, как экономить на полезных сервисах и получать удовольствие от ведения бизнеса
Новости, какие изменения ЕНВД произойдут в 2019 году
Один из законопроектов от 2011 года предлагал отменить ЕНВД в 2014 году. Рекомендованная альтернатива – переход на патентную систему. Но тогда инициативу не поддержали. Повторно вопрос подняли в 2012 году, когда налоговое законодательство было изменено внесением поправок. По ним ЕНВД должен был исчезнуть в 2018 году. Но в 2016 году правительство решило перенести момент отмены налога на 2021 год.
О налоге
Под аббревиатурой ЕНВД скрывается единый налог на вмененный доход, который был введен в 2003 году вместе с новым Налоговым кодексом. Суть его заключается в возможности выбора особого режима налогообложения. Он доступен не для всех предпринимателей, только для некоторых категорий. Например, для тех, кто связан с:
- ремонтом и прочими бытовыми услугами;
- розничной торговлей;
- общепитом;
- ветеринарными услугами;
- и так далее.
Полный список в каждом субъекте РФ выглядит по-разному. У регионов есть право блокировать ЕНДВ в пределах их территории.
Основные характеристики ЕНВД:
- фиксированный размер (15% от вмененного дохода) не зависит от фактического дохода и прибыли. Учитывается только текущий вид деятельности и различные коэффициенты на повышение или понижение ставки;
- кратность уплаты в местный бюджет: 1 раз в 3 месяца;
- бизнес освобожден от уплаты почти всех сборов и иных налогов;
- допускается работа без кассового аппарата, так как рассчитывать прибыль не придется.
Такие льготные и удобные условия благоприятно действуют на развитие малого бизнеса, а значит и на российскую экономику в целом. При этом крупные компании не имеют права использовать ЕНВД. Есть и другие ограничения на право применения ЕНВД.
Статистика Минфина говорит о невероятной популярности данного режима начисления налогов. Только за 2017 год количество использовавших его предпринимателей превысило 2 миллиона, государственная казна получила огромную сумму: чуть более 50 миллиардов налоговой базы.
Отменят ли ЕНВД
С отменой ЕНВД согласны далеко не все, проходят бурные обсуждения, дискутируют на всех уровнях, в том числе и в правительстве. Немалое число экономистов и ИП утверждает, что эта система максимальна удобна для малого и иногда среднего (если бизнес подпадает под установленные условия) предпринимательства, на недостатки не стоит обращать внимания, так как достоинства их перекрывают. У патентной системы, на которую предлагают переходить, минусов гораздо больше. При замене одного способа налогообложения на другой появится много проблем. Например, режимы отчасти действуют для разных видов деятельности, их перечни не совпадают. То есть не все смогут перейти с ЕНВД на патентный режим.
Попытки перехода на виртуальные кассы также не были успешными, слишком много технических и административных препятствий.
У вмененного налога нашлись еще защитники, несколько депутатов и политиков выносили на обсуждение возможность сохранения ЕНВД в прежнем виде на долгие годы, желательно навсегда. Но к ним не прислушались.
Среди некоторых специалистов в финансовой сфере и чиновников бытует мнение, что эффективность ЕНВД практически равна нулю. Свою точку зрения они аргументируют несправедливым распределением налоговой нагрузки среди предпринимателей: показатели дохода и прибыли зачастую отличаются в разы, при этом отчисления в налоговую одинаковые. Также нельзя забывать, что бизнес может быть связан с разными видами деятельности, поэтому внутри ведется раздельный учет.
Что может измениться в 2019 году
Отсрочка отмены ЕНВД уже закреплена в принятом законе, но дискуссии не умолкают. Часто встречается необоснованный слух об отмене ЕНВД уже с 2019 года. От властей регулярно поступают рекомендации о необходимости срочного перехода с «вмененки» на УСН или патентную систему начисления налогов. Но у этих альтернатив есть существенные недостатки по сравнению с ЕНДВ:
- все доходы ИП обязательно будут учтены. Кассовая техника закупается в обязательном порядке (или подключаются онлайн кассы), а это дополнительные расходы и сложности;
- существует лимит на максимальный доход ИП, при его превышении указанные альтернативные системы налогообложения запрещено использовать.
Если же предприниматель пользуется ЕНВД, то его прибыль и доходы не обязаны вписываться в жесткие фиксированные рамки, их вообще не считают и нигде не учитывают.
Внесение недостающих сетевых данных: несколько простых процедур
Барабаши, А-Л. и Альберт Р. (1999). Появление масштабирования в случайных сетях. Наука, 286, 509–512.
Бур П., Хьюсман М., Снайдерс Т.А.Б., Стеглич C.E.G., Вичерс Л.Х.Й. и Зеггелинк E.P.H. (2006). StOCNET: открытая программная система для расширенного статистического анализа социальных сетей. Версия 1.7. Гронинген: ICS / SiencePlus. http://stat.gamma.rug.nl/stocnet/.
Боргатти, С.П. и Молина, Дж.Л. (2003). Этические и стратегические вопросы в организационном анализе социальных сетей. Журнал прикладной поведенческой науки, 39, 337–349.
Берт, Р. (1987a). Примечание об отсутствии сетевых данных в общем социальном опросе. Социальные сети, 9, 63–73.
Берт, Р.С. (1987b). Социальное заражение и инновации: сплоченность против структурной эквивалентности. Американский журнал социологии, 92, 1287–1335.
Баттс, C.T. (2003). Сетевой вывод, ошибка и (неточность) информатора: байесовский подход.Социальные сети, 25, 103–140.
Костенбадер, Э. и Валенте, Т.В. (2003). Стабильность показателей центральности при выборке сетей. Социальные сети, 25, 283–307.
Габбай, С. и Цукерман, E.W. (1998). Социальный капитал и возможности в корпоративных исследованиях и разработках: непредвиденный эффект плотности контактов при ожиданиях мобильности. Исследования в области социальных наук, 27, 189–217.
Ghani, A.C., Donnelly, C.A. и Гарнетт, Г. (1998). Предвзятость выборки и отсутствие данных в исследованиях сетей половых партнеров по распространению заболеваний, передающихся половым путем.Статистика в медицине, 17, 2079–2097.
Джайл К. и Хэндкок М.С. (2006). Модельная оценка влияния отсутствующих данных на логический вывод для сетей. Рабочий документ CSSS No. 66, Вашингтонский университет, Сиэтл. (http://www.csss.washington.edu/Papers/wp66.pdf)
Гольдштейн, Дж. Р. (1999). Сети родства, пересекающие расовые линии: исключение или правило? Демография, 36, 399–407.
Handcock, M.S. и Джайл, К. (2007). Моделирование социальных сетей с выборочными или отсутствующими данными.Рабочий документ CSSS No. 75, Вашингтонский университет, Сиэтл. (http://www.csss.washington.edu/Papers/wp75.pdf)
Huisman, M. и Steglich, C.E.G. (2008). Обработка отсутствия ответа в продольных сетевых исследованиях. Социальные сети, 30, 297–308.
Huisman, M. и van Duijn, M.A.J. (2005). Программное обеспечение для анализа социальных сетей. В Carrington, P.J., Scott, J., and Wasserman, S. (Eds.), Models and Methods in Social Network Analysis, pp. 270–316. Издательство Кембриджского университета, Кембридж.
Косинец Г. (2006). Эффекты отсутствия данных в социальных сетях. Социальные сети, 28, 247–268.
Коскинен, Дж. (2007). Подгонка моделей под социальные сети с недостающими данными. Доклад, представленный на Sunbelt XXVII, Международной конференции социальных сетей Sunbelt, 1–6 мая 2007 г., Корфу, Греция.
Литтл, Р.А.Дж. и Рубин, Д. (1987). Статистический анализ с отсутствующими данными. Нью-Йорк: Вили.
Макнайт, П.Е., Макнайт, К.М., Сидани, С., и Фигередо, А.Дж. (2007). Недостающие данные. Нежное введение. Нью-Йорк: Guildford Press.
Ньюман, M.E.J. (2003). Смешивание паттернов в сетях. Physical Review E, 67, 026126.
Ньюман М.Э.Дж., Строгац С.Х. и Уоттс Д.Дж. (2001). Случайные графы с произвольными распределениями степеней и их приложения. Physical Review E, 64, 026118.
Пирсон, М. и Уэст, П. (2003). Дрейфующие кольца дыма: анализ социальных сетей и марковские процессы в лонгитюдном исследовании групп дружбы и принятия риска.Связи, 25, 59–76.
Робинс, Г., Паттисон, П., и Вулкок, Дж. (2004). Отсутствующие данные в сетях: модели экспоненциального случайного графа (p ∗) для сетей с не респондентами. Социальные сети, 26, 257–283.
Рубин, Д. (1976). Вывод и недостающие данные. Биометрика, 63, 581–592.
Рубин, Д. (1987). Множественное вменение за неполучение ответов в опросах. Нью-Йорк: Вили.
Sande, I.G. (1982). Вменение в опросах: как справиться с реальностью. Американский статистик, 36, 145–152.
Шафер, Дж. Л., Грэм, Дж. У. (2002). Отсутствующие данные: наш взгляд на состояние дел. Психологические методы, 7, 147–177.
Снайдерс, T.A.B. (2005). Модели для продольных сетевых данных. В Carrington, P.J., Scott, J., and Wasserman, S. (Eds.), Models and Methods in Social Network Analysis, pp. 215–247. Издательство Кембриджского университета, Кембридж.
Steglich, C.E.G., Snijders, T.A.B., and West, P. (2006). Применение SIENA: наглядный анализ совместной эволюции дружеских связей подростков, музыкальных вкусов и потребления алкоголя.Методология, 2, 48–56.
Стейнли Д. и Вассерман С. (2006). Приблизительное распределение нескольких общих статистических данных: проверка гипотез применительно к террористической сети. Труды Американской статистической ассоциации, Статистические приложения в обороне и национальной безопасности. Санта-Моника, Калифорния: Rand Corporation.
Сторк Д. и Ричардс В. Д. (1992). Не респонденты в исследованиях сетей связи. Управление группами и организациями, 17, 193–209.
Ван де Бунт, Г.Г. (1999). Друзья по выбору. Ориентированная на акторов статистическая сетевая модель для сетей дружбы во времени. Амстердам: Издательство Тезисов.
Ward, M.D., Ho, P.D., and Lofdahl, C.L. (2003). Выявление международных сетей: скрытые пространства и вменение. В: Брейгер, Р., Карли, К., и Паттисон, П. (ред.), Динамическое моделирование и анализ социальных сетей: итоги семинара и документы, стр. 345–360. Вашингтон: Национальная академическая пресса.
Вассерман, С. и Фауст, К. (1994).Анализ социальных сетей. Методы и приложения. Кембридж: Издательство Кембриджского университета.
ГИБРИДНАЯ МНОЖЕСТВЕННАЯ ИМПУТАЦИЯ В БОЛЬШОМ МАСШТАБЕ КОМПЛЕКСНОГО ИССЛЕДОВАНИЯ
АНДЕРСОН А. Б., БАСИЛЕВСКИЙ А., ХУМ Д. П. (1983). Отсутствующие данные: обзор литературы. В J. D. W. P. H. Rossi и A. B. Anderson (Eds.), Handbook of Survey Research, New York: Academic Press.
АРНОЛЬД, Б. С., ПРЕСС, С. Дж. (1989). Совместимые условные распределения. Журнал Американской статистической ассоциации, 84, стр.152–156.
АЛЛИСОН, П. Д., (2000). Множественное вменение недостающих данных: поучительная история. Социологические методы и исследования, 28, с. 301–309.
AKE, C. F., (2005). Округление после множественного вменения с недвоичными категориальными ковариатами (статья 112-30). В материалах тринадцатой ежегодной международной конференции группы пользователей SAS, SAS Institute Inc., Кэри, Северная Каролина, стр. 1–11.
ЭНДРИДЖ Р. Р. (2009). Статистические методы поиска недостающих данных в сложных выборочных обследованиях.Кандидатская диссертация, Мичиганский университет.
АКМАТОВ М.К., (2011). Жестокое обращение с детьми в 28 развивающихся странах и странах с переходной экономикой — результаты кластерных обследований по множественным показателям, Int J Epidemiol, 40 (1), стр. 219–27.
АНКАЙЯ Н., РАВИ В. (2011). Новый гибрид мягких вычислений для вменения данных, Труды 7-й международной конференции по интеллектуальному анализу данных (DMIN), Лас-Вегас, США.
АЗИМ, С., АГГАРВАЛ, С. (2014). Гибридная модель для вменения данных: с использованием нечетких c-средних и многослойного персептрона.Конференция по передовым вычислениям (IACC), 2014 IEEE International. IEEE, стр. 1281–1285.
AUDIGIER, V., HUSSON, F., JOSSE, J., (2016). Метод главных компонентов для вменения пропущенных значений для смешанных данных, Advances in Data Analysis and Classification, 10 (1), pp. 5–26.
AKANDE, O., LI, F., REITER, J., (2017). Эмпирическое сравнение нескольких методов вменения для категориальных данных, Amer. Статист, 71, стр. 162–170.
ARMINA, R., ZAIN, A.M., ALI, N.A., SALLEHUDDIN, R., (2017). Обзор оценки пропущенных значений с использованием алгоритма вменения, Journal of Physics: Conference Series, 892, pp. 012004.
AUDIGIER, V., WHITE, IR, JOLANI, S., DEBRAY, T., QUARTAGNO, M., CARPENTER, J., ESCHE-RIGON, M., (2017a), Множественное вменение для многоуровневых данных с непрерывными и двоичными переменные, препринт arXiv, arXiv: 1702.00971.
AUDIGIER, V., HUSSON, F., JOSSE, J., (2017b). MIMCA: множественное вменение категориальных переменных с анализом множественных соответствий.Статистика и вычисления, 27, стр. 501–518.
БРЕЙМАН, Л., (2001). Случайные леса. Машинное обучение, 45 (1), стр. 5–32.
BERNAARDS, C. A., BELIN, T. R., SCHAFER, J. L., (2007). Устойчивость многомерного нормального приближения для вменения неполных двоичных данных, Статистика в медицине, 26, стр. 1368–1382.
БЮРЖЕТ, Л. Ф., РЕЙТЕР, Дж. П. (2010). Множественное вменение отсутствующих данных с помощью деревьев последовательной регрессии. Американский журнал эпидемиологии, Oxford University Press, 172 (9), стр.1070–6.
ЧИБ, С., Гамильтон, Б. Х. (2002). Полупараметрический байесовский анализ моделей обработки продольных данных, Journal of Econometrics, 110, стр. 67–89.
КАППА, К., ХАН, С.М., (2011). Понимание отношения опекунов к физическому наказанию детей: данные из 34 стран с низким и средним уровнем дохода, Child Abuse Negl, 35 (12), pp. 1009–21.
ДАНСОН, Д. Б., СИН, К., (2009). Непараметрическое байесовское моделирование многомерных категориальных данных, Журнал Американской статистической ассоциации, 104, стр.1042-1051.
ДЭНГ, Ю., ЧАНГ, К., ИДО, М.С., ЛОНГ, К., (2016). Множественное вменение для общих шаблонов отсутствующих данных при наличии многомерных данных. Научные отчеты, 6.
DOOVE, LISA, L., VAN BUUREN, S., ELISE, D., (2014). Рекурсивное разбиение для импутации отсутствующих данных при наличии эффектов взаимодействия, вычислительной статистики и анализа данных, Elsevier, 72, стр. 92–104.
ЕРОШЕВА Е.А., ФИЕНБЕРГ С.Э., ЮНКЕР Б.В. (2002). Альтернативные статистические модели и представления для больших разреженных многомерных таблиц непредвиденных обстоятельств, Annales de la Faculté des Sciences de Toulouse, 11, стр.485–505.
ФИЧМАН, М., КАММИНГС, Дж. Н. (2003). Множественное вменение отсутствующих данных: максимальное использование того, что вы знаете, методы организационного исследования, 6 (3), стр. 282–308.
Финч, В. Х., (2010). Методы вменения недостающих категориальных данных анкеты: сравнение подходов. Журнал науки о данных, 8, стр. 361–378.
ГЕЛЬМАН А., СКОРОСТЬ Т. П. (1993). Характеристика совместного распределения вероятностей с помощью условных выражений, Журнал Королевского статистического общества, серия B: Статистическая методология, 55, стр.185–188.
GRAHAM, J. W., SCHAFER, J. L., (1999). О выполнении множественного вменения для многомерных данных с малым размером выборки. В Р. Х. Хойле (ред.), Статистические стратегии для исследования малых выборок, Thousand Oaks, CA: Sage, pp. 1-29.
ЖЕНЕВЬЕВЕ, Р., ОЛЬГА, К., ДЖУЛИ, Дж., ЭРИК М., РОБЕРТ, Т. (2018). Основные эффекты и взаимодействия в смешанных и неполных фреймах данных. Препринт arXiv, arXiv: 1806.09734.
HASTIE, T., TIBSHIRANI, R., FRIEDMAN, J., (2001).Элементы статистического обучения; Интеллектуальный анализ данных, вывод и прогнозирование, второе изд. Springer Verlag, Нью-Йорк.
ХИРАНО, К., (2002). Полупараметрический байесовский вывод в моделях авторегрессионных панельных данных. Econometrica, 70, pp. 781–799.
HAREL, O., SCHAFER, J. L., (2003). Множественное вменение в два этапа. Труды исследовательской конференции Федерального комитета по статистической методологии, Вашингтон, округ Колумбия,
HORTON, N.J., LIPSITZ, S.P., PARZEN, M., (2003). Возможность систематической ошибки при округлении при множественном вменении. Американский статистик, 57, стр. 229–232.
ГАРЕЛЬ, О., (2007). Выводы об отсутствующей информации при множественном вменении и двухэтапном множественном вменении. Статистическая методология, 4, стр. 75–89.
HE, Y., (2010). Отсутствие анализа данных с использованием множественного вменения: вникаем в суть вопроса. Circ Cardiovasc Qual Outcomes, 3, стр. 98–105.
ХАСТИ, Т., МАЗУМДЕР, Р., ЛИ, Д. Д., ЗАДЕ, Р., (2015). Завершение матриц и svd низкого ранга с помощью быстро меняющихся наименьших квадратов, J. Mach. Учиться. Res., 16 (1), pp. 3367–3402.
ДЕРЖАТЕЛЬ, Л., (2015). Множественное вменение в условиях комплексного обследования: сравнение методов изучения поведения в отношении здоровья у детей школьного возраста, Королевский университет
HUSSON, F., J. JOSSE, B. NARASIMHAN, G. ROBIN., (2018). Расчет смешанных данных с многоуровневым разложением по сингулярным числам, электронные отпечатки arXiv, arXiv: 1804.11087.
IACUS, S.М., ПОРРО, Г., (2007). Вменение отсутствующих данных, сопоставление и другие применения случайного рекурсивного разбиения. Comput. Статист. Data Anal, 52, стр. 773–789.
ИАКУС, С.М., ПОРРО, Г., (2008). Инвариантные и свободные от метрики близости для сопоставления данных: пакет R. J. Stat. Softw, 25, стр. 1–22.
КИМ, Х., ЛОХ, У.Ю. (2001). Деревья классификации с несмещенными многовариантными разбиениями. Журнал Американской статистической ассоциации, 96, стр. 589–604.
КЮНГ, М., ГИЛЛ, Дж., CASELLA, G., (2010). Оценка в моделях случайных эффектов Дирихле. Анналы статистики, 38, стр.979–1009.
ВИРТ, К. Э., ЧЕТГЕН ЧЕТГЕН, Э. Дж. (2014). Учет систематической ошибки отбора в исследованиях ассоциаций со сложными данными опросов. Эпидемиология (Кембридж, Массачусетс), 25 (3), стр. 444–453.
LOH, W., SHIH, Y., (1997). Сплит-методы выбора для деревьев классификации. Statistica Sinica, 7, стр. 815–840.
МАЛЕНЬКИЙ, Р. Дж. А., РУБИН, Д. Б. (2002). Статистический анализ с отсутствующими данными (2 nd ed.). Нью-Йорк: Вили.
ЛИ, К.Дж., Галати, Дж. К., СИМПСОН, Дж. А., КАРЛИН, Дж. Б., (2012). Сравнение методов вменения порядковых данных с использованием многомерного нормального вменения: тематическое исследование нелинейных эффектов в большом когортном исследовании. Stat Med, 31 (30), стр. 4164–74.
LI, D., GU, H., ZHANG, L.Y., (2013). Гибридный генетический алгоритм с нечетким c-средним подходом для неполной кластеризации данных на основе интервалов ближайшего соседа. J. Soft Computing, 17, стр. 1787–1796.
LIANG, Z., ZHIKUI, C., ZHENNAN, Y., YUEMING, HU., (2015). Гибридный метод импутации неполных данных. 17-я Международная конференция IEEE 2015 г. по высокопроизводительным вычислениям и коммуникациям, 7-й Международный симпозиум IEEE 2015 г. по безопасности и защите киберпространства и 12-я Международная конференция IEEE 2015 г. по встроенному программному обеспечению и системам, Нью-Йорк, стр. 1725–1730.
LIYONG, Z., WEI, L., XIAODONG, L., WITOLD, P., CHONGQUAN, Z., LU, W., (2016). Подход глобальной кластеризации с использованием гибридной оптимизации для неполных данных на основе интервальной реконструкции недостающего значения, Международный журнал интеллектуальных систем, 31 (4), стр.297–313.
LOH, W. Y., ELTINGE, J., CHO, M., LI, Y., (2016). Классификация и методы дерева регрессии для неполных данных из выборочных обследований, препринт arXiv arXiv: 1603.01631.
ЛИ, К. Дж., КАРЛИН, Дж. Б. (2017). Множественное вменение при наличии ненормальных данных. Stat Med, 36 (4), стр. 606–17.
МАРКЕР, Д. А., ДЖУДКИНС, Д. Р., ВИНГЛИ, М. (2002), Крупномасштабное исчисление для комплексных обследований. Отсутствие ответа на опрос, Wiley: New York, стр. 329–341.
ЛУНЫ, К.Г. М., ДОНДЕРС, Р. А. Р. Т., СТИЙНЕН, Т., ХАРРЕЛЛ, Ф. Э., (2006). Было предпочтительнее использовать результат для вменения отсутствующих значений предикторов. J. Clin Epidemiol., 59 (10), стр. 1092–101.
МОРРИС, Т. П., ИАН, Р. В., ПАТРИК, Р., (2014). Настройка множественного вменения с помощью прогнозируемого среднего совпадения и локальных остаточных вытяжек. BMC Medical Research Methodology, BioMed Central, 14 (1), 75.
МАРШАЛЛ, Р. Дж., КИТСАНТАС, П., (2012). Стабильность и структура корзины и диапазона поиска сгенерировали разделы данных для анализа низкой массы тела при рождении.J. Data Sci, 10, стр. 61–73.
МЮРРЕЙ, Дж. С., РЕЙТЕР, Дж. П., (2016). Множественное вменение отсутствующих категориальных и непрерывных значений с помощью моделей байесовской смеси с локальной зависимостью. Журнал Американской статистической ассоциации, 111, стр. 1466–1479.
НОНЯН, Б.А.С., ФУЛКЕС, А.С., (2007). Множественное вменение и случайные леса (MIRF) для ненаблюдаемых многомерных данных. Int J Biostat, 3, стр. 1–18.
НИШАНТ, К. Дж., РАВИ, В., АНКАЙЯ, Н., БОЗ, И., (2012). Вменение на основе мягких вычислений и гибридный анализ данных и текста: случай прогнозирования серьезности фишинговых предупреждений. Expert Sys Appl, 39 (12), стр. 10583–10589.
НИШАНТ, К. Дж., РАВИ, В., (2013). Метод вменения онлайн-данных, основанный на вычислительном интеллекте: приложение для банковского дела. J. Inf. Процесс. Syst. 9. С. 633–650.
NIKFALAZAR, S., YEH C.H., BEDINGFIELD, S., KHORSHIDI, H.A., (2019). Гибридный метод вменения отсутствующих данных для построения индексов городской мобильности.В: Islam R. et al. (ред.) Data Mining. AusDM 2018. Коммуникации в компьютерных и информационных науках, Vol. 996. Спрингер, Сингапур.
ОБА, С., САТО, М., ТАКЕМАСА, И., МОНДЕН, М., МАЦУБАРА, К., ИШИИ, С., (2003). Байесовский метод оценки пропущенных значений для данных профиля экспрессии генов. Биоинформатика, 19, с. 2088–2096.
КВАНЛИ, В., ДАНИЭЛЬ, М.В., РЕЙТЕР, Дж. П., ДЖИГЧЕН, Х., (2018). NPBayesImputeCat: непараметрический байесовский множественный расчет для категориальных данных.Пакет R версии 0.1, https://CRAN.Rproject.org/package=NPBayesImputeCat.
РУБИН, Д. Б., (1987). Множественное вменение за неполучение ответов в опросах. Нью-Йорк: Джон Вили.
RAGHUNATHAN, T. W., LEPKOWKSI, J. M., VAN HOEWYK, J., SOLENBEGER, P. A., (2001). Многовариантный метод умножения пропущенных значений с использованием последовательности регрессионных моделей. Методология исследования, 27, стр. 85–95.
РУБИН, Д. Б., (2003). Вложенное множественное вменение NMES через частично несовместимый MCMC.Statistica Neerlandica, 57 (1), стр. 3–18.
REITER, J. P., DRECHSLER, J., (2007). Публикация синтетических данных с множественным условным исчислением, сгенерированных в два этапа, для защиты конфиденциальности. Документ для обсуждения IAB, 20, стр. 1–18.
REITER, J. P., RAGHUNATHAN, T. E., (2007). Множественные адаптации множественного вменения, Журнал Американской статистической ассоциации, 102, стр. 1462–1471.
РОДРИ´ГЕС, А., ДАНСОН, Д. Б., (2011). Непараметрические байесовские модели на основе пробит-ломких процессов.Байесовский анализ, 6, стр. 145–178.
R Основная команда (2018). R: Язык и среда для статистических вычислений, Фонд R для статистических вычислений, Вена, Австрия, https://www.Rproject.org/.
SCHAFER, J. L., (1997). Анализ неполных многомерных данных. Лондон: Чепмен и Холл.
STROBL, C., MALLEY, J., ZEILEIS, A., (2009). Введение в рекурсивное разбиение: обоснование, применение и характеристики деревьев классификации и регрессии, мешков и случайных лесов.Psychol. Методы, 14, с. 323–348.
СУ, Ю.С., ГЕЛЬМАН, А., ХИЛЛ, Дж., ЯДЖИМА, М., (2011). Множественные бвычисления с диагностикой (mi) в R: открытие окон в черный ящик. Журнал статистического программного обеспечения, 45 (2), стр. 1–31.
SEAMAN, S., BARTLETT, J., WHITE, I., (2012). Множественное вменение отсутствующих ковариат с нелинейными эффектами и взаимодействиями: оценка статистических методов. BMC Med Res Methodol, 12 (1), стр. 1–13.
СТЕХОВЕН, Д. Дж., БЮЛЬМАН, П., (2012). MissForest — непараметрическое вменение пропущенных значений для данных смешанного типа. Биоинформатика, 28, с.112–118.
С.И., Ю., РЕЙТЕР, Дж. П., (2013). Непараметрическое байесовское множественное вменение для неполных категориальных переменных в крупномасштабных оценочных обследованиях. Журнал образовательной и поведенческой статистики, 38, стр. 499–521.
ШАХ, А.Д., ДЖОНАТАН, В. Б., ДЖЕЙМС, К., ОУЕН, Н., ГАРРИ, Х., (2014). Сравнение моделей случайного леса и параметрического вменения для вменения отсутствующих данных с использованием мышей: исследование калибра.Американский журнал эпидемиологии, 179 (6). Oxford University Press, стр. 764–74.
ШУКУР О. Б., ЛИ М. Х. (2015). Подстановка пропущенных значений в суточные данные о скорости ветра с использованием гибридного метода AR-ANN. Современная прикладная наука.
ТЕМПЛ, М., АНДРЕАС, А., АЛЕКСАНДР, К., БЕРНД, П., (2012). VIM: Визуализация и вменение отсутствующих значений, http://cran.rproject.org/web/packages/VIM/VIM.pdf.
TING, J., YU, B., YU, D., MA, S., (2014). Анализ отсутствующих данных: гибридный алгоритм множественного вменения с использованием теории серых систем и энтропии, основанной на кластеризации, Прикладной интеллект, 40 (2), стр.376–388.
TANG, J., ZHANG, G., WANG, Y., WANG, H., LIU, F., (2015). Гибридный подход для интеграции метода вменения на основе нечетких C-средних с генетическим алгоритмом оценки недостающих данных об объеме трафика. Транспортные исследования, часть C: Новые технологии, 51, стр. 29–40.
ТОМАС, Л., (2019). mitools: Инструменты для множественного вменения отсутствующих данных. Пакет R версии 2.4, https://CRAN.R-project.org/package=mitools.
VAN BUUREN, S., OUDSHOORN, C.G.M., (1999). Гибкое многомерное вменение MICE. Tech. представитель, TNO Prevention and Health, Лейден.
ВАН БУРЕН, С., ГРУТУЙС-ОУДШУН, К., (2011). мышей: многомерное вычисление цепными уравнениями в журнале R. Journal of Statistical Software, 45 (3), стр. 1–67.
ВАН БУРЕН, С., (2007). Множественное вложение дискретных и непрерывных данных с помощью полностью условной спецификации. Статистические методы в медицинских исследованиях, Sage Publications Sage UK: Лондон, Англия, 16 (3), стр. 219–42.
ВЕРМУНТ, Дж. К., ВАН ГИНКЕЛЬ, Дж. Р., ВАН ДЕР АРК, Л. А., СИЙТСМА, К., (2008). Множественное вменение неполных категориальных данных с использованием анализа скрытых классов. Социологическая методология, 38, стр. 369–397.
ВАН БУРЕН, С., (2012). Гибкое вменение недостающих данных. Бока-Ратон: CRC Press.
БЕЛЫЙ И. Р., РОЙСТОН П., ВУД А. М. (2011). Множественное вменение с использованием связанных уравнений: проблемы и рекомендации для практики. Stat Med, 30 (4), стр. 377–99.
БЕЛЫЙ, I.Р., КАРЛИН, Дж. Б. (2010). Смещение и эффективность множественного вменения по сравнению с полным анализом пропущенных ковариантных значений. Stat Med, 29 (28), стр. 2920–31.
WEIRICH, S., HAAG, N., HECHT, M., BÖHME, K., SIEGLE, T., LÜDTKE, O., (2014). Вложенное множественное вменение в крупномасштабные оценки. Масштабная оценка. Образов., 2, с. 1–18.
XIE, X., MENG, X.-L., (2017). Анализ множественного вменения с точки зрения многоэтапного вывода: что происходит, когда модели Бога, импутера и аналитика несовместимы? Statistica Sinica 27, стр.1485–1594 (включая обсуждение).
ЮСЕЛЬ, Р.М., Х.Е., Ю., ЗАСЛАВСКИЙ, А.М., (2011). Основанные на Гауссе процедуры для вменения категориальных переменных в обследованиях состояния здоровья. Stat Med, 30 (29), стр. 3447–60.
ZHU, J., M., EISELE, M., (2013). Множественное вменение в комплексном обследовании домашних хозяйств, Немецкая группа по финансам домашних хозяйств (PHF): проблемы и решения. Руководство пользователя PHF.
ZHAO, Y., LONG, Q., (2016). Множественное вменение при наличии многомерных данных. Статистические методы в медицинских исследованиях, 25, стр.2021–2035 гг.
Алгоритм импутации данных о трафике, основанный на улучшенной декомпозиции матрицы низкого ранга
Данные о трафике играют очень важную роль в интеллектуальных транспортных системах (ИТС). ITS требует полных данных о трафике для контроля, управления, руководства и оценки перевозок. Однако данные о трафике, собранные с датчиков различных типов, часто содержат недостающие данные из-за повреждения датчика или ошибки передачи данных, что влияет на эффективность и надежность ИТС.Чтобы гарантировать качество и целостность данных о потоках трафика, очень важно предложить удовлетворительный метод вменения данных. Однако большинство существующих методов вменения не могут полностью учесть влияние данных датчиков с отсутствующими данными и пространственно-временных корреляционных характеристик транспортного потока на результаты вменения. В этой статье предлагается метод вменения данных трафика, основанный на улучшенном разложении матриц низкого ранга (ILRMD), который полностью учитывает влияние отсутствующих данных и эффективно использует характеристики пространственно-временной корреляции между данными трафика.Предлагаемый метод использует не только данные о дорожном движении вокруг датчика, включая недостающие данные, но также данные датчика с отсутствующими данными. Информация об отсутствующих данных отражается в матрице коэффициентов, а характеристики пространственно-временной корреляции применяются для получения более точных результатов вменения. Реальные данные трафика, собранные с помощью системы измерения эффективности Caltrans (PeMS), используются для оценки эффективности условного исчисления предлагаемого метода. Результаты экспериментов показывают, что средняя точность вменения с помощью предлагаемого метода может быть улучшена 87.07% по сравнению с SVR, ARIMA, KNN, DBN-SVR, WNN и традиционными методами MC, и это эффективный метод для вменения данных.
1. Введение
С быстрым развитием социальной экономики внедряются многие виды крупной дорожной инфраструктуры [1–4], но заторы на шоссе все еще существуют. Следовательно, необходимо собирать информацию о шоссе для удобства передвижения людей. С развитием информационных технологий становится возможным сбор информации о шоссе, и оборудование для сбора, используемое для автомагистралей, включает датчик Bluetooth, микроволновый датчик дистанционного движения, видеодатчики и детекторы петель.Однако данные о потоках трафика теряются в разной степени из-за повреждения датчика, неисправности или ошибок передачи и т. Д. Отсутствие данных затрудняет извлечение достоверной информации из данных трафика. Между тем, отсутствующие данные также являются препятствием в области прогнозирования трафика и времени в пути [5–8], а целостность данных о транспортных потоках является предпосылкой анализа данных в ИТС. Поэтому очень важно предложить эффективный метод вменения данных о трафике. В настоящее время появились различные методы вменения данных о потоках трафика.Эти методы вменения можно условно разделить на три категории: методы прогнозирования, методы интерполяции и методы статистического обучения [9].
Модели прогнозирования транспортных потоков [10–12] имеют решающее значение для управления дорожным движением в сложных дорожных сетях. Методы прогнозирования обычно создают прогнозные модели с историческими данными и обрабатывают отсутствующие данные как значения, которые необходимо прогнозировать. Существует множество способов построения моделей прогнозирования транспортных потоков, от простого вменения нулевого значения до сложных пространственно-временных моделей вменения [13].Репрезентативные методы прогнозирования включают в себя интегрированную модель авторегрессионного скользящего среднего (ARIMA) [14–16], байесовские сети (BN) [17–19] и поддержку векторной регрессии (SVR) [20, 21]. Elshenawy et al. [22] предложил интеллектуальный метод вменения данных с моделью ARIMA и представил механизм, основанный на алгоритме Хайндмана-Хандакара для определения параметров ARIMA. Sun et al. [23] разделили день на разные временные отрезки и использовали SVR для прогнозирования данных о транспортном потоке. Chen et al. [24] предложили авторегрессионную интегрированную скользящую среднюю с обобщенной авторегрессионной условной гетероскедастичностью (ARIMA-GARCH) для прогнозирования транспортного потока.Однако эти методы прогнозирования не смогли использовать информацию датчика с отсутствующими данными, что могло бы повлиять на точность вменения данных.
Методы интерполяции подразделяются на соседние по времени и соседние по шаблону [25]. Методы с соседними по времени методами восполняют недостающие данные известными данными с тех же датчиков в одно и то же суточное время, но в некоторые соседние дни [20, 26]. Методы соседства с образцом используют характеристики сходства ежедневных данных о транспортном потоке [27] и оценивают недостающие данные, используя исторические данные, собранные с одних и тех же датчиков в разные дни [17, 20].Типичные методы соседнего шаблона включают модель K-ближайших соседей (KNN) [28, 29] и модель локальных наименьших квадратов (LLS) [30, 31], и ключевая сложность этих методов состоит в том, чтобы определить соседей на соответствующем расстоянии. метрика [32, 33]. Nguyen et al. [34] использовали среднее значение исторических данных для оценки недостающих данных. Smith et al. [35] использовали исторические данные или данные из окружающих периодов и мест для вменения недостающих данных. Модель интерполяции предполагает, что данные о ежедневном потоке трафика аналогичны, но фактические данные о потоке трафика колеблются и изменяются со временем.Следовательно, невозможно получить удовлетворительные характеристики условного исчисления.
Метод, основанный на статистическом обучении, был разработан в последние годы. Этот метод в первую очередь предполагал модель распределения вероятностей данных трафика и использовал итерационные методы для оценки параметров распределения вероятностей. Затем наблюдаемые данные использовались для вменения недостающих данных. Методы статистического обучения включают вероятностный анализ главных компонентов (PPCA) [6, 9], байесовский анализ главных компонентов (BPCA) [26], метод нейронных сетей [36] и Монте-Карло цепи Маркова (MCMC) [37].MCMC — это типичный метод вменения, основанный на статистическом обучении. Основная идея метода MCMC рассматривает отсутствующие данные как целевой параметр и оценивает параметр по выборочным значениям параметра. Y Higashijima et al. [38] предложили метод вменения дерева регрессии и использовали метод предварительной обработки для повышения точности вменения. Wei et al. [39] предложили метод вменения на основе данных и использовали кластеризацию k-средних для группировки наиболее коррелированных участков дороги; Обученная модель способна оценить недостающие данные в нескольких местах в рамках единой структуры.Хотя методы, основанные на статистическом обучении, имеют сильную гипотезу о данных о трафике, их эффективность превосходит традиционные методы вменения [40], поскольку предполагаемое распределение вероятностей охватывает основные аспекты потока трафика.
Методы, основанные на прогнозировании и интерполяции, просто присваивают данным временную или пространственную корреляционную характеристику и учитывают только информацию исторических данных. Исторические методы вменения заполняют недостающие данные известными точками данных, собранными на одних и тех же датчиках в одно и то же ежедневное время, но в разные дни.Эти методы требуют более высокой стабильности исторических данных, но данные о потоках трафика обычно нестабильны и в некоторой степени колеблются в практических приложениях. Традиционный метод вменения устанавливает все отсутствующие данные в ноль и использует матрицу данных с заполнением нулями для участия в операции вменения данных, которая не может учитывать влияние отсутствующих данных датчика на результат вменения. Как правило, датчики, включающие недостающие данные, имеют наибольшую корреляцию с окончательными результатами вменения.Однако отсутствующие данные устанавливаются на ноль непосредственно в традиционном методе вменения, который игнорирует влияние отсутствующих данных на результаты вменения и снижает точность результатов вменения. Для решения вышеуказанных проблем предлагается метод вменения данных трафика, основанный на улучшенном разложении матриц низкого ранга (ILRMD). По сравнению с традиционным методом вменения, метод ILRMD полностью учитывает влияние отсутствующих данных в результатах вменения. В процессе вменения данных метод ILRMD не отбрасывает напрямую информацию об отсутствующих данных, и влияние отсутствующих данных отражается в матрице коэффициентов.Восстановленная матрица данных, умноженная на матрицу коэффициентов, содержащую информацию об отсутствующих данных, является результатом вменения. Метод ILRMD использует не только данные о трафике вокруг датчика, включая отсутствующие данные, но также данные датчика с отсутствующими данными. Информация, содержащаяся в недостающих данных, полностью учитывается, и характеристики пространственно-временной корреляции потока трафика используются адекватно. Результаты тестирования с данными о трафике, собранными с помощью системы измерения эффективности Caltrans (PeMS), показывают, что предложенный алгоритм имеет превосходную точность вменения.
Остальная часть этого документа организована следующим образом. В разделе 2 рассматривается соответствующая работа по условному исчислению данных о трафике и дается краткое введение. Традиционный подход условного исчисления представлен в Разделе 3. Раздел 4 описывает метод ILRMD, предложенный в этой статье. Раздел 5 обсуждает анализ результатов и сравнение методов. Раздел 6 подводит итог этой статьи и дает некоторые рекомендации.
2. Сопутствующие работы
С быстрым развитием машинного обучения, распознавания образов, компьютерного зрения и интеллектуального анализа данных обработка больших данных становится все более важной.Масштаб и скорость роста больших данных постоянно увеличиваются, но крупномасштабные многомерные данные часто коррелируют и избыточны. Следовательно, необходимо выполнять разумную обработку сжатия для крупномасштабных данных. Чтобы уменьшить избыточность данных, Кандес [41] в 2009 году предложил концепцию разложения разреженной матрицы низкого ранга, которую также называют восстановлением матрицы низкого ранга (LRMR), разложением матрицы низкого ранга (LRMD) или надежным анализом главных компонентов. (RPCA).
2.1. Разложение матрицы низкого ранга
Для данной матрицы данных, распределенной в линейном подпространстве с приблизительно низкой размерностью, она может быть разложена на матрицу низкого ранга и разреженную матрицу [42].
где представляет норму матрицы и представляет коэффициент компромисса матриц и.
Поскольку задача оптимизации (1) является NP-сложной задачей, ее можно ослабить до задачи выпуклой оптимизации [41–43], которая обозначена следующим образом:
где представляет ядерную норму матрицы; — норма матрицы.
Характеристика низкого ранга восстановленной матрицы определяет эффективность вменения матрицы. Поэтому выбор подходящего метода решения LRMD имеет решающее значение. Основные алгоритмы решения проблемы LRMD включают метод итерационного порога [44, 45], двойной подход [46], алгоритм ускоренного проксимального градиента [47] и метод расширенного множителя Лагранжа [48]. В этой статье используется метод расширенного множителя Лагранжа.
2.2. Вменение матрицы на основе разложения матрицы низкого ранга
Как правило, мы не можем восстановить все данные с частичной выборкой данных.Но Кандес [42] доказал, что недостающие данные можно восстановить более точно, когда матрица данных имеет низкий или почти низкий ранг. Из раздела 2.1 матрица низкого ранга получается на основе LRMD, которую можно использовать для вменения недостающих данных.
Модель вменения матрицы можно отметить следующим образом:
где — набор известных индексов элементов, и, — оператор линейной проекции, который может быть определен следующим образом:
Задача оптимизации (3) также является NP-сложная задача, поэтому ее нужно преобразовать в задачу выпуклой оптимизации:
2.3. Матричный вменение на основе матричного представления низкого ранга
Упомянутый выше метод вменения матрицы низкого ранга напрямую минимизирует ранг вмененных данных. Для повышения эффективности вменения к LRMD применяется самовыражение, которое называется матричным представлением низкого ранга [49, 50]. Матрица данных представлена как линейная комбинация с матрицей словаря, то есть. Матрица является матрицей коэффициентов, и ожидается, что она будет низкого ранга. может быть получено путем решения задачи оптимизации следующим образом:
Уравнение (6) можно выпукло ослабить, чтобы получить следующее:
Если матрица данных выбрана в качестве матрицы словаря, (7) можно отметить следующим образом:
В практических приложениях матрица данных может искажаться из-за шума.Чтобы повысить надежность, (8) можно изменить следующим образом:
Матрица данных представлена словарем данных, а матрица коэффициентов будет более разреженной, если имеет большее сходство с. Но стохастический шум обычно добавляется в матрицу данных, что влияет на корреляцию в матрице данных. Когда стохастический шум удален, корреляция матрицы данных может быть улучшена. выбран в качестве словаря, и его суть заключается в выявлении корреляции внутри матрицы данных.Когда матрица коэффициентов разреженная, столбцы данных в матрице данных представлены столбцами друг друга с минимальным количеством коэффициентов, насколько это возможно. Для данных о потоках трафика они имеют высокие характеристики пространственно-временной корреляции, но на них влияют погода, праздники и другие факторы, что делает данные о потоках трафика стохастической волатильностью. Следовательно, если влияние этой стохастической волатильности на данные трафика устранено, корреляция между данными трафика будет улучшена.После устранения влияния стохастического шума корреляция между самими данными дополнительно исследуется, и сходство между данными выражается с помощью как можно меньшего количества информации. Затем внутренняя корреляция данных потока трафика используется для вменения данных.
2.4. Решение матрицы коэффициентов
Чтобы получить решение уравнения (9), вводится переменная, которая позволяет разделить переменную. Матрица коэффициентов может быть вычислена с помощью метода расширенного множителя Лагранжа, и модель оптимизации становится следующей:
Создайте расширенную функцию Лагранжа как (11), где — множитель Лагранжа, это норма Фибоначчи, которая представляет собой сумму абсолютных квадратов элементов и является весом для настройки члена ошибки.
Метод точного расширенного множителя Лагранжа (EALM) используется для решения матриц в соответствии со следующим:
Обновление матрицы коэффициентов происходит следующим образом. Во-первых, матрица проекции используется для выражения позиции матрицы, и. Для удобства set и (13) можно выразить следующим образом:
Чтобы получить производную относительно в (14), перекрестное произведение следует заменить на внутреннее произведение. Матрицы (14) распределены по столбцам следующим образом:
где,, и являются, соответственно, столбцом матриц, и.
Изменить вектор на диагональную матрицу, т. Е. И. Следовательно, (15) может быть выражено следующим образом:
Для упрощения (16) обозначается как, и обозначается как. Тогда (16) можно упростить следующим образом:
Для (17) можно обновить следующим образом:
Затем повторите описанный выше процесс до сходимости целевой функции. Матрица коэффициентов может быть получена, когда выполнено условие завершения, и она выражается следующим образом:
3. Традиционный метод вменения с LRMD
Традиционный метод вменял недостающие данные с помощью операции заполнения нулями.Для исходной матрицы предположим, что она отсутствует, где представляет столбец в. Пропущенный столбец матрицы равен 0, который может быть представлен в виде матрицы:
, где — конкретные элементы в матрице.
Умножение на столбец матрицы коэффициентов может быть восстановлено следующим образом:
Операция заполнения нулями используется для традиционного метода вменения матрицы для заполнения пропущенного столбца. Затем восстановленная матрица умножается на соответствующий столбец матрицы коэффициентов; получены условно исчисленные данные отсутствующего столбца.Этот метод использует данные только вокруг отсутствующего столбца для вменения недостающих данных; иными словами, отсутствующий столбец не влияет на результат вменения. Как правило, датчики, включающие недостающие данные, имеют наибольшую корреляцию с окончательными результатами вменения. Однако отсутствующие данные устанавливаются на ноль непосредственно в традиционном методе вменения, который игнорирует влияние отсутствующих данных на результаты вменения и снижает точность результатов вменения.
4. Импутация данных трафика с помощью ILRMD
Отсутствующие данные, как правило, можно разделить на три различных типа: отсутствующие полностью случайным образом (MCAR), отсутствующие случайным образом (MAR) и отсутствующие при обнаружении (MAD).Эта статья в основном посвящена проблеме определения пропавших без вести. В дорожных сетях данные о дорожном движении собирались с помощью датчиков различных типов, которые обычно демонстрировали высокие характеристики пространственно-временной корреляции; то есть данные трафика имеют низкоранговую характеристику.
Предположим, что в дорожной сети есть датчики, и каждый датчик имеет выборки данных, которые можно обозначить как матрицу данных. В этой статье предполагается, что данные в датчике отсутствуют в формате. Традиционный метод вменения, основанный на LRMD, не учитывает влияние отсутствующих столбцов данных на результаты вменения.Чтобы устранить этот недостаток и объединить характеристики пространственно-временной корреляции транспортного потока, в этой статье предлагается метод вменения данных, основанный на ILRMD.
4.1. Предлагаемая модель ILRMD
В (9) предполагается, что элементы () наблюдаемого датчика в момент () времени, соответственно, присутствующие в наблюдаемой матрице и матрице шума. — это элемент матрицы коэффициентов, а матрица коэффициентов. Согласно правилу умножения получается следующее:
Тогда (22) можно преобразовать в следующее:
Матрица коэффициентов наблюдаемого датчика может быть выражена следующим образом:
Итоговая матрица коэффициентов всех наблюдаемых датчиков описывается следующим образом:
Предполагается, что представляет собой матрицу, удаляющую столбец.Согласно правилу умножения матриц, матрица умножается на столбец матрицы коэффициентов. Значение получается и может быть записано следующим образом:
Метод ILRMD, предложенный в этой статье, предполагает, что определенный столбец данных в матрице потерян, а затем умножает матрицу на матрицу коэффициентов для восстановления недостающих данных. Учитывается влияние всех наблюдаемых датчиков, включая датчик с недостающими данными. В (24), если значение равно нулю, данные окружающих датчиков используются для вменения.Если значение не равно нулю, используются данные окружающих датчиков и датчика, включая недостающие данные.
Различия между методом ILRMD и традиционным методом вменения обсуждаются ниже. Традиционный метод вменения выполняет операцию заполнения нулями отсутствующего столбца, а затем напрямую умножается на соответствующий столбец матрицы коэффициентов. Традиционный метод вменения использует данные, собранные с окружающих датчиков, для восстановления матрицы и игнорирует влияние датчиков, включая недостающие данные.Метод ILRMD предполагает, что столбец данных полностью отсутствует, а матрица представляет собой матрицу после удаления данных столбца. Затем после преобразования вес, наиболее релевантный для каждого датчика, выражается в другой форме, чтобы уменьшить влияние наиболее релевантного веса на результат вменения. Из (22) — (24) получается матрица коэффициентов. Матрица коэффициентов учитывает не только окружающие датчики, но и влияние датчика, включая недостающие данные.В конечном итоге матрица умножается на матрицу коэффициентов для получения результата вменения.
Основные этапы предлагаемого метода вменения заключаются в следующем.
Шаг 1. Данные потока трафика предварительно обрабатываются путем сглаживания и фильтрации, и для построения обучающей матрицы случайным образом выбираются полные данные потока трафика за один день.
Шаг 2. Предварительно обработанная матрица раскладывается на матрицу низкого ранга и разреженную матрицу согласно (1).
Шаг 3. Согласно (9) матрица раскладывается на и, а от (10) до (20) решается матрица коэффициентов.
Шаг 4. Постройте тестовую матрицу и установите матрицу как матрицу словаря. представляет матрицу, удаляющую столбец.
Шаг 5. Матрица коэффициентов получается в соответствии с (25), а недостающие данные, которые необходимо вычислить, получают по (26).
4.2. Критерии оценки эффективности
Критерии оценки для измерения ошибки вмененных данных включали среднеквадратичную ошибку (RMSE), среднюю абсолютную ошибку (MAE), среднеквадратичную ошибку в процентах (MSPE) и среднюю абсолютную ошибку в процентах (MAPE).В этом документе выбраны RMSE и MAPE. Формулы имеют следующий вид:
где — общее количество отсутствующих данных, — фактическое значение отсутствующей точки данных и — соответствующее оценочное значение.
5. Результаты эксперимента
5.1. Описание данных
Данные, использованные для оценки производительности предложенной модели, были собраны в магистральных детекторах, предоставленных базой данных PeMS, которая включает более 39 000 отдельных датчиков, которые охватывают систему шоссе во всех крупных мегаполисах Калифорнии.В этом документе 46 основных датчиков с номерами от 1108512 до 1221232 выбраны для выполнения теста вменения данных с 1 апреля 2018 г. по 30 апреля 2018 г. Данные о транспортных потоках агрегируются с 5-минутными интервалами и генерируют 288 точек данных для ежедневного использования. поток. Данные за 1 день, 7 дней и 14 дней, соответственно, выбираются для построения обучающей матрицы; однако экспериментальные результаты показывают, что улучшение точности вменения не является очевидным, когда обучающие выборки становятся все больше и больше.Таким образом, данные о потоке трафика 23 апреля 2018 года используются в качестве обучающих данных, а данные 30 апреля 2018 года используются в качестве тестовых данных. Предполагается, что данные в датчике с номером 1108512 отсутствуют, и их необходимо вычислить. Согласно анализу пространственно-временных корреляционных характеристик транспортного потока, данные транспортного потока в один и тот же день в разные последовательные недели имеют высокую регулярность и актуальность. Таким образом, в данном документе для проведения эксперимента выбираются данные о потоках трафика за один и тот же день в последовательные недели (два понедельника).Данные о транспортном потоке 46 наблюдаемых датчиков 23 апреля 2018 г. выбраны в качестве обучающей матрицы, и предполагается, что данные в датчике с номером 1108512 на 30 апреля 2018 г. отсутствуют, что требует условного исчисления.
Из-за влияния желания людей совершить поездку, погоды и других факторов данные о транспортном потоке имеют определенные стохастические колебания и резкие колебания. Чтобы уменьшить влияние стохастических колебаний данных транспортного потока на результаты вменения, для предварительной обработки данных использовался метод фильтрации с пятью точками сглаживания.Исходные и отфильтрованные данные в датчике с номером 1108512 от 8 апреля 2018 г. показаны на рисунке 1.
Из рисунка 1 видно, что отфильтрованные данные интуитивно отражают регулярность данных трафика, а крутые точки эффективно отфильтровываются в исходных данных транспортного потока.
В этой статье обучающие данные и тестовые данные сначала предварительно обрабатываются с помощью метода сглаживающей фильтрации, который может удалить аномальные точки в данных датчика.Затем мы случайным образом предполагаем, что данные датчика отсутствуют, а затем приписываем недостающие данные датчика предлагаемой модели.
5.2. Анализ результатов и показателей
5.2.1. Влияние параметра
Фактор компромисса является важным параметром разложения матрицы низкого ранга, и различные значения имеют важное влияние на производительность вменения данных. Чтобы проверить эффективность метода ILRMD, анализируется влияние параметра. RMSE и MAPE изменений результатов вменения в зависимости от компромиссного фактора, соответственно, показаны на рисунках 2 (a) и 2 (b).
(a) Изменения RMSE с компромиссным фактором
(b) Изменения MAPE с компромиссным фактором
(a) Изменения RMSE с компромиссным фактором
(b) MAPE изменяются с компромиссным фактором
Из рисунка 2, мы можем видеть, что для традиционного метода MC и RMSE, и MAPE постепенно уменьшаются с увеличением фактора компрометации. После того, как RMSE и MAPE достигнут минимального значения (), которое снова увеличится. Для метода ILRMD все RMSE и MAPE уменьшаются с изменением.Когда они достигают минимума, а затем медленно увеличиваются. В любом случае традиционный метод MC намного менее эффективен, чем метод ILRMD. Поэтому, чтобы сравнить результаты вменения двух методов в лучшем состоянии, в этой статье установлено 0,08 для традиционного метода MC и 0,15 для метода ILRMD.
5.2.2. Выбор обучающих данных
Из-за того, что поток трафика имеет высокие пространственно-временные корреляционные характеристики, необходимо проанализировать влияние различных обучающих данных на результаты вменения.Однако выбор обучающих данных мало влияет на производительность предлагаемого метода ILRMD. Чтобы показать, что производительность предложенного метода не зависит от времени, случайным образом выбираются данные о потоке трафика за четыре дня (21 апреля 2018 г., 22 апреля 2018 г., 23 апреля 2018 г. и 24 апреля 2018 г.). в качестве обучающих данных для вменения данных от 30 апреля 2018 г. Результаты экспериментов показаны на рисунках 3 (a), 3 (b), 3 (c) и 3 (d).
Из рисунка 3 видно, что предлагаемый метод ILRMD всегда имеет хорошую производительность и не чувствителен к выбору обучающих данных.И эффективность вменения различных данных обучения показана в таблице 1.
9044 9044 , 2018
|
Из таблицы 1 видно, что предлагаемый метод всегда дает хорошие данные используется. Результаты показывают, что выбор времени мало влияет на предлагаемый метод ILRMD. Поэтому мы выбираем данные о потоке трафика только за один день (23 апреля 2018 г.), чтобы проверить предложенную в статье модель.
5.2.3. Сравнение результатов вменения
С целью проверки эффективности метода ILRMD предлагаемый метод сравнивается с традиционным методом. Результаты вменения метода ILRMD при наилучшем условии () и традиционного метода при наилучшем условии () показаны на рисунках 4 (a) и 4 (b).
(a) Результаты вменения двух методов вменения ()
(b) Результаты вменения двух методов вменения ()
(a) Результаты вменения двух методов вменения ()
(b ) Результаты вменения двух методов вменения ()
Из рисунка 4 видно, что результаты вменения данных о потоках трафика через ILRMD более точны, чем традиционный метод MC.Хотя результат вменения получается с оптимальным компромиссным фактором с помощью традиционного метода MC, существует большое отклонение между результатом вменения и реальными данными, и метод ILRMD по-прежнему более точно восстанавливает недостающие данные о трафике. Когда компромиссный фактор установлен как оптимальное значение для метода ILRMD, результат вменения почти идентичен реальному значению, но в традиционных методах больше отклонений. Замечено, что результаты вменения предложенного метода ILRMD имеют сходные модели трафика с реальным потоком трафика, особенно в утренние и вечерние часы пик.
5.2.4. Сравнение ILRMD и других методов вменения
Для того, чтобы оценить преимущества предлагаемого нами подхода, ARIMA, SVR, DBN-SVR, WNN, KNN и традиционные методы вменения MC выбраны в соответствии с предпосылкой тестирования с использованием того же экспериментального метода. данные. В модели ARIMA порядки авторегрессии, скользящего среднего и разности соответственно установлены как 5, 5 и 1. В модели SVR ядерная функция настроена как «», количество итераций составляет 10 000 и штрафной коэффициент принимается равным 0.01. В модели WNN количество итераций равно 1000, количество узлов скрытого уровня равно 3. В модели DBN-SVR количество сетевых уровней в модели DBN установлено равным 3, а количество итераций равно 200. Модель ILRMD, предложенная в этой статье, сравнивается с этими методами вменения; результаты условного исчисления различных моделей и реального транспортного потока показаны в течение одного дня на рисунке 5.
Как видно из рисунка 5, условный поток трафика имеет аналогичные модели трафика с реальным потоком трафика.Модель DBN-SVR имеет худшие характеристики условного исчисления; ARIMA, SVR, KNN и WNN лучше, чем DBN-SVR, хотя они показывают слабость по сравнению с методом ILRMD. Значение вменения предложенной модели ILRMD практически совпадает с данными измерений. Замечено, что предложенная модель ILRMD имеет лучшую производительность вменения.
Тест анализа ошибок проводится с использованием двух критериев оценки ошибок, которые представлены в таблице 2. Для более точной проверки производительности предложенной модели для выполнения теста случайным образом выбирается другой датчик с номером 1119921.В таблице 2 предполагается, что датчики с номерами 1108512 и 1119921, соответственно, рассчитаны для проверки работоспособности предложенной модели. Как видно из таблицы 2, когда предполагается, что датчики с номерами 1108512 и 1119921 являются условно исчисленными, все предлагаемые модели ILRMD имеют лучшую производительность по сравнению с другими подходами. Эти эксперименты могут подтвердить, что модель ILRMD, предложенная в этой статье, является эффективным методом вменения данных.
904 904 904 904 904 9044
|