'
Павлова Д.А.
ВЫБОР ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ВЫВОЗА ОТХОДОВ *
Аннотация:
в статье применяются методы машинного обучения для прогнозирования количества вывезенных контейнеров. Исследование включает в себя подготовку данных, анализ и сравнительную оценку результатов четырёх различных моделей машинного обучения. На основе полученных результатов автор выбирает наиболее подходящую модель для дальнейших исследований. Результаты исследования позволят оптимизировать процесс планирования работы по вывозу отходов, делая более точные прогнозы на основе реальных данных
Ключевые слова:
машинное обучение, прогнозирование вывоза отходов, анализ данных, оценка моделей, градиентный бустинг, случайный лес, деревья решений, линейная регрессия, среднеквадратичная ошибка (MSE), средняя абсолютная ошибка (MAE)
УДК 004
Павлова Д.А.
магистрант
Белгородский государственный национальный исследовательский университет
(г. Белгород, Россия)
ВЫБОР ОПТИМАЛЬНОЙ МОДЕЛИ
МАШИННОГО ОБУЧЕНИЯ
ДЛЯ ПРОГНОЗИРОВАНИЯ ВЫВОЗА ОТХОДОВ
Аннотация: в статье применяются методы машинного обучения для прогнозирования количества вывезенных контейнеров. Исследование включает в себя подготовку данных, анализ и сравнительную оценку результатов четырёх различных моделей машинного обучения. На основе полученных результатов автор выбирает наиболее подходящую модель для дальнейших исследований. Результаты исследования позволят оптимизировать процесс планирования работы по вывозу отходов, делая более точные прогнозы на основе реальных данных.
Ключевые слова: машинное обучение, прогнозирование вывоза отходов, анализ данных, оценка моделей, градиентный бустинг, случайный лес, деревья решений, линейная регрессия, среднеквадратичная ошибка (MSE), средняя абсолютная ошибка (MAE).
1 Введение и цели исследования
Одним из ключевых элементов успешного управления и планирования в сфере вывоза отходов является способность предсказывать потребности в обслуживании отдельных контейнерных площадок. Эффективное прогнозирование позволяет оптимизировать графики вывоза, повышая при этом эффективность работы и снижая издержки. Однако точность этих прогнозов является критическим фактором, требующим внимательного анализа и проверки.
В рамках данного исследования основной упор делается на прогнозирование среднего количества вывезенных контейнеров, как первого шага к пониманию общей динамики и трендов в этой сфере. Это дает возможность оценить правильность предсказаний модели перед тем, как использовать ее для более детализированного прогнозирования сотен или даже тысяч графиков для каждой контейнерной площадки.
Исследования в области управления отходами подтверждают важность точного прогнозирования для оптимизации рабочих процессов. Согласно исследованию Ashish Bhateja и его коллег, точное прогнозирование количества отходов может существенно улучшить процессы планирования и управления, приводя к более эффективному использованию ресурсов и снижению издержек [1].
Важно не просто предсказать количество контейнеров, но также понять реальные потребности, что может позволить скорректировать графики вывоза не на основе предположений о частоте пользования контейнерных площадок, а на основе реальных данных. Этот подход в полной мере отражает принципы, изложенные Бертом Якстрой и его коллегами в их работе 2018 года, где они утверждают, что оптимизация системы управления отходами должна основываться на точных данных, полученных из надежных источников [2].
В итоге, данное исследование направлено на то, чтобы применить методы машинного обучения для точного прогнозирования среднего количества вывезенных контейнеров, что позволит лучше понять общую динамику в сфере вывоза отходов и улучшить планирование рабочих процессов.
2 Описание данных и предварительная обработка
Данные, используемые в исследовании, представлены двумя параметрами: датой и количеством заказанных контейнеров. Все даты в датасете принадлежат периоду от 2020 до 2023 года. Для каждого дня и каждого года данные усредняются, чтобы уменьшить случайные колебания и выделить общие тренды. Этот подход помогает сгладить возможные аномалии и выявить долгосрочные изменения в динамике использования контейнеров.
Для данного исследования был выбран инструмент Jupyter Notebook и язык программирования Python в силу их функциональности и востребованности в области анализа данных и машинного обучения. Python обладает мощной экосистемой научных библиотек, включая Pandas, Matplotlib, Seaborn и Scikit-learn, которые упрощают обработку данных, построение моделей и визуализацию результатов.
С другой стороны, Jupyter Notebook предоставляет интерактивную среду, идеально подходящую для экспериментального анализа данных, прототипирования и отчетности. Эти инструменты вместе формируют гибкую и мощную среду для проведения нашего исследования.
Вывод данных в первоначальном загруженном и перенесённом на точечную диаграмму видах с помощью Python и Jupiter Notebook отображены на рисунках 1 и 2.
Рис. 1. Отображение выводимых данных в Jupyter Notebook
Рис. 2. Распределение данных
Усредненные значения затем используются для прогнозирования среднего количества контейнеров, которые вероятно будут заказаны в будущем. Полагается, что проработанные прогнозы могут быть полезны для разработки более точных и эффективных графиков вывоза отходов.
Прогнозирование среднего количества контейнеров дает нам возможность более точно спрогнозировать потребности в вывозе отходов. Это, в свою очередь, позволяет подготовиться к потенциальным пикам спроса и заблаговременно реагировать на изменения в трендах утилизации отходов.
В связи с этим полезно также следить не только за общими трендами по изменению потребности в вывозе, но полезно также следить за трендами вывоза по различным срезам – месяцы, дни месяца, дни недели.
Вывод итогового датасета для анализа с дополнительными вычисленными значениями годов, месяцев, недель и дней недели представлены на рисунке 3.
Рис. 3. Итоговый вид данных
В долгосрочной перспективе исследование этих данных может помочь в оптимизации процессов вывоза отходов, улучшении графиков утилизации и, в конечном итоге, улучшении эффективности и экологичности системы управления отходами. Изучение и анализ исторических данных — это важный шаг на пути к созданию более устойчивой и эффективной системы управления отходами.
3 Исследовательский анализ данных
В данном исследовании были построены различные графики, используя преобразованные данные. Такие данные специально вычислялись и группировались по дням недели, дням месяца и годам, что позволило выявить особенности трендов, связанных с потребностями в вывозе отходов в разные периоды. Этот подход открывает возможность для более детального и тонкого анализа данных.
Основываясь на различных срезах данных, исследование сосредоточено не только на отслеживании общих трендов изменения потребности в вывозе по годам, но также и на анализе трендов вывоза отходов по отдельным дням недели и месяца. Это может быть особенно полезно для управления операционной деятельностью, так как требования к вывозу могут значительно варьироваться в зависимости от дня недели или месяца [3].
Точечные диаграммы и линейные графики фактических вывозов контейнеров по годам, месяцам, дней месяца и дней недели представлены на рисунках 4 - 11.
Рис. 4. Распределение вывоза по годам
Рис. 5. Среднее количество контейнеров по годам
Рис. 6. Распределение вывоза по месяцам
Рис. 7. Среднее количество контейнеров по месяцам
Рис. 8. Распределение вывоза по дням недели
Рис. 9. Среднее количество контейнеров по дням недели
Рис. 10. Распределение вывоза по дням недели
Рис. 11. Среднее количество контейнеров по дням недели
Анализ данных показывает определенные тенденции и закономерности, которые могут быть использованы для прогнозирования будущих потребностей в вывозе контейнеров. Наблюдается плавное увеличение среднего количества выводимых контейнеров по годам. Это подтверждается и точечными графиками, демонстрирующими нарастающие минимальные и максимальные значения.
Интересными для анализа являются также ежемесячные колебания количества вывозов. Графики точечного распределения и среднего количества вывоза по месяцам свидетельствуют о снижении количества вывозов в летние месяцы. Этот факт, возможно, объясняется периодом отпусков, когда значительная часть населения уезжает из города.
Дополнительные закономерности проявляются в графиках распределения по дням недели. Наблюдается снижение количества вывозимых контейнеров в выходные дни. Это может указывать на то, что многие люди предпочитают избавляться от отходов в начале недели, совмещая это с выходом на работу. Такие закономерности могут быть использованы для более точного планирования графиков вывоза, что может привести к оптимизации операционных затрат и повышению уровня удовлетворенности потребителей [4].
4 Применение моделей машинного обучения для прогнозирования
Для проведения исследования был составлен и применён общий алгоритм для применения различных моделей машинного обучения:
В рамках данного исследования были выбраны четыре модели: линейная регрессия, дерево принятия решений, случайный лес и градиентный бустинг, каждая из которых представляет собой разные подходы к решению задач регрессии.
Линейная регрессия - это одна из наиболее базовых моделей машинного обучения и часто служит отправной точкой для более сложных моделей. Она позволяет оценить влияние отдельных предикторов на зависимую переменную и дает возможность интерпретировать результаты [5].
Предсказания с помощью метода линейной регрессии представлены на рисунке 12.
Рис. 12. График предсказания модели «Линейная регрессия»
Дерево принятия решений - это другой пример простой и интуитивно понятной модели, основанной на пороговых правилах, которые делают ее легко интерпретируемой. Она отлично подходит для работы с категориальными признаками и не требует масштабирования данных [6].
Итоговый вывод данных после применения модели дерева принятия решения изображён на рисунке 13.
Рис. 13. График предсказания модели «Дерево принятия решений»
Случайный лес - это ансамбль моделей деревьев принятия решений. Он более устойчив к переобучению, обладает высокой точностью предсказаний и умеет автоматически оценивать важность признаков. Это делает его отличным выбором для многих задач регрессии [7].
Результаты предсказаний после применения метода случайного леса показан на рисунке 14.
Рис. 14. График предсказания модели «Случайный лес»
Градиентный бустинг - это еще одна ансамблевая модель, которая строит последовательность деревьев принятия решений, каждое из которых исправляет ошибки предыдущего. Это часто приводит к очень высокой точности предсказаний, что делает его популярным выбором в машинном обучении [8].
График результатов при применении метода градиентного бустинга можно проанализировать по рисунку 15.
Рис. 15. График предсказания модели «Градиентный бустинг»
5 Оценка и сравнение моделей
В предыдущих разделах мы рассмотрели применение четырех различных методов машинного обучения. В качестве ключевых метрик оценки эффективности этих моделей были использованы средняя квадратичная ошибка (MSE) и средняя абсолютная ошибка (MAE). MSE и MAE - это популярные метрики для оценки качества моделей регрессии. MSE представляет собой среднее значение квадратов ошибок, что делает её чувствительной к большим ошибкам из-за квадратичной природы штрафа. В то время как MAE представляет собой среднее значение абсолютных ошибок и дает более прямое представление о том, какую ошибку можно ожидать в среднем [9][10].
Таблица 1. Оценка методов машинного обучения
Метрики оценки (ошибки) |
Модель машинного обучения |
|||
Линейная регрессия (Linear Regression) |
Дерево принятия решений (Decision Tree model) |
Случайный лес (Random Forests) |
Градиентный бустинг (Gradient Boosting model) |
|
Средняя квадратичная ошибка (MSE, Mean Squared Error) |
17321.35 |
22222.83 |
14181.77 |
2414.73 |
Средняя абсолютная ошибка (MAE, Mean Absolute Error) |
102.67 |
115.93 |
91.95 |
39.31 |
Исходя из представленных значений MSE и MAE, метод градиентного бустинга (Gradient Boosting) показывает наилучшие результаты. У него наименьшие значения обоих метрик, что указывает на меньшую ошибку в предсказаниях модели по сравнению с другими методами.
Градиентный бустинг является мощным алгоритмом машинного обучения, который работает путем объединения множества слабых моделей (обычно деревьев принятия решений) для создания более сильной исходной модели. Это может быть особенно полезно в сложных задачах прогнозирования, где отношения между признаками и целевой переменной могут быть сложными, что и предполагается в дальнейшем исследовании для предсказывания значений вывоза для каждой контейнерной площадки по отдельности.
6 Выводы
В ходе проведенного исследования мы применили четыре различных метода машинного обучения для прогнозирования среднего количества вывезенных контейнеров. Это позволит не только более точно планировать работу по вывозу отходов, но и принимать решения, основанные на реальных данных, а не предположениях. Методы машинного обучения, использованные в этой работе, показали, что существуют эффективные способы предсказания потребности в услугах по вывозу отходов, что существенно улучшит работу в этой области.
Кроме того, были проведены дополнительные анализы для определения влияния различных факторов, таких как год, месяц и день недели, на общее количество вывезенных контейнеров. Это помогает учесть сезонные и недельные колебания в использовании контейнерных площадок.
Исходя из рассчитанных значений MSE и MAE для каждого из четырех методов, модель, основанная на градиентном бустинге (XGBoost), показала наилучшие результаты. Следовательно, в дальнейшем она будет использоваться для более детального прогнозирования количества вывезенных контейнеров для каждой контейнерной площадки. Это позволит нам еще точнее прогнозировать потребности в услугах по вывозу отходов на уровне каждой отдельной площадки, что будет способствовать еще более эффективному планированию рабочих процессов и управлению ресурсами.
СПИСОК ЛИТЕРАТУРЫ:
Номер журнала Вестник науки №6 (63) том 5
Ссылка для цитирования:
Павлова Д.А. ВЫБОР ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ВЫВОЗА ОТХОДОВ // Вестник науки №6 (63) том 5. С. 346 - 363. 2023 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/9382 (дата обращения: 19.05.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2023. 16+
*