РЕШЕНИЕ ЗАДАЧ КЛАССИФИКАЦИИ ПРОЕКТНЫХ ДОКУМЕНТОВ В СТРОИТЕЛЬСТВЕ С ПОМОЩЬЮ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА

Коновалова Е.А.

10 просмотров

Коновалова Е.А.

РЕШЕНИЕ ЗАДАЧ КЛАССИФИКАЦИИ ПРОЕКТНЫХ ДОКУМЕНТОВ В СТРОИТЕЛЬСТВЕ С ПОМОЩЬЮ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА *

Аннотация:
в статье рассматривается задача классификации текстовых документов в строительной отрасли. Рассмотрен алгоритм построения классификационной модели методом Байеса. Исследование проведено с использованием языка программирования Python, в качестве исходных данных был использована проектная документация различных зданий и сооружений. Выполнена предварительная обработка документов и классификация с отнесением их к одному из двух классов: пояснительные записки и другие документы проекта стадии П.

Ключевые слова:
классификация текстов, предобработка текстов, машинное обучение, строительство, проектная документация

Развитие информационных технологий способствовало решению многочисленных приложений задачи обработки текстовой информации, таких, как задача машинного перевода с одного естественного языка на другой, задача информационного поиска, задача извлечения знаний из текста и др. В настоящее время строительство является относительно новой сферой для применения алгоритмов машинного обучения. В качестве исходных данных для автоматической классификации документов использован набор из 400 документов проектной документации различных зданий и сооружений. Все рассматриваемые документы принадлежат к проектной документации (состав и расшифровка определяется [1]). Документы подвергнуты предварительной обработке, использованы инструменты, позволяющие классифицировать проектные документы по содержащейся в них информации, процесс поэтапно показан на рис. 1.Рис. 1. Блок-схема алгоритма создания классификатора. Все вычисления выполняются на языке Python с использованием интегрированной среды PyCharm, c помощью которой можно писать, запускать и отлаживать код, устанавливать новые расширения и дополнительные модули, такие как: библиотеки машинного обучения и анализа данных, а также графические процессоры для визуализации полученных результатов [2].Предварительная обработка текста. Первым шагом для выполнения анализа текста в рамках программного проекта является перевод текста из формата PDF в Python. Существует несколько подходов и инструментов, которые позволяют осуществить данную операцию. Выбрано использование библиотеки PyPDF2, позволяющую работать напрямую с PDF-файлами. С помощью этой библиотеки можно осуществить чтение текста из PDF и сохранить его в переменную Python.Рис. 2. Код для перевода текста из PDF с использованием библиотеки PyPDF2. Проектная документация имеет множество символов, которые не нужны при анализе текста, поэтому необходимо оставить только следующие символы: а-я, А-Я, все символы текстов документов переведены в нижний регистр с помощью команды text.lower(), В тексте содержатся шумовые слова (слова, которые чрезвычайно распространены в определенном языке, но не обладающие семантической нагрузкой), их необходимо убирать из текста. Этот процесс помогает уменьшить размер набора данных и, в свою очередь, ускорить работу систем обработки естественного языка. Из библиотеки «nltk» подгружены стоп-слова русского языка, такие как «там», «зачем», «она» и другие, и добавим личный словарь, проанализировав документы на наличие стоп-слов. В тексте содержится много слов с количеством букв менее 3, которые не несут смысловой нагрузки, удаляем их из текста.Следующим шагом является токенизация, которая является методом разделения текста на фрагменты (предложения или слова). Применяется словарь WordNet, разработанный для обеспечения программного доступа системами обработки естественного языка и позволяет решать следующие задачи: нахождение определений слов, нахождение синонимов и антонимов, исследование отношений между словами схожести слов, анализ многозначности слов.Рис. 5. Код для удаления шумовых слов, лемматизации и токенизации.Описание процесса классификации документов. Наивный байесовский классификатор (NB) является одним из самых популярных методов машинного обучения. В его основе лежит предположение о статистической независимости признаков, что ограничивает его применимость, однако NB зарекомендовал себя во многих прикладных областях, особенно, в классификации текстов. Для обучения модели необходимо вычислить средние значения каждого признака в каждом классе, отсюда следует, что вычислительная сложность алгоритма оптимизации параметров линейна по объ?му обучающей выборки и по числу признаков. Для качественной классификации необходимо грамотно создать обучающую выборку.В процессе решения задачи классификации проектных документов использован наивный байесовский классификатор. Для решения задачи используется классификатор «NaiveBayesClassifier» из библиотеки «nltk».Классификатор работает с перекодированными данными (обучающая выборка (train) составляет 75%, тестовая (test) – 25%), распределяет по двум категориям: пояснительные записки и основные документы (результат показан на рис. 6.)Рис. 6. Результат классификации проектной документации.Точность работы алгоритма варьируется от 69% до 75% (для определения используется функция accuracy из библиотеки nltk). Такой показатель можно считать средним и предсказуемым, так в разных разделах проектной документации часто встречаются одинаковые признаки. Основываясь на полученных результатах, можно сделать вывод, что данный классификатор следует использовать в практической деятельности, так как высокий уровень эффективности обуславливается относительной простотой применения алгоритма и приемлемыми показателями точности.

Полная версия статьи PDF

Номер журнала Вестник науки №4 (73) том 3

Ссылка для цитирования:

Коновалова Е.А. РЕШЕНИЕ ЗАДАЧ КЛАССИФИКАЦИИ ПРОЕКТНЫХ ДОКУМЕНТОВ В СТРОИТЕЛЬСТВЕ С ПОМОЩЬЮ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА // Вестник науки №4 (73) том 3. С. 422 - 428. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/13972 (дата обращения: 19.05.2024 г.)

Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/13972

Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com

* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.