АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА *
Аннотация: в работе построена математическая модель, характеризующая зависимость загрязнения атмосферного воздуха от количества легковых автомобилей. Представлен корреляционный и регрессионный анализ. При помощи эконометрических инструментов спрогнозированы тренды развития фактора в модели, на основании чего осуществлен прогноз загрязнения атмосферного воздуха
Ключевые слова: автоматический текстовый анализ, обработка естественного языка, машинное обучение
УДК 004.912
Гайсин А.Э. студент 2 курса магистратуры кафедры
билингвального и цифрового образования Казанский (Приволжский) Федеральный университет (г. Пермь, Россия)
Научный руководитель:
Данилов А.В. канд. пед. наук, доцент билингвального и цифрового образования Казанский (Приволжский) Федеральный университет (г. Казань, Россия)
АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ
АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА
Аннотация: в работе построена математическая модель, характеризующая зависимость загрязнения атмосферного воздуха от количества легковых автомобилей. Представлен корреляционный и регрессионный анализ. При помощи эконометрических инструментов спрогнозированы тренды развития фактора в модели, на основании чего осуществлен прогноз загрязнения атмосферного воздуха.
Ключевые слова: автоматический текстовый анализ, обработка естественного языка, машинное обучение.
Автоматический текстовый анализ (ATA) – это обширная область исследований, которая занимается изучением и разработкой методов и алгоритмов для обработки, анализа и категоризации текстовых данных. В последние годы разработка и применение методов автоматического текстового анализа значительно усилилась благодаря росту объема доступных текстовых данных, прогрессу в области искусственного интеллекта и машинного обучения, а также развитию вычислительных технологий.
Традиционные методы автоматического текстового анализа
Токенизация – процесс разбиения текста на отдельные слова или токены. Токенизация является основой для анализа текста и позволяет преобразовать неструктурированный текст в структурированный вид, пригодный для дальнейшего анализа.
Стемминг и лемматизация – методы приведения слов к их корневой форме. Стемминг основан на удалении окончаний слов, в то время как лемматизация опирается на морфологический анализ и приведение слов к их базовой форме.
Векторное представление текста – представление текста в виде численного вектора, где каждый элемент вектора соответствует определенному признаку текста. Наиболее известные методы векторного представления текста – это метод "мешка слов" (Bag of Words) и TF-IDF (Term Frequency-Inverse Document Frequency).
Кластеризация – группировка текстов на основе их сходства.
Методы машинного обучения
Наивный Байесовский классификатор – простой и быстрый алгоритм классификации текстов, основанный на теореме Байеса. Этот метод широко используется для фильтрации спама, определения языка текста и категоризации новостей.
Метод опорных векторов (SVM) – алгоритм машинного обучения, используемый для решения задач классификации и регрессии. SVM особенно эффективен при работе с большим количеством признаков, что делает его подходящим для анализа текстовых данных.
Решающие деревья и случайный лес – алгоритмы классификации и регрессии, основанные на построении иерархической структуры решений. Решающие деревья хорошо интерпретируемы и могут использоваться для извлечения правил из текстовых данных, в то время как случайный лес обеспечивает более высокую точность за счет ансамбля деревьев.
Методы глубокого обучения
Сверточные нейронные сети (CNN) – архитектура нейронных сетей, изначально разработанная для обработки изображений, но также успешно применяемая для анализа текстовых данных. CNN хорошо справляются с задачами классификации текстов и анализа тональности.
Рекуррентные нейронные сети (RNN) и LSTM – архитектуры нейронных сетей, разработанные специально для работы с последовательными данными, такими как текст. RNN и LSTM способны улавливать контекст и долгосрочные зависимости в тексте, что делает их подходящими для задач генерации текста, машинного перевода и распознавания речи.
Трансформеры и модели на основе BERT – новые архитектуры нейронных сетей, основанные на механизме внимания (attention). Трансформеры обеспечивают высокую эффективность и масштабируемость при работе с большими объемами текстовых данных, а модели на основе BERT показывают впечатляющие результаты во многих задачах автоматического текстового анализа, таких как извлечение информации, анализ тональности и вопросно-ответные системы.
Предобученные модели и трансферное обучение
Трансферное обучение – это подход, который использует знания, полученные из одной задачи, для решения других задач. В области автоматического текстового анализа трансферное обучение позволяет использовать предобученные модели, такие как BERT, GPT и RoBERTa , для решения разнообразных задач без необходимости обучать модель с нуля.
Обработка естественного языка (NLP)
Обработка естественного языка (Natural Language Processing, NLP) – это область исследований, которая разрабатывает методы и алгоритмы для анализа, понимания и генерации текстов на естественном языке. NLP объединяет знания из области компьютерных наук, искусственного интеллекта, лингвистики и машинного обучения для создания интеллектуальных систем, способных взаимодействовать с человеком на естественном языке.
NLP включает в себя множество методов и техник автоматического текстового анализа, таких как:
- определение частей речи (Part-of-Speech tagging, POS-tagging),
- семантический анализ (semantic parsing),
- анализ тональности (sentiment analysis),
- суммаризация текста (text summarization),
- машинный перевод (machine translation) и др.
Освоение методов и техник NLP может помочь Junior-разработчикам создавать более сложные и полезные системы обработки текста, которые способны понимать и анализировать текст на глубоком уровне.
СПИСОК ЛИТЕРАТУРЫ:
Беляев И.Н. Технологии обработки текстов: учебное пособие / И.Н. Беляев. – СПб.: БХВ-Петербург, 2015. – 280 с.
Борисов А.А. Методы анализа текста: учебное пособие / А.А. Борисов. – М.: ЮРАЙТ, 2017. – 200 с.
Макаров А.Н. Интеллектуальный анализ текста: учебное пособие / А.Н. Макаров. – СПб.: Питер, 2017. – 280 с.
Смирнов Г.И. Методы анализа текста: учебник / Г.И. Смирнов. – СПб.: Питер, 2016. – 280 c.
Гайсин А.Э., Данилов А.В. АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА // Вестник науки №6 (63) том 4. С. 254 - 258. 2023 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/9192 (дата обращения: 19.05.2024 г.)
Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ? - напишите письмо в редакцию журнала:
zhurnal@vestnik-nauki.com
*В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.