АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА

Гайсин А.Э., Данилов А.В.

42 просмотров

Гайсин А.Э., Данилов А.В.

АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА *

Аннотация:
в работе построена математическая модель, характеризующая зависимость загрязнения атмосферного воздуха от количества легковых автомобилей. Представлен корреляционный и регрессионный анализ. При помощи эконометрических инструментов спрогнозированы тренды развития фактора в модели, на основании чего осуществлен прогноз загрязнения атмосферного воздуха

Ключевые слова:
автоматический текстовый анализ, обработка естественного языка, машинное обучение

УДК 004.912

Гайсин А.Э.
студент 2 курса магистратуры кафедры

билингвального и цифрового образования
Казанский (Приволжский) Федеральный университет
(г. Пермь, Россия)

Научный руководитель:

Данилов А.В.
канд. пед. наук, доцент билингвального и цифрового образования
Казанский (Приволжский) Федеральный университет
(г. Казань, Россия)

АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ

АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА

Аннотация: в работе построена математическая модель, характеризующая зависимость загрязнения атмосферного воздуха от количества легковых автомобилей. Представлен корреляционный и регрессионный анализ. При помощи эконометрических инструментов спрогнозированы тренды развития фактора в модели, на основании чего осуществлен прогноз загрязнения атмосферного воздуха.

Ключевые слова: автоматический текстовый анализ, обработка естественного языка, машинное обучение.

Автоматический текстовый анализ (ATA) – это обширная область исследований, которая занимается изучением и разработкой методов и алгоритмов для обработки, анализа и категоризации текстовых данных. В последние годы разработка и применение методов автоматического текстового анализа значительно усилилась благодаря росту объема доступных текстовых данных, прогрессу в области искусственного интеллекта и машинного обучения, а также развитию вычислительных технологий.

Традиционные методы автоматического текстового анализа

Токенизация – процесс разбиения текста на отдельные слова или токены. Токенизация является основой для анализа текста и позволяет преобразовать неструктурированный текст в структурированный вид, пригодный для дальнейшего анализа.
Стемминг и лемматизация – методы приведения слов к их корневой форме. Стемминг основан на удалении окончаний слов, в то время как лемматизация опирается на морфологический анализ и приведение слов к их базовой форме.
Векторное представление текста – представление текста в виде численного вектора, где каждый элемент вектора соответствует определенному признаку текста. Наиболее известные методы векторного представления текста – это метод "мешка слов" (Bag of Words) и TF-IDF (Term Frequency-Inverse Document Frequency).
Кластеризация – группировка текстов на основе их сходства.

Методы машинного обучения

Наивный Байесовский классификатор – простой и быстрый алгоритм классификации текстов, основанный на теореме Байеса. Этот метод широко используется для фильтрации спама, определения языка текста и категоризации новостей.
Метод опорных векторов (SVM) – алгоритм машинного обучения, используемый для решения задач классификации и регрессии. SVM особенно эффективен при работе с большим количеством признаков, что делает его подходящим для анализа текстовых данных.
Решающие деревья и случайный лес – алгоритмы классификации и регрессии, основанные на построении иерархической структуры решений. Решающие деревья хорошо интерпретируемы и могут использоваться для извлечения правил из текстовых данных, в то время как случайный лес обеспечивает более высокую точность за счет ансамбля деревьев.

Методы глубокого обучения

Сверточные нейронные сети (CNN) – архитектура нейронных сетей, изначально разработанная для обработки изображений, но также успешно применяемая для анализа текстовых данных. CNN хорошо справляются с задачами классификации текстов и анализа тональности.
Рекуррентные нейронные сети (RNN) и LSTM – архитектуры нейронных сетей, разработанные специально для работы с последовательными данными, такими как текст. RNN и LSTM способны улавливать контекст и долгосрочные зависимости в тексте, что делает их подходящими для задач генерации текста, машинного перевода и распознавания речи.
Трансформеры и модели на основе BERT – новые архитектуры нейронных сетей, основанные на механизме внимания (attention). Трансформеры обеспечивают высокую эффективность и масштабируемость при работе с большими объемами текстовых данных, а модели на основе BERT показывают впечатляющие результаты во многих задачах автоматического текстового анализа, таких как извлечение информации, анализ тональности и вопросно-ответные системы.

Предобученные модели и трансферное обучение

Трансферное обучение – это подход, который использует знания, полученные из одной задачи, для решения других задач. В области автоматического текстового анализа трансферное обучение позволяет использовать предобученные модели, такие как BERT, GPT и RoBERTa , для решения разнообразных задач без необходимости обучать модель с нуля.

Обработка естественного языка (NLP)

Обработка естественного языка (Natural Language Processing, NLP) – это область исследований, которая разрабатывает методы и алгоритмы для анализа, понимания и генерации текстов на естественном языке. NLP объединяет знания из области компьютерных наук, искусственного интеллекта, лингвистики и машинного обучения для создания интеллектуальных систем, способных взаимодействовать с человеком на естественном языке.

NLP включает в себя множество методов и техник автоматического текстового анализа, таких как:

- извлечение сущностей (Named Entity Recognition, NER),

- разбор предложений (parsing),

- определение частей речи (Part-of-Speech tagging, POS-tagging),

- семантический анализ (semantic parsing),

- анализ тональности (sentiment analysis),

- суммаризация текста (text summarization),

- машинный перевод (machine translation) и др.

Освоение методов и техник NLP может помочь Junior-разработчикам создавать более сложные и полезные системы обработки текста, которые способны понимать и анализировать текст на глубоком уровне.

СПИСОК ЛИТЕРАТУРЫ:

Беляев И.Н. Технологии обработки текстов: учебное пособие / И.Н. Беляев. – СПб.: БХВ-Петербург, 2015. – 280 с.
Борисов А.А. Методы анализа текста: учебное пособие / А.А. Борисов. – М.: ЮРАЙТ, 2017. – 200 с.
Макаров А.Н. Интеллектуальный анализ текста: учебное пособие / А.Н. Макаров. – СПб.: Питер, 2017. – 280 с.
Смирнов Г.И. Методы анализа текста: учебник / Г.И. Смирнов. – СПб.: Питер, 2016. – 280 c.

Полная версия статьи PDF

Номер журнала Вестник науки №6 (63) том 4

Ссылка для цитирования:

Гайсин А.Э., Данилов А.В. АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА // Вестник науки №6 (63) том 4. С. 254 - 258. 2023 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/9192 (дата обращения: 19.05.2024 г.)

Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/9192

Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com

* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.