'
Умаев А.Г.
РЕАЛИЗАЦИЯ ФОНЕТИЧЕСКОГО ПОИСКА В ЦИФРОВЫХ СЛОВАРЯХ НА ОСНОВЕ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ PYTHON *
Аннотация:
в данной статье рассматривается реализация алгоритма, позволяющего осуществлять удобный фонетический поиск слов в цифровых словарях. Алгоритм основан на преобразовании поискового запроса в регулярное выражение с учетом особенностей фонем языка искомого слова. В статье представлена реализация алгоритма на языке программирования Python.
Ключевые слова:
регулярные выражения, фонемы, словари, поиск
Цифровые словари являются современной заменой обыкновенным бумажным словарям. В отличие от своих предшественников, цифровые словари обладают неоспоримыми преимуществами, которые включают в себя не только повсеместную доступность, но и расширенные возможности функционала, способствующие более удобному использованию. Одним из способов повышения удобства пользования электронными словарями является наличие удобного и эффективного поиска слова.Для повышения удобства поиска был разработан алгоритм фонетического поиска. Для реализации этого алгоритма необходимо для начала заполнить базу данных фонем[5] для каждого языка. Рассмотрим фонемы на примере кумыкского языка[3] - кумыкский алфавит[2] состоит полностью из кириллических символов, однако в нем помимо букв состоящих из одиночных символов присутствуют и диграфы(буквы состоящие из двух символов), звучание которых не соответствует ни одной букве русского алфавита, что собственно и усложняет поиск для пользователей, не владеющих кумыкским языком. Для решения этой проблемы и используется база фонем, в которой мы для каждой особенной фонемы ставим в соответствие фонему из русского языка, которую предположительно и будут использовать пользователи, не владеющие кумыкской письменностью. Для упрощения примера вместо СУБД будем использовать простой список Python[1] заполненный кортежами с парами вида (фонема кумыкская, фонема русская)./Фонетический поиск осуществляется в несколько этапов:1) Преобразование поискового запроса в регулярное выражение [4], основанное на фонемах из базы данных.2) Поиск слова, соответствующего регулярному выражению.Для преобразования поискового запроса в регулярное выражение список фонем нужно преобразовать в инвертированный словарь следующего вида: /Сделать это можно с помощью следующего кода:/Функция для генерации регулярного выражения на основе строки из поискового запроса имеет следующий вид:/Возьмем для примера набор кумыкских слов:/Для того, чтобы найти слово “къоччакъ”, мы можем послать строку “коччак” в поисковый запрос. Запрос “коччак” будет преобразован в регулярное выражение “^(къ|к)(оь|о)чча(къ|к)” и уже с помощью него будет осуществляться поиск соответствий в списке.
Номер журнала Вестник науки №1 (70) том 3
Ссылка для цитирования:
Умаев А.Г. РЕАЛИЗАЦИЯ ФОНЕТИЧЕСКОГО ПОИСКА В ЦИФРОВЫХ СЛОВАРЯХ НА ОСНОВЕ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ PYTHON // Вестник науки №1 (70) том 3. С. 716 - 719. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/12532 (дата обращения: 19.05.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024. 16+
*