'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №1 (70) том 3
  4. Научная статья № 113

Просмотры  34 просмотров

Умаев А.Г.

  


РЕАЛИЗАЦИЯ ФОНЕТИЧЕСКОГО ПОИСКА В ЦИФРОВЫХ СЛОВАРЯХ НА ОСНОВЕ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ PYTHON *

  


Аннотация:
в данной статье рассматривается реализация алгоритма, позволяющего осуществлять удобный фонетический поиск слов в цифровых словарях. Алгоритм основан на преобразовании поискового запроса в регулярное выражение с учетом особенностей фонем языка искомого слова. В статье представлена реализация алгоритма на языке программирования Python.   

Ключевые слова:
регулярные выражения, фонемы, словари, поиск   


Цифровые словари являются современной заменой обыкновенным бумажным словарям. В отличие от своих предшественников, цифровые словари обладают неоспоримыми преимуществами, которые включают в себя не только повсеместную доступность, но и расширенные возможности функционала, способствующие более удобному использованию. Одним из способов повышения удобства пользования электронными словарями является наличие удобного и эффективного поиска слова.Для повышения удобства поиска был разработан алгоритм фонетического поиска. Для реализации этого алгоритма необходимо для начала заполнить базу данных фонем[5] для каждого языка. Рассмотрим фонемы на примере кумыкского языка[3] - кумыкский алфавит[2] состоит полностью из кириллических символов, однако в нем помимо букв состоящих из одиночных символов присутствуют и диграфы(буквы состоящие из двух символов), звучание которых не соответствует ни одной букве русского алфавита, что собственно и усложняет поиск для пользователей, не владеющих кумыкским языком. Для решения этой проблемы и используется база фонем, в которой мы для каждой особенной фонемы ставим в соответствие фонему из русского языка, которую предположительно и будут использовать пользователи, не владеющие кумыкской письменностью. Для упрощения примера вместо СУБД будем использовать простой список Python[1] заполненный кортежами с парами вида (фонема кумыкская, фонема русская)./Фонетический поиск осуществляется в несколько этапов:1) Преобразование поискового запроса в регулярное выражение [4], основанное на фонемах из базы данных.2) Поиск слова, соответствующего регулярному выражению.Для преобразования поискового запроса в регулярное выражение список фонем нужно преобразовать в инвертированный словарь следующего вида: /Сделать это можно с помощью следующего кода:/Функция для генерации регулярного выражения на основе строки из поискового запроса имеет следующий вид:/Возьмем для примера набор кумыкских слов:/Для того, чтобы найти слово “къоччакъ”, мы можем послать строку “коччак” в поисковый запрос. Запрос “коччак” будет преобразован в регулярное выражение “^(къ|к)(оь|о)чча(къ|к)” и уже с помощью него будет осуществляться поиск соответствий в списке.   


Полная версия статьи PDF

Номер журнала Вестник науки №1 (70) том 3

  


Ссылка для цитирования:

Умаев А.Г. РЕАЛИЗАЦИЯ ФОНЕТИЧЕСКОГО ПОИСКА В ЦИФРОВЫХ СЛОВАРЯХ НА ОСНОВЕ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ PYTHON // Вестник науки №1 (70) том 3. С. 716 - 719. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/12532 (дата обращения: 19.05.2024 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/12532



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.