Орфоэпические базы сервиса «Акцентавр» — это наборы записей «ключ/значение», где ключ — образец для поиска в тексте, а значение — его форма с ударением (знаками твёрдости/мягкости согласных). Они хранятся на сервере и скачиваются каждый раз перед обработкой книги.
По уровню доступа базы делятся на публичные и персональные. Первые подразделяются на бесплатные, доступные всем посетителям сайта, и премиум-базы, доступные зарегистрированным пользователям, оплатившим премиум-доступ. Частная база не доступна никому, кроме владельца.
Частные базы могут создавать только премиум-пользователи. Максимальное количество частных баз для одного аккаунта составляет 10 шт. Если этого недостаточно, вопрос об увеличении их количества решается по запросу через форму обратной связи.
По типу обработки базы подразделяются на акцентологические и универсальные. В первых содержатся только ударения, во вторых кроме ударений содержатся также знаки твёрдости и мягкости согласных, обозначаемые надчёркиванием и обратным ударением.
Принципы публичных орфоэпических баз
Публичные базы составлены в соответствии с принципами, которых автор сервиса придерживается из практических соображений.
Принцип №1. Не добавлять то, что и так понятно
Публичные орфоэпические базы не содержат записей для слов, ударение в которых не вызывает затруднений.
Практические соображения:
- улучшение производительности сервера за счёт меньшего «веса» баз;
- сохранение удобочитаемости обработанного текста благодаря отсутствию «лишних» знаков;
- ускорение релиза проекта в силу меньших трудозатрат, так как все орфоэпические базы составляются и отлаживаются вручную.
Принцип №2. Без самодеятельности
Все публичные орфоэпические базы составлены в соответствии с тем или иным авторитетным источником, который в обязательном порядке упоминается в названии. Исключение — Бесплатная орфоэпическая база, источник которой указан только в её блоке информации.
Практические соображения:
- Гарантии корректности обработки;
- Предоставление свободы выбора чтецу;
- Возможность согласования с политикой издательств аудиокниг, требующих соблюдения норм определённых словарных изданий.
Принцип №3. Комбинированный подход
Записи словарей подразделяются на два типа: для частичных и точных совпадений. Первый тип обрабатывает все словоформы, с началом которых совпадает. Так, запись бале́т обработает слова балет, балете, балетки и (ошибочно) балетмейстер. Второй тип срабатывает только при полном совпадении словоформы с записью.
Приоритет записей
Если для слова подходят две записи разного типа, то выбирается вариант для точных совпадений. Если подходят две для частичных, «побеждает» та, что длиннее. Так, при наличии записи бале́т для корректной обработки слова балетмейстерами нужна запись балетме́йстер.
Одно слово может быть обработано только одной записью из словаря.
Преимущество записей для точных совпадений — они всегда предсказуемы, недостаток — для каждой словоформы нужна отдельная запись.
Преимущество записей для частичных совпадений — могут «покрывать» множество словоформ, недостаток — требуют проверки и экранирования от «ложных срабатываний».
При составлении личных словарей пользователь может выбирать любой из этих подходов, а также их комбинацию.
Практические соображения относительно применения комбинированного подхода при составлении публичных словарей:
- Повышение производительности сервера за счёт уменьшения «веса» словарей;
- Ускорение релиза сервиса благодаря снижению объёма ручной работы.
Принцип №4. Без вариантов
Если авторитетный источник, по которому создаётся база, приводит два равноправных ударения, запись для слова не производится.
Практические соображения:
- Надо следовать источнику, который допускает оба варианта;
- Предотвращение запинок чтеца при встрече слов с двумя ударениями.
Правило №5. Однозначно
Если ударение в слове может переноситься в зависимости от контекста, запись для него также не вносится в словарь.
- У две́ри — в двери́.
- По гря́зи — в грязи́.
Это же касается и двух разных слов, имеющих одинаковые словоформы с разными ударениями.
- Нарвала́ — гл., пр. в., ж. р.
- Нарва́ла (мор. млекоп.) — сущ., Р. п., ед. ч.
Доступные публичные базы
Описание орфоэпической базы содержит основные сведения об авторитетном источнике, на основе которого она создана, и следующие характеристики.
- Лицензия. Бесплатные базы доступны всем посетителям сайта, премиум-базы — пользователям, прошедшим регистрацию и оплатившим премиум-доступ.
- Тип. Акцентологические базы разработаны для расстановки только ударений, универсальные — содержат также информацию для маркировки мягкости/твёрдости согласных.
- Количество лексем. Под лексемой подразумевается совокупность всех словоформ одной словарной единицы.
- Количество записей. Запись в зависимости от своего типа — для полных или частичных совпадений — может обрабатывать как одну словоформу, так и целую лексему. Но чаще всего для корректной обработки одной лексемы требуется несколько записей.
Бесплатная орфоэпическая база
Содержит записи для расстановки ударений в соответствтии с документом Орфоэпический словник ЕГЭ. Русский язык. 2025 год. Предназначена для ознакомления с базовым функционалом сервиса.
Лицензия: бесплатная
Тип: акцентологическая
Количество лексем: 206
Количество записей: 527
