Словари сервиса «Акцентавр» — это наборы записей «ключ/значение», где ключ — образец для поиска в тексте, а значение — его форма с ударением (знаками твёрдости/мягкости согласных). Они хранятся на сервере и скачиваются каждый раз перед обработкой книги.
По уровню доступа словари подразделяются на бесплатные, премиум-словари и личные. К первой категории относится Базовый бесплатный словарь, работа с которым доступна даже без регистрации. Ко второй — все остальные публичные словари. К третьей — личные словари пользователей, доступные только их авторам.
По типу обработки словари подразделяются на акцентологические и орфоэпические. В первых содержатся только ударения, во вторых кроме ударений содержатся также знаки твёрдости и мягкости согласных, обозначаемые надчёркиванием и обратным ударением.
Концепция публичных словарей
Публичные словари составлены в соответствии с концепцией, принятой автором сервиса исходя из практических соображений. При составлении личных словарей пользователи могут её не придерживаться.
Правило №1. Только хардкор
Публичные словари не содержат записей для слов, ударение в которых не вызывает затруднений.
Основания для решения:
- улучшение производительности за счёт меньшего «веса» словарей;
- сохранение удобочитаемости обработанного текста благодаря отсутствию «лишних» знаков;
- ускорение релиза проекта в силу меньших трудозатрат: все словари составляются вручную.
Правило №2. Без самодеятельности
Все публичные словари составлены в соответствии с тем или иным авторитетным источником, который в обязательном порядке упоминается в названии. Исключение — Базовый бесплатный словарь, источник которого указан только в блоке информации о словаре.
Основания для решения:
- Гарантии корректности обработки;
- Предоставление свободы выбора чтецу;
- Возможность согласования с политикой издательств аудиокниг, требующих соблюдения норм определённых словарных изданий.
Правило №3. Комбинированный подход
Записи словарей подразделяются на два типа: для частичных и точных совпадений. Первый тип обрабатывает все словоформы, с началом которых совпадает. Так, запись бале́т обработает слова балет, балете, балетки и (ошибочно) балетмейстер. Второй тип срабатывает только при полном совпадении словоформы с записью.
Приоритет записей
Если для слова подходят две записи разного типа, то выбирается вариант для точных совпадений. Если подходят две для частичных, «побеждает» та, что длиннее. Так, при наличии записи бале́т для корректной обработки слова балетмейстерами нужна запись балетме́йстер.
Одно слово может быть обработано только одной записью из словаря.
Преимущество записей для точных совпадений — они всегда предсказуемы, недостаток — для каждой словоформы нужна отдельная запись.
Преимущество записей для частичных совпадений — могут «покрывать» множество словоформ, недостаток — требуют проверки и экранирования от «ложных срабатываний».
При составлении личных словарей пользователь может выбирать любой из этих подходов, а также их комбинацию.
Основания для выбора комбинированного подхода при составлении публичных словарей:
- Повышение производительности за счёт уменьшения «веса» словарей;
- Ускорение релиза благодаря снижению объёма ручной работы.
Правило №4. Без вариантов!
Если авторитетный источник словаря даёт два равноправных ударения, запись для слова не производится.
Основания:
- Строгое следование источнику, допускающему оба варианта;
- Предотвращение запинок чтеца при встрече слов с двумя ударениями..
Правило №5. Однозначно!
Если ударение в слове может переноситься в зависимости от контекста, запись для него также не вносится в словарь.
- У две́ри — в двери́.
- По гря́зи — в грязи́.
Это же касается и двух разных слов, имеющих одинаковые словоформы с разными ударениями.
- Нарвала́ — гл., пр. в., ж. р.
- Нарва́ла (мор. млекоп.) — сущ., Р. п., ед. ч.
Базовый бесплатный словарь
