Логотип Мысленного древа

МЫСЛЕННОЕ ДРЕВО

Мы делаем Украину – українською!

НАУКА

ОБРАЗО
ВАНИЕ

ЛИТЕРА
ТУРА

Письмо на сайт
Версия для печати
Лента новостей (RSS)
Наука / Языковедение / Однослов / Что это такое?

Что это такое?

«Однослов» – многоязычный орфографический словарь, ориентированный на потребности электронных изданий. Это собственная разработка группы «Мысленного древа». Главная его особенность – он содержит все словоформы, которые практически встречаются в текстах.

Как пользоваться

Основная страница «Однослова» состоит из блока управления и блока данных (в начале работы – пустого).

Блок управления содержит следующие элементы:

Языки: селектор позволяет работать со всеми имеющимися языках (все) или выбрать произвольную комбинацию языков (избранные). В последнем случае вам следует отметить по крайней мере один язык.

Классы: селектор позволяет работать со всеми классами слов (все) или выбрать произвольную комбинацию классов (избранные). В последнем случае вам следует отметить по крайней мере один класс. Подробнее о классах – ниже.

Начальные буквы: введите в окошко несколько начальных букв, чтобы «Однослов» начал выдачу со слова, которое равняется или превышает по алфавиту введеное. Регистр букв не имеет значения. Оставьте это окошко пустым, чтобы увидеть все возможные слова.

Нажмите кнопку «Показать» (или клавишу Enter) – появится область данных.

В начале области данных указано число отобранных слов.

Слова выводятся порциями по 30 в виде таблицы. Первая колонка содержит слово, вторая – язык, к которому оно отнесено, третья – класс слова, четвертая – количество вхождений слова.

Зеленым цветом выделено начало слова, которое совпадает с началом предыдущего слова. Этим легче пользоваться, чем объяснять.

Дважды щелкнув по подчеркнутом слову, вы откроете блок, который дает вам возможность найти примеры применения данного слова на наших сайтах. Слова, которые встречаются 100 и более раз, мы считаем общеизвестными и поэтому их не подчеркиваем. Примеры их применения можно найти самостоятельно.

Ниже таблицы стоит навигатор, который позволяет вам двигаться дальше по списку отобранных слов.

Частотный словарь

Частотный словарь организован так же, как и основной, только вместо окошка «Начальные буквы» стоит окошко «Максимальное число». Если оставить его пустым, будут выведены все слова, начиная с наиболее часто используемых. Если вы введете, например, «50» – будут выведены слова, которые встречаются 50 раз или меньше.

Статистика

На этой странице представлены некоторые статистические обобщения по набору слов.

Первая таблица – «Языки» – содержит данные о числе уникальных слов и число вхождений этих слов для каждого языка. Записи отсортированы в порядке убывания числа уникальных слов.

Вторая таблица – «Классы» – содержит данные о числе уникальных слов и число вхождений этих слов для каждого класса. Записи отсортированы в порядке убывания числа уникальных слов.

Третья таблица – «Длина слова» – содержит данные о числе уникальных слов и число вхождений этих слов, причем слова группируются по количеству букв. Записи отсортированы в порядке ворстания длины слова.

Страница статистики обновляется редактором словаря в ручном режиме. Это происходит непериодически, по мере накопления нового материала. Обращайте внимание на дату обновления внизу страницы.

Новые слова

На этой странице вы можете проанализировать свой текст с помощью «Однослова».

Скопируйте текст в буфер обмена и вставьте его в окно данных. Число знаков не должно превышать 10000, обращайте внимание на строку «Размер данных».

Нажмите кнопку «Создать список слов» и дождитесь ответа программы. Ниже строки «Результаты» появится окно с перечнем слов и итогом, например «Всего 204 уникальных слов встретилось 348 раз.»

Каждое слово в окне выводится отдельной строкой. Поля разделяются символами табуляции. Второе поле содержит язык, закодированный двумя буквами согласно : uk – украинский, ru – русский, en – английский, и т.д. Третье поле содержит одну букву – код класса слова. Четвертое поле – число вхождений данного слова.

Следует знать, что «Однослов» автоматически отвергает числа – записанные как арабскими цифрами (143), так и римскими (CXLIII), как целые (151), так и с дробным частью (151.28). Поэтому их в списке слов не будет. Но если римское число записано неправильно, скажем, с использованием букв кириллицы, слово будет включен в список слов с классом X – «ошибочные». Это очень эффективный способ проверки правильности написания римских цифр.

Другая возможность – нажать кнопку «Проверить по словарю…». При этом с помощью элементов «Языки» и «Классы» вы можете определить, какие категории слов вы хотите опустить. Нажмите кнопку «Проверить» и дождитесь результата. Он может выглядеть так: «Всего 50 уникальных слов; 43 слов найдено в основном словаре и удалено; 7 уникальных слов осталось.» Далее идут уникальные слова, найденные в вашем тексте, которых нет в «Однослове» (с учетом установленных вами ограничений на языки и классы).

Вы можете просмотреть этот список – нет ли там слов, которые написаны неправильно.

Классы слов

В «Однослове» предусмотрены следующие 9 классов слов:

Main – литературные;

Dialect – диалектные;

Slang – жаргонные;

Names – названия (имена);

Family (surnames) – фамилии;

Individual – индивидуальные;

Abbrevs – сокращения;

aRchaic – архаизмы;

X (mistaken) – ошибочные.

Эти классы кодируются латинскими буквами, выделенными полужирным.

Литературные слова – основной фонд слов каждого литературного языка.

Диалектные слова – такие, что используются только в части области распространения данного языка.

Жаргонные слова – очень широкий класс, который включает:

- междометия и звукоподражания (ура, ой…);

- Узкопрофессиональное слова (авиагоризонт, эмфизема, парааминофенол…);

- Транслитерированные иностранные выражения (Аллах акбар, Кирие елейсон, комильфо…);

- Редко употребляемые иностранные слова. Этот признак очень расплывчато, и ее применение всегда субъективно. Почему коэкзистенция – жаргонное слово, а кооперация (того же происхождения) – литературное? Однако мы считаем, что такое разделение может быть полезным.

- Простонародные варианты литературных слов (аглицикий (английский), баунька (бабушка), допущает (допускает)…);

- Экспрессивные и презрительные слова;

- Советизмы и сложносокращённые слова (колхоз, райисполком, Уралмаш…); также производные от сокращений слов (чекист, кагэбист…);

- Украинизмы в русском языке (бандура, куркуль, макитра…);

- Неологизмы, употребление которых еще не устоявшееся (дилер, киллер, ништяк, правосек…).

Класс названий включает географические названия, имена людей и другие имена. Сюда включаются также слова, производные от имен (московский, федоровский…).

Класс фамилий включает фамилии людей.

Индивидуальные слова включают все слова, которые встречаются только у одного автора и не используются другими (бабьятина, врабышек, знаемость…). По мере наполнения словаря класс этих слов может меняться на другой.

Сокращения – слова, регулярное написание которых включает не менее двух заглавных букв (ООН, США…).

Архаизмы – слова с устаревшим написанием (арангил, западныя, ноемврий…).

Ошибочные слова – вспомогательный класс, который «Однослов» в процессе автоматического анализа текста предоставляет в некоторых случаях, например:

- Слова с тремя одинаковыми буквами подряд (разззолоченный – раззолоченный);

- Слова, которые содержат цифры или знаки препинания (р0ждестро Хрис.тов0);

- Слова, которые содержат смесь кириллических и латинских букв, например, вода (правильно написано кириллицей) / вoдa (здесь буквы o, a – латинские, хотя внешне это не заметно). «Однослов» позволяет выявлять и исправлять эти малозаметные ошибки, которые снижают грамотность электронной публикации в глазах поисковых машин;

- Слова, которые содержат редкие последовательности букв, например высшше.

Автоматическое обозначение слова как ошибочного – указание редактору исправить ошибку или присвоить слову другой класс.

Технические и другие вопросы

1. Сортировка слов не всегда естественная…

Мы знаем об этом, и с этим ничего не поделать. Слова кодируются как UTF-8, и для сортировки используется таблица utf8_unicode_ci. Поэтому украинская буква Ґ совпадает с буквой Г, а русский Ё – с Е. Есть и другие особенности сортировки латиницы с диакритическими знаками.

2. Я вижу очевидную ошибку в написании слова или языке / классе.

Выделите слово в браузере и нажмите Ctrl + Enter. Мы рассмотрим ошибку и исправим ее.

3. Как наполняется словарь?

Это ручная работа редактора сайта. Сначала он анализирует текст автоматически, примерно так как это делает команда «Проверить по словарю». Далее рассматривается каждое слово, которого еще нет в словаре, исправляются ошибочные слова, а для других корректируется язык и класс, если автоматическое определение является неудовлетворительным.

4. И это ручная работа полезна?

За первые 8 месяцев эксплуатации «Однослова», анализируя уже размещенные на наших сайтах тексты, мы исправили не менее 10 000 орфографических ошибок. Считаем такое улучшение стоящим труда.

5. Можно добавить слова из моего текста в «Однослов»?

Сейчас нет. Мы имеем значительный запас уже опубликованных текстов, которые еще надо проверить – из них и пополняется «Однослов».

Последний вопрос. Можно получить словарь целиком?

Можно. Это архивированный текстовый файл в формате UTF-8 without BOM. Структура описана выше.

Скачайте бесплатно vocmain.rar ( 1.88 Мб)

Предыдущая статья | Перечень статей | Следующая статья

Понравилась страница? Помогите развитию нашего сайта!

© 1999 – 2019 Группа «Мысленного древа», авторы статей

Перепечатка статей с сайта приветствуется при условии
ссылки (гиперссылки) на наш сайт

Сайт живет на

Число загрузок : 893

Модифицировано : 2.03.2016

Если вы заметили ошибку набора
на этой странице, выделите
её мышкой и нажмите Ctrl+Enter.