Логотип Мисленого древа

МИСЛЕНЕ ДРЕВО

Ми робимо Україну – українською!

НАУКА

ОСВІТА

ЛІТЕРА
ТУРА

Лист на сайт
Версія для друку
Стрічка новин (RSS)
Наука / Мовознавство / Однослов / Що це таке?

Що це таке?

«Однослов» – багатомовний орфографічний словник, орієнтований на потреби електронних видань. Це власна розробка групи «Мисленого древа». Головна його особливість – він містить усі словоформи, які практично зустрічаються в текстах.

Як користуватись

Основна сторінка «Однослова» складається з блоку управління і блоку даних (на початку роботи – порожнього).

Блок управління містить наступні елементи:

Мови: селектор дозволяє вам працювати з усіма наявними мовами (всі) або вибрати довільну комбінацію мов (вибрані). В останньому випадку вам слід відзначити принаймні одну мову.

Класи: селектор дозволяє вам працювати з усіма класами слів (всі) або вибрати довільну комбінацію класів (вибрані). В останньому випадку вам слід відзначити принаймні один клас. Докладніше про класи – нижче.

Початкові літери: введіть у віконце кілька початкових літер, щоб «Однослов» розпочав видачу зі слова, яке дорівнює або перевищує за абеткою введене. Регістр літер не має значення. Залишіть це віконце порожнім, щоб побачити усі можливі слова.

Натисніть кнопку «Показати» (або клавішу Enter) – з’явиться область даних.

На початку області даних зазначено число відібраних слів.

Слова виводяться порціями по 30 у вигляді таблиці. Перша колонка містить слово, друга – мову, до якої воно віднесене, третя – клас слова, четверта – кількість входжень слова.

Зеленим кольором виділено початок слова, який співпадає з початком попереднього слова. Цим легше користатись, ніж пояснювати.

Двічі клацнувши по підкресленому слову, ви розгорнете блок, який дає вам можливість знайти приклади застосування даного слова на наших сайтах. Слова, які зустрічаються 100 і більше разів, ми вважаємо загальновідомими і тому їх не підкреслюємо. Приклади їх застосування можна знайти самостійно.

Нижче таблиці стоїть навігатор, який дозволяє вам рухатись далі по списку відібраних слів.

Частотний словник

Частотний словник організовано так само, як і основний, тільки замість віконця «Початкові літери» стоїть віконце «Максимальне число». Якщо залишити його порожнім, будуть виведені усі слова, починаючи від найчастіше вживаних. Якщо ви введете, наприклад, «50» – будуть виведені слова, що зустрічаються 50 разів або менше.

Статистика

На цій сторінці представлено деякі статистичні узагальнення щодо набору слів.

Перша таблиця – «Мови» – містить дані про число унікальних слів та число входжень цих слів для кожної мови. Записи відсортовано в порядку зменшення числа унікальних слів.

Друга таблиця – «Класи» – містить дані про число унікальних слів та число входжень цих слів для кожного класу. Записи відсортовано в порядку зменшення числа унікальних слів.

Третя таблиця – «Довжина слова» – містить дані про число унікальних слів та число входжень цих слів, причому слова групуються за кількістю літер. Записи відсортовано в порядку зростання довжини слова.

Сторінка статистики оновлюється редактором словника в ручному режимі. Це відбувається неперіодично, в міру нагромадження нового матеріалу. Звертайте увагу на дату оновлення внизу сторінки.

Нові слова

На цій сторінці ви можете проаналізувати свій текст за допомогою «Однослова».

Скопіюйте текст в буфер обміну і вставте його у вікно даних. Число знаків не повинно перевищувати 10 000, звертайте увагу на рядок «Розмір даних».

Натисніть кнопку «Створити список слів» і дочекайтесь відповіді програми. Нижче рядка «Результати» з’явиться вікно з переліком слів і підсумком, наприклад «Всього 204 унікальних слів зустрілось 348 разів.»

Кожне слово у вікні виводиться окремим рядком. Поля розділяються символами табуляції. Друге поле містить мову, закодовану двома літерами згідно : uk – українська, ru – російська, en – англійська, і т.д. Третє поле містить одну літеру – код класа слова. Четверте поле – число входжень даного слова.

Слід знати, що «Однослов» автоматично відкидає числа – записані як арабськими цифрами (143), так і римськими (CXLIII), як цілі (151) так і з дробною частиною (151.28). Тому їх у списку слів не буде. Але якщо римське число записано неправильно, скажімо, з використанням літери кирилиці, таке слово буде включено у список слів з класом X – «помилкові». Це дуже ефективний спосіб перевірки правильності написання римських чисел.

Інша можливість – натиснути кнопку «Перевірити за словником…». При цьому за допомогою елементів «Мови» та «Класи» ви можете визначити, які категорії слів ви хочете опустити. Натисніть кнопку «Перевірити» і дочекайтесь результату. Він може виглядати так: «Всього 50 унікальних слів; 43 слів знайдено в основному словнику і видалено; 7 унікальних слів залишилось.» Далі йдуть унікальні слова, знайдені у вашому тексті, яких немає в «Однослові» (з урахуванням встановлених вами обмежень на мови і класи).

Ви можете переглянути цей список – чи нема там слів, які написані неправильно.

Класи слів

В «Однослові» передбачено наступні 9 класів слів:

Main – літературні;

Dialect – діалектні;

Slang – жаргонні;

Names – назви (власні імена);

Family (surnames) – прізвища;

Individual – індивідуальні;

Abbrevs – скорочення;

aRchaic – архаїзми;

X (mistaken) – помилкові.

Ці класи кодуються латинськими літерами, виділеними півжирним.

Літературні слова – основний фонд слів кожної літературної мови.

Діалектні слова – такі, що вживаються тільки у частині області поширення даної мови. Для української мови до цього класу віднесено також слова, написання яких вважалось нормативним у рамках застарілих правописів (лямпа – кляса – фльота).

Жаргонні слова – дуже широкий клас, який включає:

– окличники та звуконаслідування (гей, ух…);

– вузькопрофесійні слова (авіагоризонт, емфізема, параамінофенол…);

– транслітеровані іноземні вирази (аллах акбар, кіріє єлейсон, комільфо…);

– рідко вживані іноземні слова. Ця ознака дуже розпливчаста, і її застосування завжди суб’єктивне. Чому коекзистенція – жаргонне слово, а кооперація (того самого походження) – літературне? Однак ми вважаємо, що такий поділ може бути корисним.

– простонародні варіанти літературних слів (ахвіцер (офіцер), восько (військо), кіло (кілограм), копірка (копіювальний папір)…);

– експресивні та зневажливі слова (кацап, міщух…);

– радянізми та складноскорочені слова (колгосп, райвиконком, Нафтогаз…); також похідні від скорочень слова (чекіст, кадебіст…);

– русизми в українській мові (визов, гоненіє, мніння…);

– неологізми, вживання яких ще не усталене (дилер, кілер, майданування, правосек…).

Клас назв включає географічні назви, імена людей та інші власні назви. Сюда включаються також слова, похідні від власних назв (полтавський, федорівський…).

Клас прізвищ включає прізвища людей.

Індивідуальні слова включають всі слова, які зустрічаються тільки в одного автора і не вживаються іншими (віршар, двигар, заможець…). По мірі наповнення словника клас цих слів може змінюватись на інший.

Скорочення – слова, регулярне написання яких включає не менше двох заглавних літер (ООН, США…).

Архаїзми – слова із застарілим написанням (алє, знашолъ, мевати…).

Помилкові слова – допоміжний клас, який «Однослов» в процесі автоматичного аналізу тексту надає у деяких випадках, наприклад:

– слова з трьома однаковими літерами підряд (розззолочений – роззолочений);

– слова, які містять цифри або розділові знаки (р1здв0 Хрис.тове);

– слова, які містять суміш кириличних та латинських літер, наприклад, вода (правильно написане кирилицею) / вoдa (тут літери o, a – латинські, хоча зовні це не помітно). «Однослов» дозволяє виявляти і виправляти ці малопомітні помилки, які знижують грамотність електронної публікації в очах пошукових машин;

– слова, які містять рідкісні послідовності літер, наприклад красшче.

Автоматичне позначення слова як помилкового – вказівка редактору виправити помилку або надати слову інший клас.

Технічні та інші питання

1. Сортування слів не завжди природне…

Ми знаємо про це, і на це нема ради. Слова кодуються як UTF-8, і для сортування використвується таблиця utf8_unicode_ci. Тому українська літера Ґ співпадає з літерою Г, а російська Ё – з Е. Є й інші особливості сортування латиниці з діакритичними знаками.

2. Я бачу очевидну помилку в написанні слова або мові / класі.

Виділіть слово в браузері і натисніть Ctrl+Enter. Ми розглянемо помилку і виправимо її.

3. Як наповнюється словник?

Це ручна робота редактора сайту. Спочатку він аналізує текст автоматично, приблизно так як це робить команда «Перевірити за словником». Далі розглядається кожне слово, яких ще немає у словнику, виправляються помилкові слова, а для інших коригується мова і клас, якщо автоматичне визначення є незадовільним.

4. І ця ручна робота корисна?

За перші 8 місяців експлуатації «Однослова», аналізуючи уже розміщені на наших сайтах тексти, ми виправили не менше 10 000 орфографічних помилок. Вважаємо таке поліпшення вартим праці.

5. Чи можна додати слова з мого тексту в «Однослов»?

Наразі ні. Ми маємо значний запас уже опублікованих текстів, які ще треба перевірити – з них і поповнюється «Однослов».

Останнє запитання. Чи можна отримати словник цілком?

Можна. Це архівований текстовий файл у форматі UTF-8 without BOM. Структура описана вище.

Завантажте безкоштовно vocmain.rar ( 1.88 Мб)

Попередня стаття | Перелік статей | Наступна стаття

Сподобалась сторінка? Допоможіть розвитку нашого сайту!

© 1999 – 2018 Група «Мисленого древа», автори статей

Передрук статей із сайту заохочується за умови
посилання (гіперпосилання) на наш сайт

Сайт живе на

Число завантажень : 870

Модифіковано : 2.03.2016

Якщо ви помітили помилку набору
на цiй сторiнцi, видiлiть її мишкою
та натисніть Ctrl+Enter.