АРХІВ (Всі випуски) / Зміст випуска (2023, № 3)
Кузнєцов О., Заїка В. Визначення індексів УДК нових надходжень в електронному вигляді для формування електронної бібліотеки програмними засобамиРубрика: Бібліотеки у цифровому середовищі Анотація: Мета статті – запропонувати методику аналізу достовірності індексу УДК повнотекстових документів, що надходять до бібліотеки від різних організацій і авторів в електронному форматі, продемонструвати її застосування на прикладі п’яти електронних документів економічної тематики (індекс УДК 331), використовуючи створений програмний інструмент "Аналіз текстів". Методологія дослідження. Застосовано кількісний метод дослідження змісту документів. Для знаходження подібних за змістом документів (файлів) використано поняття "косинусної міри подібності" та розраховано коефіцієнти тематичного напряму для кожного документа. Текстові файли представлено у вигляді векторів у багатомірному просторі. З цією метою різні словоформи було зведено до однієї лексеми та пораховано кількість (або частоту) вживання лексем у кожному документі. Лексеми протлумачено як координати, а частоту вживань – як значення відповідної координати. Після векторизації текстів застосовано математичний апарат аналітичної геометрії, а тематиці кожного текстового документа співставлено відповідне числове значення – коефіцієнт тематичного напряму. Наукова новизна. Вперше використано методи контент-аналізу, а саме кількісний аналіз, для оцінки достовірності індексу УДК документа, створено програмний інструмент, використання якого допоможе систематизатору підтвердити чи спростувати індекс УДК сумнівного документа не читаючи його. Висновки. Авторський програмний інструмент та запропонована методика корекції УДК можуть бути використані при створенні репозитаріїв електронних текстів, вони сприятимуть підвищенню якості інформаційного пошуку та вибору контенту. При накопиченні певної кількості електронних документів, завдяки розробленій методиці, УДК нового тексту (надходження) можна визначити автоматично за показником коефіцієнтів тематичного напряму (близько одиниці) нового тексту та відповідного корпусу. Вектор коефіцієнтів тематичного напряму текстів, що досліджувались, їх розподіл за зростанням коефіцієнтів тематичного напряму, дав змогу виявити кластер – групу однакових текстів за змістом. Достовірним критерієм є величина коефіцієнту при змінній лінійної апроксимації, в ідеалі горизонтальна поличка на графіку розподілу коефіцієнтів тематичного напряму – коефіцієнт дорівнює одиниці. Кількість тематичних напрямів визначається кількістю кластерів. Ключові слова: системи комп’ютерного аналізу тексту, контент-аналіз, косинусна міра подібності, індекс УДК, кластер, електронна бібліотека, частотний масив, коефіцієнт тематичного напряму, програмні пакети для контент-аналізу. Цитованість авторів публікації:
Бібліографічний опис для цитування: Бібліографія:
|