Бібліотечний вісник | bv.nbuv.gov.ua
Кузнєцов О. - Визначення індексів УДК нових надходжень в електронному вигляді для формування електронної бібліотеки програмними засобами, Заїка В. (2023)

  АРХІВ (Всі випуски) /     Зміст випуска (2023, № 3)Ukrainian English

Кузнєцов О., Заїка В.

Визначення індексів УДК нових надходжень в електронному вигляді для формування електронної бібліотеки програмними засобами

Рубрика: Бібліотеки у цифровому середовищі

Анотація: Мета статті – запропонувати методику аналізу достовірності індексу УДК повнотекстових документів, що надходять до бібліотеки від різних організацій і авторів в електронному форматі, продемонструвати її застосування на прикладі п’яти електронних документів економічної тематики (індекс УДК 331), використовуючи створений програмний інструмент "Аналіз текстів". Методологія дослідження. Застосовано кількісний метод дослідження змісту документів. Для знаходження подібних за змістом документів (файлів) використано поняття "косинусної міри подібності" та розраховано коефіцієнти тематичного напряму для кожного документа. Текстові файли представлено у вигляді векторів у багатомірному просторі. З цією метою різні словоформи було зведено до однієї лексеми та пораховано кількість (або частоту) вживання лексем у кожному документі. Лексеми протлумачено як координати, а частоту вживань – як значення відповідної координати. Після векторизації текстів застосовано математичний апарат аналітичної геометрії, а тематиці кожного текстового документа співставлено відповідне числове значення – коефіцієнт тематичного напряму. Наукова новизна. Вперше використано методи контент-аналізу, а саме кількісний аналіз, для оцінки достовірності індексу УДК документа, створено програмний інструмент, використання якого допоможе систематизатору підтвердити чи спростувати індекс УДК сумнівного документа не читаючи його. Висновки. Авторський програмний інструмент та запропонована методика корекції УДК можуть бути використані при створенні репозитаріїв електронних текстів, вони сприятимуть підвищенню якості інформаційного пошуку та вибору контенту. При накопиченні певної кількості електронних документів, завдяки розробленій методиці, УДК нового тексту (надходження) можна визначити автоматично за показником коефіцієнтів тематичного напряму (близько одиниці) нового тексту та відповідного корпусу. Вектор коефіцієнтів тематичного напряму текстів, що досліджувались, їх розподіл за зростанням коефіцієнтів тематичного напряму, дав змогу виявити кластер – групу однакових текстів за змістом. Достовірним критерієм є величина коефіцієнту при змінній лінійної апроксимації, в ідеалі горизонтальна поличка на графіку розподілу коефіцієнтів тематичного напряму – коефіцієнт дорівнює одиниці. Кількість тематичних напрямів визначається кількістю кластерів.

Ключові слова: системи комп’ютерного аналізу тексту, контент-аналіз, косинусна міра подібності, індекс УДК, кластер, електронна бібліотека, частотний масив, коефіцієнт тематичного напряму, програмні пакети для контент-аналізу.



Цитованість авторів публікації:

Бібліографічний опис для цитування:
Кузнєцов О. Визначення індексів УДК нових надходжень в електронному вигляді для формування електронної бібліотеки програмними засобами / О. Кузнєцов, В. Заїка // Бібліотечний вісник. - 2023. - № 3. - С. 3-16. doi: https://doi.org/10.15407/bv2023.03.003


Бібліографія:

  1. Дані текстових корпусів у лінгвістичних дослідженнях: монографія / В. А. Широков, І. В. Шевченко, А. П. Загнітко та ін.; Національний ун-т "Львівська політехніка". Львів : Вид-во Львів. політехніки, 2015. 160 с.
  2. Симоненко Т. В. Мережеве інформаційно-бібліотечне забезпечення наукових досліджень: автореф. дис. канд. наук із соц. комунікацій / НАН України, Нац. б-ка України ім. В. І. Вернадського. Київ, 2011. 18 с.
  3. Chatbot GPT.
  4. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. 506 p.
  5. Concordance.
  6. Content Analysis – Methods, Types and Examples.
  7. Descriptions of Inquirer Categories and Use of Inquirer Dictionaries.
  8. Lowe W. Yoshikoder: Cross-platform multilingual content analysis’. Java software version 0.6.5. 2015.
  9. News about News.
  10. The American Newspaper: a Study in Social Psychology.
  11. Watson.
  12. Weber R. P. Basic Content Analysis. Beverly Hills, CA: SAGE. 1990. 96 p.
  13. Worldwide IDC Global DataSphere Forecast, 2022–2026.
  14. Zaidman-Zait A. Content Analysis. 2014. doi: https://doi.org/10.1007/978-94-007-0753-5_552