Бібліотечний вісник | НБУВ Національна бібліотека України імені В. І. Вернадського

Видання в опрацюванні - ще не надійшло за місцем зберігання, неповний бібліографічний опис.

Кузнєцов, Олександр (Державна науково-технічна бібліотека України, Україна, Київ).

Визначення індексів УДК нових надходжень в електронному вигляді для формування електронної бібліотеки програмними засобами [Текст] / О. Кузнєцов, В. Заїка // Бібліотечний вісник. - 2023. - № 3. - С.3-16
Шифр журнала: Ж14595/2023/3

Кл.слова (ненормированные):
системи комп’ютерного аналізу тексту, контент-аналіз, косинусна міра подібності, індекс УДК, кластер, електронна бібліотека, частотний масив, коефіцієнт тематичного напряму, програмні пакети для контент-аналізу.. computer text analysis systems, content analysis, cosine similarity measure, UDC index, cluster, electronic library, frequency array, coefficient of thematic direction, software packages for content analysis.
Аннотация: Мета статті – запропонувати методику аналізу достовірності індексу УДК повнотекстових документів, що надходять до бібліотеки від різних організацій і авторів в електронному форматі, продемонструвати її застосування на прикладі п’яти електронних документів економічної тематики (індекс УДК 331), використовуючи створений програмний інструмент "Аналіз текстів". Методологія дослідження. Застосовано кількісний метод дослідження змісту документів. Для знаходження подібних за змістом документів (файлів) використано поняття "косинусної міри подібності" та розраховано коефіцієнти тематичного напряму для кожного документа. Текстові файли представлено у вигляді векторів у багатомірному просторі. З цією метою різні словоформи було зведено до однієї лексеми та пораховано кількість (або частоту) вживання лексем у кожному документі. Лексеми протлумачено як координати, а частоту вживань – як значення відповідної координати. Після векторизації текстів застосовано математичний апарат аналітичної геометрії, а тематиці кожного текстового документа співставлено відповідне числове значення – коефіцієнт тематичного напряму. Наукова новизна. Вперше використано методи контент-аналізу, а саме кількісний аналіз, для оцінки достовірності індексу УДК документа, створено програмний інструмент, використання якого допоможе систематизатору підтвердити чи спростувати індекс УДК сумнівного документа не читаючи його. Висновки. Авторський програмний інструмент та запропонована методика корекції УДК можуть бути використані при створенні репозитаріїв електронних текстів, вони сприятимуть підвищенню якості інформаційного пошуку та вибору контенту. При накопиченні певної кількості електронних документів, завдяки розробленій методиці, УДК нового тексту (надходження) можна визначити автоматично за показником коефіцієнтів тематичного напряму (близько одиниці) нового тексту та відповідного корпусу. Вектор коефіцієнтів тематичного напряму текстів, що досліджувались, їх розподіл за зростанням коефіцієнтів тематичного напряму, дав змогу виявити кластер – групу однакових текстів за змістом. Достовірним критерієм є величина коефіцієнту при змінній лінійної апроксимації, в ідеалі горизонтальна поличка на графіку розподілу коефіцієнтів тематичного напряму – коефіцієнт дорівнює одиниці. Кількість тематичних напрямів визначається кількістю кластерів.^UThe purpose of the article is to propose a validation technique of the UDC index of library electronic documents accessions and to demonstrate its usage for the five electronic documents on economic topics (UDC index 331) based on the developed software tool "Text Analysis". Research methodology. The quantitative method of document content research is applied. To find documents (files) similar in content, the concept of the cosine measure of similarity was used and coefficients of the thematic direction, were calculated for each document. Text files were vectorized, that is, represented as vectors in a multidimensional space. For this purpose, different word forms were reduced to one lexeme and the number (or frequency) of lexeme usage in each document was calculated. Lexemes are interpreted as coordinates, and the frequency of use is interpreted as the value of the corresponding coordinate. After vectorization of the texts, the mathematical apparatus of analytical geometry was applied, and a numerical value - the coefficient of the thematic direction - was matched to the topic of each text document. Scientific novelty. For the first time, methods of content analysis, namely, quantitative analysis, were used to assess the reliability of the UDC index of a document, and a software tool was created, the use of which will help the systematizer to confirm or refute the UDC index of a dubious document without reading it. Conclusions. The author’s software tool and the proposed UDC correction technique can be used when creating repositories of electronic texts and will contribute to improving the quality of information search and content selection. When accumulating a certain number of electronic documents, thanks to the developed methodology, the UDC of a new text (receipt) can be determined automatically by the indicator of the coefficients of the thematic direction (close to one) of the new text and the corresponding corpus. The vector of coefficients of the thematic direction of the studied texts, their distribution according to the growth of the coefficients of the thematic direction, made it possible to identify a cluster - a group of texts with the same content. A reliable criterion is the value of the coefficient for a variable linear approximation, ideally a horizontal shelf on the graph of the distribution of the coefficients of the thematic direction - the coefficient is equal to one. The number of thematic areas is determined by the number of clusters.
Файл: bv_2023_3_3.pdf - 0

Дод. точки доступу:
Заїка, Віктор (Національна бібліотека України імені В. І. Вернадського, Україна, Київ)