Москва

82544

Автор(ы): 

Автор(ов): 

7

Параметры публикации

Тип публикации: 

Тезисы доклада

Название: 

Методы поиска почти-дубликатов рукописных документов в больших коллекциях текстов

ISBN/ISSN: 

978-5-907366-77-0

Наименование конференции: 

  • 14-я Международная конференция "Интеллектуализация обработки информации" (Москва, 2022)

Наименование источника: 

  • Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022)

Город: 

  • Москва

Издательство: 

  • Российская Академия наук

Год издания: 

2022

Страницы: 

361-362
Аннотация
В работе рассматривается задача поиска почти-дубликатов текстов школьных сочинений в больших коллекциях данных. Предпосылками к решению данной задачи является возможность школьников применять для написания выпускных сочинений заранее заготовленные тексты, в том числе полученные из открытых коллекций школьных сочинений. Актуальность задачи подтверждается работами [1, 2], посвященными анализу нарушений при написании академических испытаний, а также частичному переходу школьного образования на удаленный режим. Задача поиска почти-дубликатов рассматривается как задача информационного поиска, где сочинению ставится в соответствие заимствованный текст из коллекции. В рамках рассматриваемой задачи сочинение представляется набором изображений рукописного текста, написанного автором, в то время как документы из коллекции представимы в виде машиночитаемых текстов.

Библиографическая ссылка: 

Бахтеев О.Ю., Грабовой А.В., Каприелова М.С., Кильдяков А.С., Сейил Т.Б., Финогеев Е.Л., Чехович Ю.В. Методы поиска почти-дубликатов рукописных документов в больших коллекциях текстов / Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022). М.: Российская Академия наук, 2022. С. 361-362.

82543

Автор(ы): 

Автор(ов): 

4

Параметры публикации

Тип публикации: 

Доклад

Название: 

Anti-Distillation: Knowledge Transfer from a Simple Model to the Complex One

ISBN/ISSN: 

2767-9535

DOI: 

10.1109/ispras57371.2022.10076855

Наименование конференции: 

  • 2022 Ivannikov Ispras Open Conference (ISPRAS)

Наименование источника: 

  • Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2022

Город: 

  • Москва

Издательство: 

  • IEEE

Год издания: 

2022

Страницы: 

https://ieeexplore.ieee.org/document/10076855
Аннотация
The paper considers the problem of adapting the model to new data with a large amount of information. We propose to build a more complex model using the parameters of a simple one. We take into account not only the accuracy of the prediction on the original samples but also the adaptability to new data and the robustness of the obtained solution. The work is devoted to developing the method that allows adapting the pre-trained model to a more heterogeneous dataset. In the computational experiment, we analyse the quality of predictions and model robustness on Fashion-MNIST dataset.

Библиографическая ссылка: 

Петрушина К.Е., Бахтеев О.Ю., Грабовой А.В., Стрижов В.В. Anti-Distillation: Knowledge Transfer from a Simple Model to the Complex One / Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2022. М.: IEEE, 2022. С. https://ieeexplore.ieee.org/document/10076855.

82541

Автор(ы): 

Автор(ов): 

3

Параметры публикации

Тип публикации: 

Доклад

Название: 

A Method of Multilingual Summarization For Scientific Documents

Электронная публикация: 

Да

ISBN/ISSN: 

2767-9535

DOI: 

10.1109/ispras57371.2022.10076852

Наименование конференции: 

  • 2022 Ivannikov Ispras Open Conference (ISPRAS)

Наименование источника: 

  • Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2022

Город: 

  • Москва

Издательство: 

  • IEEE

Год издания: 

2022

Страницы: 

https://ieeexplore.ieee.org/document/10076852
Аннотация
The article considers the problem of multilingual summarization generation for scientific documents. To solve this, we propose a method based on the summarization-translation approach. The method decomposes the original task into two separate tasks: monolingual document summarization and multilingual summarization. In the first task monolingual summary is generated for the document in the document language. In the second task resulting monolingual summary is translated into the language of interest. The paper analyses different abstractive and extractive models to choose the optimal one as a monolingual summarization model. The best model is selected based on the rouge metric, as well as on the newly proposed metrics. The multilingual summarization model uses Moses statistical machine translation model and post-processing based on the mT5 transformer model. The proposed system was tested on the Wikipedia dataset for 15 different languages. It is shown that the proposed system of models can generate multilingual summaries in 15 languages.

Библиографическая ссылка: 

Гращенков К.В., Грабовой А.В., Хабутдинов И.А. A Method of Multilingual Summarization For Scientific Documents / Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2022. М.: IEEE, 2022. С. https://ieeexplore.ieee.org/document/10076852.

82540

Автор(ы): 

Автор(ов): 

3

Параметры публикации

Тип публикации: 

Доклад

Название: 

Automatic Spelling Correction for Russian: Multiple Error Approach

Электронная публикация: 

Да

ISBN/ISSN: 

2767-9535

DOI: 

10.1109/ispras60948.2023.10508161

Наименование конференции: 

  • 2023 Ivannikov Ispras Open Conference (ISPRAS)

Наименование источника: 

  • Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2023

Город: 

  • Москва

Издательство: 

  • IEEE

Год издания: 

2023

Страницы: 

https://ieeexplore.ieee.org/document/10508161
Аннотация
To date, the amount of textual information is consistently expanding and reaching wider audiences, leading to a rise in spelling and typography errors. This further accentuates the Automatic Spelling Correction problem, which remains one of the primary tasks of Natural Language Processing. At the moment this problem is not widely studied for the Russian language and supposed models often have the strict limitation of the number of errors in the word. This paper presents a model for Automatic Spelling Correction in the Russian language that can handle multiple error cases without limits on the number of errors processed. The model is based on a probabilistic approach and consists of multiple stages, including classification of word correctness, preliminary candidate search with shingle-based approach, source model, error model with the application of bigrams and phonetics. We outline the process of obtaining data from open sources and investigate different methods of constructing and utilising dictionaries. By searching for candidates using a shingle-based approach with no limit on the number of errors, the model is resistant to multiple error cases. The shingle-based search is compared with the fixed cut distance candidate generation approach. We use several test samples and obtain a top-5 F1-score of 0.80 on the real data, which is mostly social media, and 0.91 on the hand-crafted sample with multiple errors.

Библиографическая ссылка: 

Варламова К.Д., Хабутдинов И.А., Грабовой А.В. Automatic Spelling Correction for Russian: Multiple Error Approach / Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2023. М.: IEEE, 2023. С. https://ieeexplore.ieee.org/document/10508161.

82535

Автор(ы): 

Автор(ов): 

6

Параметры публикации

Тип публикации: 

Доклад

Название: 

Ensembling Models for the Generation of Queries to an Altering Search Engine Using Reinforcement Learning

Электронная публикация: 

Да

ISBN/ISSN: 

2767-9535

DOI: 

10.1109/ispras60948.2023.10508170

Наименование конференции: 

  • 2023 Ivannikov Ispras Open Conference (ISPRAS)

Наименование источника: 

  • Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2023

Город: 

  • Москва

Издательство: 

  • IEEE

Год издания: 

2023

Страницы: 

https://ieeexplore.ieee.org/document/10508170
Аннотация
The automatic generation of queries to a search engine based on the incoming text is important for question-answering, recommendation, and text reuse detection systems. Every such query requires resources from a user and a search engine itself. A method of ensembling query generation models that maximizes the search completeness metric for the minimum number of queries could be useful. The task of selecting the best model or an ensemble of models is trivial for the case of a fixed search engine. However, real search engines are constantly changing their behavior, learning on incoming data, changing their index of web pages and documents. They are black boxes for a user. In this paper we propose an approach to ensemble query generation models based on reinforcement learning. By reformulating the problem so that the agent selects a sequence of models rather than a single query generation model, we guarantee maximum retrieval recall even when the worst possible action is selected. As a reward, we introduce a discount recall metric that penalizes the agent for each extra step of a model request. We modify the UCB learning algorithm so that the re-initialization of the recidivism penalty matrix occurs independently of the engine index state. In this way, we ensure that the top 3 best actions (i.e. sequences of generation model requests) are found in just 5 epochs, each epoch contains 1050 documents. The model ensemble maintains a stable performance even when the index alters in a way that the ensemble was not informed about.

Библиографическая ссылка: 

Шодиев Д., Копаничук И.В., Чащин А.В., Грабовой А.В., Кильдяков А.С., Чехович Ю.В. Ensembling Models for the Generation of Queries to an Altering Search Engine Using Reinforcement Learning / Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2023. М.: IEEE, 2023. С. https://ieeexplore.ieee.org/document/10508170.

82533

Автор(ы): 

Автор(ов): 

2

Параметры публикации

Тип публикации: 

Доклад

Название: 

Численное моделирование протекания термоядерных реакций при имплозии в протяженной оболочке

Электронная публикация: 

Да

ISBN/ISSN: 

978-5-91450-283-3

Наименование конференции: 

  • 18-я Международная конференция «Управление развитием крупномасштабных систем» (MLSD'2025, Москва)

Наименование источника: 

  • Труды 18-й Международной конференции «Управление развитием крупномасштабных систем» (MLSD'2025, Москва)

Город: 

  • Москва

Издательство: 

  • ИПУ РАН

Год издания: 

2025

Страницы: 

930-936
Аннотация
Численным моделированием продемонстрирован эффект теплоизоляции термоядерного топлива при имплозии топливных полостей в протяженной оболочке из тяжелых элементов. Найдены конечные условия имплозии, достижимые с учетом технологических ограничений.

Библиографическая ссылка: 

Лавренов И.В., Шумов А.С. Численное моделирование протекания термоядерных реакций при имплозии в протяженной оболочке / Труды 18-й Международной конференции «Управление развитием крупномасштабных систем» (MLSD'2025, Москва). М.: ИПУ РАН, 2025. С. 930-936.

82524

Автор(ы): 

Автор(ов): 

3

Параметры публикации

Тип публикации: 

Доклад

Название: 

ConvNets Landscape Convergence: Hessian-Based Analysis of Matricized Networks

Электронная публикация: 

Да

ISBN/ISSN: 

2767-9535

DOI: 

10.1109/ispras64596.2024.10899113

Наименование конференции: 

  • 2024 Ivannikov Ispras Open Conference (ISPRAS)

Наименование источника: 

  • Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2024

Город: 

  • Москва

Издательство: 

  • IEEE

Год издания: 

2024

Страницы: 

https://ieeexplore.ieee.org/document/10899113
Аннотация
The Hessian of a neural network is an important aspect for understanding the loss landscape and the characteristic of network architecture. The Hessian matrix captures important information about the curvature, sensitivity, and local behavior of the loss function. Our work proposes a method that enhances the understanding of the local behavior of the loss function and can be used to analyze the behavior of neural networks and also for interpreting the parameters in these networks. In this paper, we consider an approach to investigate the properties of the deep neural network, using the Hessian. We propose a method for estimating the Hessian matrix norm for a specific type of neural networks like convolutional. We have obtained the results for both 1D and 2D convolutions, as well as for the fully connected head in these networks. Our empirical analysis supports these findings, demonstrating convergence in the loss function landscape. We have evaluated the Hessian norm for neural networks represented as a product of matrices and considered how this estimate affects the landscape of the loss function.

Библиографическая ссылка: 

Мешков В.С., Киселев Н.С., Грабовой А.В. ConvNets Landscape Convergence: Hessian-Based Analysis of Matricized Networks / Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2024. М.: IEEE, 2024. С. https://ieeexplore.ieee.org/document/10899113.

82522

Автор(ы): 

Автор(ов): 

3

Параметры публикации

Тип публикации: 

Доклад

Название: 

N-Gram Perplexity-Based AI-Generated Text Detection

Электронная публикация: 

Да

ISBN/ISSN: 

2767-9535

DOI: 

10.1109/ispras64596.2024.10899150

Наименование конференции: 

  • 2024 Ivannikov Ispras Open Conference (ISPRAS)

Наименование источника: 

  • Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2024

Город: 

  • Москва

Издательство: 

  • IEEE

Год издания: 

2024

Страницы: 

https://ieeexplore.ieee.org/abstract/document/10899150
Аннотация
Currently, more efforts are being made to improve the capabilities of Large Language Models than to address their implications. Modern language models are capable of generating texts that appear indistinguishable from those written by human experts. While providing a high quality of life, such breakthroughs at the same time pose new challenges in education, science and social media. In addition, existing approaches to detect texts created by artificial intelligence either require high computational cost or access to the internal computation of LLMs, which in turn hinders their public availability. Based on these considerations, this paper presents a new paradigm for detecting texts created by artificial intelligence based on on collecting preliminary token statistics and computing n-gram perplexity features. On the combination of HC3, M4GT and MAGE datasets it shows a speedup of 2x over existing approaches with a quality drop around 5%. Moreover, the combination of methods achieves the best quality. This strikes a balance between computational cost, accessibility and performance.

Библиографическая ссылка: 

Пойманов Д.Р., Местецкий Л.М., Грабовой А.В. N-Gram Perplexity-Based AI-Generated Text Detection / Proceedings of the Ivannikov Memorial Workshop (IVMEM), 2024. М.: IEEE, 2024. С. https://ieeexplore.ieee.org/abstract/document/10899150.

Страницы