Галушко И.Н. —
Отражение проблемы регулирования фондового рынка Российской империи на страницах газеты «Биржевые ведомости»: спекуляция и государственный контроль
// Исторический журнал: научные исследования. – 2025. – № 1.
– С. 52 - 62.
DOI: 10.7256/2454-0609.2025.1.73464
URL: https://e-notabene.ru/hsmag/article_73464.html
Аннотация: Периодическая печать выступает одним из наиболее важных источников по истории фондового рынка. И дело не только в том, что из номеров газет мы получаем ценные сведения о динамике котировок акций, о повестках акционерных собраний, о состоянии балансов коммерческих банков, – периодические издания формировали информационное поле участников торгов, нередко задавая настроение рынка. В данной статье нам бы хотелось подробно очертить, как в начале XX века на страницах одной из главных газет биржевого профиля – «Биржевых ведомостей» – разворачивались дискуссии о государственном регулировании фондового рынка Российской империи и спекуляциях ценными бумагами. Представляется продуктивной попытка анализа того, какие вопросы из жизни фондового рынка в принципе волновали читателей и, соответственно, находили своё отражение в текстах профильных газет. С точки зрения институционального анализа крайне интересно уточнить ожидания участников торгов от регулирующих органов, представленных Министерством финансов и биржевыми комитетами. В представленной статье были подробно рассмотрены формы отображения биржевой жизни на страницах газеты «Биржевые ведомости» в начале XX в. Если кратко суммировать результаты исследования, то можно однозначно сказать, что рядовой участник торгов воспринимал процесс фондовых торгов преимущественно через призму периодической печати. Через газеты акционеров информировали о результатах собраний; биржевой хроникер кратко пересказывал результаты торгового дня; в соответствующих колонках печатались доклады в Государственной думе по вопросам регулирования фондового рынка. Изучая финансовую историю на микроуровне отдельных агентов фондового рынка, мы должны стремиться достоверно восстанавливать информационное поле, в котором пребывали участники торгов. И как показал наш анализ, в любом подобном исследовании невозможно обойтись без обращения к материалам периодической печати.
Abstract: Periodicals are one of the most important sources of stock market history. By studying them, we can gain valuable information. from newspaper issues about the dynamics of stock prices, the agendas of shareholder meetings, and the balance sheets of commercial banks. Periodicals formed the information field of bidders, often setting the mood of the market. In this article, we would like to outline in detail how discussions about state regulation of the Russian Empire's stock market and securities speculation unfolded on the pages of one of the main stock market newspapers, Birzhevye Vedomosti, at the beginning of the 20th century. It seems productive to try to analyze which issues from the life of the stock market were of concern to readers in principle and, accordingly, were reflected in the texts of relevant newspapers. From the point of view of institutional analysis, it is extremely interesting to clarify the expectations of bidders from the regulatory authorities represented by the Ministry of Finance and exchange committees. In the presented article, the forms of displaying stock market life on the pages of the newspaper "Birzhevye Vedomosti" in the early 20th century were considered in detail. To summarize the results of the study briefly, it can be said unequivocally that the average bidder perceived the process of stock trading mainly through the prism of periodicals. Shareholders were informed about the results of the meetings through newspapers; the stock exchange chronicler briefly recounted the results of the trading day; reports to the State Duma on stock market regulation were published in the relevant columns. By studying the financial history at the micro level of individual stock market agents, we must strive to reliably restore the information field in which the bidders were. And as our analysis has shown, in any such study it is impossible to do without referring to the materials of the periodical press.
Галушко И.Н. —
Применение тематического моделирования для оптимизации процесса поиска релевантных исторических документов (на примере биржевой прессы начала XX в.)
// Историческая информатика. – 2023. – № 2.
– С. 129 - 144.
DOI: 10.7256/2585-7797.2023.2.43466
URL: https://e-notabene.ru/istinf/article_43466.html
Аннотация: Ключевой задачей представленной статьи является апробация методики анализа информационного потенциала коллекции исторических источников с помощью тематического моделирования. Некоторые современные коллекции оцифрованных исторических материалов насчитывают десятки тысяч документов, и на уровне отдельного исследователя охват всего доступного наследия представляется затруднительным. Вслед за рядом исследователей мы предполагаем, что тематическое моделирование может стать удобным инструментом предварительной оценки содержания коллекции исторических документов; инструментом отбора только тех документов, в которых присутствует информация, релевантная поставленным исследовательским задачам. В нашем случае в качестве основной коллекции исторических документов была выбрана подборка газеты «Биржевые ведомости». На данном этапе мы можем подтвердить, что в рамках нашего исследования применение тематического моделирования оказалось продуктивным решением для оптимизации процесса поиска исторических документов в объемной коллекции оцифрованных исторических материалов. В то же время необходимо подчеркнуть, что в нашей работе тематическое моделирование применялось исключительно как прикладной инструмент ускорения поиска и первичной оценки информационного потенциала коллекции документов через анализ выделенных топиков. Наш опыт показал, что по крайней мере для «Биржевых ведомостей» тематическое моделирование с использованием LDA не позволяет делать выводы с позиции применяемой нами методологии содержательного анализа. Данные наших моделей слишком фрагментарны, их можно использовать только для первичной оценки тематик информации, содержащейся в источнике.
Abstract: The key task of the presented article is to test how we can analyze the information potential of a historical sources collection by using thematic modeling. Some modern collections of digitized historical materials number tens of thousands of documents, and at the level of an individual researcher, it is difficult to cover available funds. Following a number of researchers, we suggest that thematic modeling can become a convenient tool for preliminary assessment of the content of a collection of historical documents; can become a tool for selecting only those documents that contain information relevant to the research tasks. In our case, the Birzhevye Vedomosti newspaper was chosen as one of the main collection of historical documents. At this stage, we can confirm that in our study, the use of topic modeling proved to be a productive solution for optimizing the process of searching for historical documents in a large collection of digitized historical materials. At the same time, it should be emphasized that in our work topic modeling was used exclusively as an applied tool for primary assessment of the information potential of a documents collection through the analysis of selected topics. Our experience has shown that, at least for Birzhevye Vedomosti, topic modeling with LDA does not allow us to draw conclusions from the standpoint of our content analysis methodology. The data of our models are too fragmentary, it can only be used for the initial assessment of the topics describing the information contained in the source.
Галушко И.Н. —
Корректировка результатов OCR-распознавания текста исторического источника с помощью нечетких множеств (на примере газеты начала XX века)
// Историческая информатика. – 2023. – № 1.
– С. 102 - 113.
DOI: 10.7256/2585-7797.2023.1.40387
URL: https://e-notabene.ru/istinf/article_40387.html
Аннотация: Наша статья посвящена попытке применения современных методов NLP для оптимизации процесса распознавания текста исторических источников. Любой исследователь, решивший воспользоваться инструментами распознавания отсканированных текстов, столкнется с рядом ограничений точности конвейера (последовательности операций распознавания). Даже наиболее качественно обученные модели могут давать существенную ошибку по причине неудовлетворительного состояния дошедшего до нас источника: порезы, изгибы, кляксы, стертые буквы – всё это мешает качественному распознаванию. Наше предположение состоит в том, что, используя заранее заданный набор слов, маркирующих присутствие интересующей нас темы, с помощью модуля нечетких множеств (Fuzzy sets) из NLP-библиотеки SpaCy, мы сможем восстановить по шаблонам те слова, которые по итогам процедуры распознавания оказались распознаны с ошибками. Для проверки качества процедуры восстановления текста на выборке из 50 номеров газеты «Биржевые ведомости» мы посчитали оценки количества слов, которые бы не вошли в семантический анализ из-за неправильного распознавания. Все метрики были посчитаны также с использованием паттернов нечетких множеств. Оказалось, что в среднем на номер «Биржевых ведомостей» приходится 938.9 слов, маркирующих тему нашего исследования – торговые и финансовые операции с ценными бумагами. Из них изначально правильно распознаются в среднем 87.2% слов. Примерно 119.6 слов (в среднем на 50 номеров) содержат опечатки, связанные с некорректным распознаванием. Благодаря использованию алгоритмов нечетких множеств нам удалось эти слова восстановить и включить в семантический анализ. Мы считаем, что восполнение 12.8% слов, потенциально относящихся к изучаемой теме – это хороший результат, существенно повышающий качество дальнейшего семантического анализа текста методами компьютерного моделирования.
Abstract: Our article is presenting an attempt to apply NLP methods to optimize the process of text recognition (in case of historical sources). Any researcher who decides to use scanned text recognition tools will face a number of limitations of the pipeline (sequence of recognition operations) accuracy. Even the most qualitatively trained models can give a significant error due to the unsatisfactory state of the source that has come down to us: cuts, bends, blots, erased letters - all these interfere with high-quality recognition. Our assumption is to use a predetermined set of words marking the presence of a study topic with Fuzzy sets module from the SpaCy to restore words that were recognized with mistakes. To check the quality of the text recovery procedure on a sample of 50 issues of the newspaper, we calculated estimates of the number of words that would not be included in the semantic analysis due to incorrect recognition. All metrics were also calculated using fuzzy set patterns. It turned out that approximately 119.6 words (mean for 50 issues) contain misprints associated with incorrect recognition. Using fuzzy set algorithms, we managed to restore these words and include them in semantic analysis.