Кейс: Использование системы автоматического распознавания речи аудиопротокольной записи судебных заседаний
Формирование протокола судебного заседания — трудоемкий процесс, который занимает значительный объем рабочего времени секретарей судебного заседания. Основные проблемы, которые возникают при формировании протокола:
- ручной набор текста увеличивает время получения протокола по результатам заседания;
- точность расшифровки зависит от опыта и навыков стенографиста, у начинающих специалистов выше вероятность ошибок или потери ключевой информации из протокола из-за человеческого фактора.
Такие проблемы влияют на качество отправления Правосудия и касаются граждан, бизнеса и государственных органов.
Целью внедрения системы является применение современных информационных технологий на основе нейронных сетей для автоматизации процесса составления протоколов заседаний мировых судей.
Пользователем системы является аппарат судебных участков мировых судей, в частности секретари судебного заседания.
В 2024 году был успешно реализован проект «Использование системы автоматического распознавания речи аудиопротокольной записи судебных заседаний для составления проектов протоколов заседаний на судебных участках мировых судей Ростовской области». Александр Наливайко, участник Кадрового резерва высококвалифицированных руководителей и специалистов цифровой трансформации государственного управления, сотрудник ГКУ РО «Служба обеспечения деятельности судебных участков мировых судей», поделился с нами информацией о проекте.
О проекте
Система автоматического распознавания речи аудиопротокольной записи судебных заседаний для составления проектов протоколов заседаний на судебных участках мировых судей Ростовской области позволяет:
- автоматически преобразовывать аудиозаписи в текст;
- работать с архивными данными, в том числе искать информацию по ключевым фразам;
- взаимодействовать с имеющимися системами звукозаписи (отправка по нажатию одной кнопки);
- отслеживать при воспроизведении записи слов в тексте, выделять возможные ошибки;
- выделять аудиопотоки по участникам;
- использовать свою форму шаблона протокола.
Эффекты от внедрения системы
Система позволяет справиться с постоянно возрастающей нагрузкой секретарей судебного заседаний, а как следствие — увеличить эффективность работы аппаратов судебных участков мировых судей Ростовской области, повысить качество отправления Правосудия, уровня судебной защиты, а также прав и законных интересов граждан и организаций. Заказчики проекта ожидают снижения времени изготовления протокола в 2 раза и исключения человеческого фактора при обработке аудиозаписей заседаний. Использование аналитики больших данных позволит заложить основу для будущей цифровизации процессов.
Новизна управленческой практики
Системы распознавания речи уже активно используются многими отраслями: банковским сектором, МФЦ, здравоохранением и другими. Однако, не знаю ни одного региона, где реализовано внедрение системы распознавания речи на всех судебных участках мировых судей.
Ключевые преимущества внедренной системы:
- текст распознанной речи группируется по участникам аудиопротокольной записи, основываясь на технологии диаризации спикеров;
- cистема внедрена как сервис, и обеспечена интеграция с имеющимися комплексами звукозаписи, что позволило избежать дополнительных затрат на приобретение оборудования в рамках реализации проекта;
- постоянное обучение системы в процессе работы позволяет значительно улучшать качество распознавания.
Результаты реализации проекта
В июне 2024 года практика внедрена на 50 судебных участках мировых судей области. На текущий момент проект внедрен на всех 230 судебных участках.
В части развития функций системы планируется добавить генеративный искусственный интеллект: в проекте протокола автоматически формировать блоки текстов, содержащих общеупотребительные формулировки проектов протоколов судебных заседаний, предусмотренные законодательством Российской Федерации. Общеупотребительные формулировки будут отражать существо рассматриваемого дела и содержание стенограммы судебного заседания. Это позволит свести работу секретаря над протоколом судебного заседания к минимуму и, как следствие, — направить силы сотрудников на другие задачи, в том числе на взаимодействие с гражданами. По результату внедрения генеративных функций будут рассмотрены перспективы автоматического формирования других типов документов.
Победа на профессиональном конкурсе
На Всероссийском Конкурсе региональной информатизации в рамках форума «ПРОФ-IT.2024» проект системы автоматического распознавания речи аудиопротокольной записи судебных заседаний с составлением проекта протоколов заседаний на участках мировых судей стал победителем в номинации «Организация деятельности органов власти». В конкурсе приняли участие представители 53 регионов России. А в финал конкурса вышли 44 проекта. Проект Ростовской области завоевал победу в двух номинациях и занял почетное второе место в одной номинации.
Стоит отметить, что проект получил не только высокую экспертную оценку, но и хорошие отзывы от пользователей, сотрудников судебных участков мировых судей, а значит, доказал свою эффективность на практике.
Нам было очень любопытно узнать не только в целом о проекте: возникло много вопросов о технологиях, методологии и команде реализации. Александр Наливайко поделился с нами инсайдерской информацией.
Какие технологии использовались для реализации проекта: искусственный интеллект, автоматическое распознавание речи и преобразование ее в текст? Какими инструментами пользовались?
Нейросеть, применяемая для распознавания речи, собрана на базе трансформеров с кодировщиком и декодером — своего рода гибрид, обученный сотнями тысяч часов многоязычных и многозадачных размеченных данных, взятых из интернета, что повышает устойчивость модели к акцентам, фоновому шуму и специальной терминологии, а также способный выполнять транскрипцию на нескольких языках и переводить с этих языков на английский.
Принцип работы системы распознавания — входящее аудио разбивается на 30-секундные фрагменты, преобразуется в log-Mel спектрограмму (кепструм малой частоты) и подается в кодировщик. Декодер обучен предсказывать соответствующий текст, перемежающийся специальным байтовым BPE токенизатором, как в GPT-2, который указывает модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык, т. е. текст преобразуется в числовые представления, называемые токенами, и каждый токен преобразуется в вектор путем поиска из таблицы встраивания слов. Затем на каждом уровне каждый токен контекстуализируется в рамках контекстного окна с другими (немаскированными) токенами с помощью параллельного многоголового механизма внимания, позволяющего усилить сигнал для ключевых токенов и уменьшить количество менее важных токенов.
В развитие системы предлагается внедрить механизм суммаризации с использованием генеративных алгоритмов нейросетей и LLM (больших языковых моделей).
Названный механизм позволит получать два варианта документов по итогам проведения заседаний — непосредственно стенограмму заседания и проект протокола, в котором отражена основная суть заседания, без использования прямой речи (дословных высказываний участников).
Расскажите про команду реализации. Какова численность и состав команды? Кто из специалистов работал над задачами? Как были распределены роли?
Поделюсь верхнеуровневой информацией об участниках проекта.
Коллеги из Министерства цифрового развития, информационных технологий и связи Ростовской области, в частности отдела координации цифровой трансформации управления информационных технологий. Они оказали активную поддержку проекту, помогли обосновать выделение средств, сформировать техническое задание на его реализацию. Коллеги были все время на связи и оказывали максимальное содействие. Седович Владимир Андреевич, заместитель министра – начальник управления информационных технологий, и Талдыкина Елена Игоревна, начальник отдела координации цифровой трансформации представляли впоследствии Ростовскую область с этим проектом на XII Всероссийском конкурсе проектов региональной и муниципальной информатизации «ПРОФ-IT».
ГКУ РО «Служба обеспечения деятельности судебных участков мировых судей» выступило заказчиком проекта. Директор Департамента по обеспечению деятельности мировых судей Ростовской области Михно Василий Александрович и заместитель директора департамента по обеспечению деятельности мировых судей Ростовской области Шустев Юрий Юрьевич были максимально вовлечены в реализацию проекта. Благодаря кропотливой работе команды департамента и его подведомственной организации получилось максимально четко оцифровать все процессы и создать наиболее подходящие алгоритмы работы. С коллегами организовали планирование и контроль проведения работ, провели приемку системы на участках, подготовили материалы по проекту для министерства.
В команду реализации вошло специалисты cектора информационно-технического обеспечения и электронного сопровождения госзаказа отдела материально-технического снабжения ГКУ и системные администраторы судебных участков. Под руководством заместителя директора Калинина Дмитрия Львовича и руководителей структурных подразделений ГКУ РО «Служба обеспечения деятельности судебных участков мировых судей» активно решались вопросы организационного и технического характера на местах.
Разработчиком отечественного программного обеспечения выступила компания ООО «ЛЕКСИКОМ», резидент ИТ-кластера Сколково. Коллеги взяли за основу наработки системы (ранее делали пилот для мировых судей в Белгородской области). У команды разработчика уже был большой опыт работы по распознаванию речи в других сферах, поэтому команда успешно доработала систему под наши требования, в том числе обеспечили интеграцию с имеющимися комплексами звукозаписи «АКТУАРИУС». В качестве интегратора решения выступила компания ООО «Проф-ИТ».
Какую проектную методологию выбрали для решения задачи: Agile или каскадную модель? Может быть, скажете несколько слов о том, как внедряли этот проектный подход?
Полностью от каскадной модели отказать было невозможно: техническое задание утверждено и ему необходимо следовать. Но в рамках этапов мы применяли и гибкие методологии, с длиной спринта — неделя.
К концу 1-го этапа должна была быть готова серверная часть и предоставлен доступ первым 50 участкам. На втором этапе происходила работа по остальным 180 участками.
В процессе доработки серверной части под наши требования, начали с запуска продукта с минимальным, но достаточным для удовлетворения первых потребителей функционалом. На нескольких судебных районах, тестировали и получали обратную связь от пользователей. По мере завершения доработок уже распространили на оставшиеся 50 участков первого этапа.
На втором этапе начали масштабировать проект. По мере подключения новых участков анализировали потребляемые ресурсы, подбирали с разработчиками оптимальные серверные мощности. Особое внимание уделяли совершенствованию продукта. Языковая модель подразумевает постоянное развитие, поэтому после внедрения на новом блоке участков разработчики производили обновление системы распознавания. Это помогало улучшать качество распознавания речи. Например, мы точечно решали вопросы, связанные с особенностями произношения, специфичными шумами и терминологией.
Расскажите об инсайтах в процессе работы над проектом.
Да, точечные вещи возникали, и разработчики охотно принимали вызов. Были проблемы и с совместимостью на некотором оборудовании: система создавалась почти для тысячи пользователей и не у всех были одинаковые устройства. Ресурсы сервера пришлось увеличить для обеспечения комфортной скорости: на первом этапе участки очень активно начали отправлять многочасовые записи на обработку целыми партиями.
Но к большинству возникающих вопросов мы были готовы: еще до старта проекта провели пилот системы на нескольких участках.
Какие основные сложности возникали в ходе реализации и как их преодолевали?
У нас большой регион, много участков. Нужно было в каждом здании подготовить все к работе с системой: провести ряд технических работ в части комплексов звукозаписи и сетевой доступности с системой.
С этой задачей мы справились в срок благодаря работе итерациями (спринтами). По результатам спринта делали ретроспективу с инженерами и разработчиками, чтобы решить возникающие трудности и правильно спланировать следующие итерации.
Есть ли на рынке подобные решения? Изучали ли рынок, прежде чем реализовывать проект?
Да, конечно. Решений на рынке много. Есть и те, которые уже работают в судебной системе. По результатам анализа совместно с министерством цифрового развития, информационных технологий и связи Ростовской области сформировали требования, которые в полной мере закрывали нужды, но не ограничивали каким-то конкретным решением.
Например, ранее проводился пилотный запуск «Лексиком.Правосудие» в Белгородской области (https://files.data-economy.ru/Reg/case-328.pdf).
В городе Ижевске в 20 залах судебного заседания были внедрены системы распознавания речи для протоколирования заседаний на базе аналогичного решения «Нестор.Правосудие» (https://d-russia.ru/v-mirovyh-sudah-izhevska-vnedreny-sistemy-raspoznavanija-rechi-dlja-protokolirovanija-zasedanij.html).В Московском городском округе тестируется система распознавания лиц и речи (https://rg.ru/2020/03/22/reg-cfo/egorova-moskovskie-sudy-testiruiut-sistemu-raspoznavaniia-rechi-i-lic.html).
Будет ли масштабирование этого проекта на другие регионы?
Насколько я знаю от разработчиков, другие регионы заинтересовались системой автоматического распознавания речи. В некоторых регионах уже планируют внедрение или пилот. По запросам заказчиков компания «ЛЕКСИКОМ» рассматривает возможность расширения платформы функцией голосового ассистента. Такой помощник дает возможность заявителям (гражданам и организациям) по телефону узнавать информацию о судебных участках, например о движении и результатах рассмотрения дела.
Подобная система уже внедрена в ряде регионов для МФЦ и сферы здравоохранения. Это важное решение, которое позволит гражданам эффективно решать возникающие вопросы и снять имеющийся негатив среди тех, кто не мог дозвониться и проконсультироваться. Конечно, такие решения повышают уровень лояльности благодаря доступности, прозрачности, большей информативности со стороны судебных участков мировых судей.
Александр Наливайко
участник Кадрового резерва высококвалифицированных руководителей цифровой трансформации госуправления,
сотрудник ГКУ РО «Служба обеспечения деятельности судебных участков мировых судей»