Исследователи Высшей школы лингводидактики и перевода Гуманитарного института совместно с лабораторией «Промышленные системы потоковой обработки данных» Центра компетенций НТИ Санкт-Петербургского политехнического университета Петра Великого (СПбПУ) разработали цифровой сервис «PolyText». Цель проекта — провести лингвистический и визуальный анализ медиатекстов, а также оценить восприятие контента читателем. По словам разработчиков, сервис поможет наполнить сайты вузов и научных организаций качественным и интересным контентом и продвигать их в информационном пространстве.
Разработка «Модели автоматической оценки речевого воздействия мультимодального электронного текста» ведется в рамках реализации стратегического проекта «Технополис «Политех» программы «Приоритет-2030».
«Мы работаем над уникальным проектом, который объединил в себе лингвистическое направление деятельности и инженерную мысль в сфере цифровых технологий. Определение сложности текста является важной задачей, так как она влияет на его читабельность и воспринимаемость. Это актуально для подготовки учебников для разных дисциплин, разработки материалов для изучающих иностранные языки, для повышения правовой грамотности населения, решения задач автоматической обработки текста, оценки различной документации, языкового контента веб-сайтов и так далее», — объяснила значимость разработки директор Высшей школы лингводидактики и перевода, д. пед. н, профессор Анна Рубцова.
В основе цифрового сервиса — нейросетевая модель, для разработки которой был проведен сбор и анализ наиболее значимых метрик оценки качества текста для носителей русского языка и иностранных граждан, говорящих на нем. Цифровой сервис оценивает текст по двум показателям: лингвистическому и визуальному. Лингвистический анализ учитывает лексико-грамматический состав предложений, метрики морфологической, лексической и синтаксической сложности, показатели связности и структурирования текста. При анализе визуализации сервис отмечает уместность иллюстраций, особенности цветовой гаммы, расположения и пр. Проанализировав текст, цифровой сервис оценивает контент и дает рекомендацию, какие изменения необходимо внести, чтобы текст легче воспринимался читателем.
От похожих сервисов PolyText отличается в первую очередь тем, что анализирует не только текст, но и визуальный ряд, он ориентирован на оценку сложности для восприятия (чтения) мультимодального медиатекста (информационные сообщения на вебсайтах образовательных организаций). В отличие от уже существующих сервисов, таких как glvrd.ru, readbility.io и текстометр.ru, в основе алгоритма для обучения и построения нейросети, направленной на предсказание оценки воспринимаемости текста, в сервисе PolyText оптимизирован набор лингвистических метрик, определяющих легкость восприятия медиатекста с учетом жанра и вида чтения, и проведено дополнение метриками мультимодальности.
Дальнейшее усовершенствование цифрового сервиса позволит качественно и количественно оптимизировать бизнес-процессы по наполнению сайтов научных и образовательных организаций, что будет способствовать повышению информативности сайтов и их продвижению в сетевом информационном пространстве. Они будут применимы как для российской аудитории, так и для иностранных посетителей сайтов — обучающихся и потенциальных абитуриентов, партнеров, заказчиков. Обеспечение точности оценки воспринимаемости текстов с сайтов не ниже 80%, в том числе иностранцами, — говорит о потенциале сервиса Анна Рубцова.
Материал подготовлен Центром НТИ СПбПУ