IT-технологии + лингвистика = успех

22 мая 2017 |

Давно известно, что речь человека — это показатель работы мозга. Расстройство высших мозговых функций неизбежно влечёт за собой и нарушения речи. Изучение этих взаимосвязей, когнитивная лингвистика — область пристального научного интереса недавно выделенной в структуре ИФиЯК СФУ кафедры романских языков и прикладной лингвистики во главе с доктором филологических наук, профессором Анастасией Владимировной КОЛМОГОРОВОЙ.

На базе кафедры создана в этом году лаборатория прикладной лингвистики и когнитивных исследований. Колмогоровой удалось организовать эффективное взаимодействие начинающих лингвистов со специалистом одной из ведущих IT-компаний Красноярска Александром КАЛИНИНЫМ, столкнуть их, как в коллайдере, а в результате родились проекты, претендующие на статус мировых разработок.

— Около двух лет назад наша компания занималась программным обеспечением для переводов, и работали мы на базе красноярского бизнес-инкубатора. Именно тогда Анастасия Владимировна про нас услышала и обратилась за консультацией, — вспоминает Александр (по первому образованию он, кстати, учитель английского). — Это знакомство вылилось в очень плодотворное взаимодействие. Сейчас кафедра имеет несколько разных по масштабу, глубине и серьёзности проектов.

Не ошибусь, если скажу, что один из них, связанный с анализом текста на предмет его эмоциональной окраски, — проект мирового уровня. На рынке есть подобные системы, но работают они в бинарной плоскости — компьютер определяет либо положительно, либо негативно окрашенный текст, хотя он может быть и нейтральным, и иметь множество оттенков.

Мы взяли за основу модель, которая использует восемь дискретных эмоций, к примеру — страх, гнев, отвращение, радость и т.д. Всё это слова, обозначающие эмоции, но эти эмоции разные. Вот мы и ищем модели и подходы, как лучше оценить оттенки эмоционального переживания, выраженные в текстах.

— Наш программист, применив алгоритмы и компьютерные технологии, дал выборку, где сосредоточены тексты, содержащие какую-либо эмоцию. Компьютер их обработал и получил вербальные маркеры таких состояний, как удивление, грусть, радость и т.д. Ранжированный классификатор очень востребован для анализа сообщений, постов в социальных сетях. Заказчиками могут выступать промышленные компании, маркетинговые структуры, политические компании в том числе, — говорит А.В. Колмогорова.

Попутно сотрудники лаборатории вынашивают идею, как соединить текст электронной книги с проигрыванием определённых музыкальных фрагментов. Представьте себе: человек читает книгу, а там описывается какой-то радостный момент и звучит вещь из интернет-коллекции музыкальных фрагментов под хэштегом #радость. Сменяется эмоциональный настрой текста — и процесс чтения сопровождает уже совершенно другая музыка...

— Идея принадлежит Александру, и мы поначалу рассматривали её как что-то прикладное, как «фантик». Но отношение к теме изменилось после того, как в апреле этого года побывали в Санкт-Петербурге, где приняли участие в работе II Международного научного семинара «Язык, музыка и компьютерные технологии», — рассказывает Анастасия Владимировна.

Наш проект вызвал огромный интерес у коллег! Мы провели патентный анализ — такого приложения нет нигде в мире, и если получится его создать — наверняка оно будет востребовано.

А ещё у нас есть почти уже готовый проект, из которого родилась кандидатская диссертация. Речь о создании классификатора текстов, но уже не по эмоциональной тональности, а по манипулятивности. Помните, как осложнились отношения между Россией и США в 2014 году? А поскольку учёные нашей кафедры занимаются ещё и анализом дискурса, в том числе политического, то мы не могли оставаться в стороне.

А. Калинин

Материалом для исследования послужили новостные англоязычные статьи американских изданий Washington Post и New York Times за период с 2014 по 2017 годы, посвящённые обсуждению отношений между двумя странами. Александр Калинин создал алгоритм, научил машину распознавать тексты по уровню манипулятивности, и сейчас мы делаем специальное приложение, которое наверняка будет востребовано для лингвистической экспертизы текстов. Допустим, сотрудникам кафедры часто приходится делать экспертизу по заказам государственных органов — определять, содержится или нет в том или ином тексте призыв к насилию. Остался последний шаг к созданию интерфейса для того, чтобы более широкий круг пользователей мог с этой программой взаимодействовать. Пока же проверить текст на уровень манипулятивности могут лишь автор проекта — аспирант кафедры романских языков и прикладной лингвистики Юлия ГОРНОСТАЕВА да разработчик.

Прикладные проекты в области компьютерной лингвистики с привлечением студентов ведутся на кафедре в течение двух последних лет. В прошлом году Александр Калинин проводил раз в две недели факультативно курсы, где обучал студентов-гуманитариев навыкам программирования. В итоге две дипломницы создали электронные базы данных на французском и на русском материале.

— Одна база составлена Агуник КИРАКОСЯН и представлена модными словами современного французского языка, — разъясняет А.В. Колмогорова. — Обычно такие словечки появляются на короткий срок и потом бесследно исчезают.

В марте 2017 года состоялась презентация указанного проекта во Франции, на факультете лингвистики университета Гренобль Альп. Проект получил поддержку, более того — французские исследователи отметили его эксклюзивность.

Оказывается, носители языка даже не задумывались о том, что у них в языке есть модные слова. Мы же при переводе испытываем затруднения, не находим их значения в словарях, вот и пришлось создать базу, состоящую из модного слова, трактовки его значения, контекста употребления и т.д. Удивительно, что модные слова в основном имеют не французское происхождение, а заимствованы из разных языков — есть латинизмы, африканизмы и т.д. В нашей базе пока 300 объектов — это не очень много, но и группа слов специфическая.

Ещё один проект — дипломная работа Алины МАЛИКОВОЙ. Идея в том, что при переводе текстов с русского на французский язык возникают сложности с передачей реалий русской жизни. Это могут быть не только такие понятия, как КГБ, перестройка, Мавзолей, а фразы типа — «Боже упаси». Для анализа были взяты тексты русских писателей, выросших в России, но затем уехавших во Францию и писавших по-французски. В их числе наш соотечественник Андрей МАКИН (родился в Красноярске в 1957 году); лауреат многочисленных литературных премий и член Французской академии Анри ТРУАЙЯ и писательница с трагической судьбой Ирен НЕМИРОВСКИ. Алина систематизирует описания номинаций специфически русских объектов, русских реалий и способы их ввода во франкоязычный текст, способы их объяснения иноязычному читателю.

Сейчас А. Маликова и её куратор А. Калинин работают над интерфейсом, чтобы использовать базу могли не только студенты СФУ, но и переводчики во всём мире.

— Понятно, что не сможет гуманитарий программировать, как выпускник ИКИТ СФУ, но от него и не требуется. Главное — базовое понимание каких-то технических концептов и способность их использовать хотя бы на минимальном уровне, — считает А. Калинин.

— Благодаря бескорыстной помощи Александра, его энтузиазму, удалось разбудить два компьютерно-лингвистических
сознания, — улыбается Анастасия Владимировна. — После его факультатива Агуник Киракосян поступила в бесплатную магистратуру во Франции и скоро поедет в университет Гренобль Альп учиться. Алина Маликова очень хорошо программирует и ориентируется в лингвистических вопросах, поэтому решено оставить её на кафедре. Будем надеяться, что наше сотрудничество с Александром продолжится, и в дальнейшем он будет читать курс прикладной лингвистики для бакалавров и магистров нашей кафедры; а поскольку у человека есть ещё и базовое лингвистическое образование, то, возможно, он и сам защитит кандидатскую диссертацию по теории языка.

Как выяснилось, знания по теории языка могут оказать помощь и медикам, поэтому другой очень крупный проект, которым руководит д-р филол. наук А.В. Колмогорова, связан с лингвистическим сопровождением реабилитации постинсультных больных с семантической афазией. Его цель — создание и апробация комплекса методик речевой терапии для реабилитации таких пациентов.

В рамках проекта опыт врачей нейрофизиологов и их научные методики соединяются с лингвистическими методиками, в частности с наработками когнитивной лингвистики.

— Проект, инициированный директором ИФиЯК профессором Л.В. Куликовой и руководством Федерального Сибирского научно-клинического центра ФМБА России, на наш взгляд, очень интересный и перспективный. Мы надеемся соединить две ветви — компьютерную и когнитивную лингвистику по реабилитации больных с тяжёлыми речевыми нарушениями после инсульта, — делится А.В. Колмогорова. — Мы очень тесно сотрудничаем с отделением восстановления высших психических функций клинического центра, возглавляемым Ольгой Николаевной НИКОЛЬСКОЙ.

Врачи утверждают, что быстрее всего восстанавливаются в лексиконе больного эмоционально положительно окрашенные и часто употребляемые им до болезни слова. Однако нет у нас словаря лексикона, к примеру, профессора-гуманитария или лексикона рабочего. Поэтому одно из направлений нашего проекта — составление базы данных по лексикону разных профессиональных социальных и гендерных групп.

Сейчас наши студенты «пошли в народ» — сформировали рабочую группу и берут короткие интервью у представителей разных профессий. Короткие вопросы предполагают доверительную беседу и развёрнутые ответы: расскажите о своём первом рабочем дне; о вашей любимой книге детства; чем любите заниматься и т.д. Специально выбраны темы, в которых человеку комфортно, приятно. В итоге должна получиться компьютерная база данных, которую и лингвисты, и врачи смогут в дальнейшем привлекать для восстановления речи.

Ещё одно направление, которым просят заняться нас медики, — это восстановление речи представителей национальных меньшинств. К примеру, тувинцы — билингвы. Они очень хорошо говорят по-русски, но после инсульта начинают первыми вспоминать не русские, а тувинские слова, а упражнения разработаны для носителей русского языка — в этом проблема.

Есть и ещё один аспект: очень много упражнений построено на визуальных образах. Поскольку речь афатика затруднена — пациенту предъявляют различные картинки и просят назвать слово. Но картинки, предназначенные и разработанные для русскоязычных больных, совершенно не годятся для тувинцев. И разработка такой «национальной» базы данных визуальных образов, связанных со словами, ещё одна задача нашей кафедры. В планах разработка компьютерных тренажёров, предназначенных как для работы логопедов, так и для пациентов-афатиков, чтобы они могли самостоятельно заниматься восстановлением речи.

Вера КИРИЧЕНКО

IT-технологии + лингвистика = успех

Похожие материалы