26 Февраля, 2019
5 технологий казахстанских учёных, о которых вы не знали

Диагностика раковых заболеваний, рейтинг негативных публикаций в СМИ и клонирование речи – над чем работают специалисты института информационных технологий? 


   Институт информационных и вычислительных технологий в Алматы ведёт научные разработки с 1991 года. При нём действует 11 лабораторий по разным направлениям: от больших данных и математической кибернетики до информационной безопасности и высокотехнологичной медицины. Корреспонденту Informburo.kz удалось там побывать – рассказываем, чего ждать от казахстанской науки в ближайшем будущем.



Большие данные, которые упростят жизнь



За годы независимости в Казахстане накопилось огромное количество информации во всех важных сферах, будь то медицина, образование, строительство или телекоммуникации. По словам учёных, эти данные хранятся либо в разрозненном виде, либо не существует механизмов, которые могли бы их анализировать и помогать в принятии правильных управленческих решений.



"К нам недавно обратилось министерство образования, и сказали: создайте нам карту школ и определите дисбаланс учащихся. Нам дали разные данные о семи тысячах школ, включая количество учеников. Бывают такие ситуации, когда, например, в Астане напротив стоят две школы, и одна из них перегружена, а другая недогружена. И вот такие факты нужно выявлять, чтобы оптимально использовать ресурсы", – говорит заведующий лабораторией анализа и моделирования информационных процессов Рустам Мусабаев.



С похожими задачами работает заведующий лабораторией интеллектуального анализа больших данных Александр Пак. Его отдел разрабатывает базы данных для хранения и оцифровки врачебных выписок для медицинских учреждений. Информации много, поэтому её структурируют по разделам: жалобы пациентов, результаты анализов, диагнозы и назначения врачей. С переходом на электронную систему бумажные карточки с историями болезней постепенно уйдут в прошлое, а на смену огромным картотекам придут серверы и сервисы облачного хранения. Также технология поможет врачам экономить время, упростив работу с документами, что позволит уделять больше внимания пациентам.



Клонирование и распознавание речи



Ещё одна область применения больших данных – интеллектуальные технологии, имитирующие деятельность человека. Учёные уже разработали алгоритмы синтеза и распознавания речи наподобие тех, что используют голосовые помощники Siri и "Алиса". По словам Рустама Мусабаева, технология способна запомнить голос любого человека и воспроизвести его на казахском языке с учётом интонаций, ударений и манеры произношения. Достаточно ввести текст в программу, нажать кнопку, и компьютер воспроизводит нужные слова.



"Технологию синтеза речи можно вставить в робота, сделать голосового помощника для слепых людей, использовать в обучающих программах, автоматической озвучке роликов и системе переводов – говорит Рустам Мусабаев. – Компьютер реально обучить воспроизводить мимику, жесты, интонацию, голос. Всё это можно загнать в базу данных и создать персонажа по технологии motion capture, которую используют в кинематографе, когда на человека надевают датчики и снимают на камеры с разных углов. Все движения за ним повторяет аватар в виртуальном пространстве. А тут ещё будут накладываться мимика и голос".



Чтобы научить компьютер воспроизводить и распознавать человеческую речь, учёные используют технологии машинного обучения и искусственного интеллекта. На текущем этапе они работают над улучшением качества речи, обучая компьютер имитировать правильное произношение слов. Для этого базу данных программы регулярно пополняют новыми образцами устной речи, которых нужно как можно больше. В процессе звукозаписи специальные датчики фиксируют колебания голосовых связок диктора, чтобы запомнить правильную интонацию. Анализируя большой объём голосовых записей, компьютер находит закономерности в произношении разных слов и учится говорить, как человек. В работе программы участвует около 40 сложных алгоритмов.



Телемедицина



По данным на 2017 год, в Казахстане http://stat.gov.kz/faces/wcnav_externalId/homeNumbersHealthCare;jsessionid=vtIkwYkDAxCbkepFD505dBs4sEixKilZjMPhNmc14IH7I4zQ8SCN!1104536657!1266970695?lang=ru&_adf.ctrl-state=77yzss1lm_17&_afrLoop=2326281914724070#%40%3F_afrLoop%3D2326281914724070%26lang%3Dru%26_adf.ctrl-state%3Dub72mc6oi_4" target="_blank">работает 72 134 врача. При численности населения больше 18 миллионов человек, на одного врача приходится примерно 254 пациента, но для узких специалистов эта цифра может быть гораздо больше. Александр Пак говорит, что Министерство здравоохранения заинтересованно в телемедицине – технологиях для диагностики и консультирования населения, проживающего вдали от больниц. Особенно это актуально для жителей сельской местности или небольших городов, где не хватает узкоспециализированных врачей.



С 2018 года лаборатория разрабатывает технологию, позволяющую выявлять раковые заболевания на стадии профилактического обследования. Пока учёные вместе с врачами–онкологами собирают данные, чтобы обучить диагностическую систему распознавать патологии на рентгеновских снимках.



"На базе Института онкологии запускали скрининг раковых заболеваний в городах, где есть тяжёлая химическая промышленность. Там высокий риск заболеть раком. Врачи приводили людей с улицы в рентгеномобиль и чисто случайно у трёх человек из ста нашли подозрительные образования в легких. Обычно, когда пациента сканируют, врач ищет что-то определенное в зависимости от жалоб" – говорит Александр Пак.



Другой проект, над которым работают учёные – мобильное приложение, диагностирующее различные проблемы зрения. Чтобы найти причину недуга, достаточно сфотографировать глаз с помощью специального объектива, прикрепляемого к мобильной камере. Программа автоматически отметит на снимке патологии, например, вздутие или искривление сосудов, белковые образования на дне глаза, которые потом нужно будет показать окулисту. Также изобретение пригодится в сельских регионах, где нет кабинета окулиста. Таким мобильным сервисом сможет воспользоваться даже врач общей практики, а результаты помогут офтальмологу дистанционно поставить диагноз. По словам Александра, программное обеспечение для приложения уже готово, но прототип объектива ещё нужно уменьшить и упросить.



Семантический анализ публикаций



В научном институте разрабатывают технологию, помогающую пользователям находить альтернативные точки зрения по любому информационному поводу или новости. По задумке разработчиков, программа автоматически отметит в браузере несколько похожих публикаций по выбранной теме, но с противоположным мнением. Программа будет искать материалы, опираясь на базу данных из множества отобранных слов, объединённых по тематике. Позитив или негатив статьи определит анализ слов, используемых для положительных и отрицательных суждений. С сайтами, заблокированными в Казахстане, сервис работать не будет.



"Есть такое понятие, как фейкократия – тот, кто грамотно генерирует фейки и вбрасывает их в СМИ, может управлять обществом. Сейчас многие государства и технологичные компании, как Google и Facebook, миллиарды долларов тратят на разработку алгоритмов, которые просто выявляют фейковые новости и сообщения. Никакая программа не скажет, фейк перед вами или нет, но может просчитать вероятность недостоверной информации, – говорит Рустам Мусабаева.



Рейтинг негативных СМИ



Технологии семантического анализа интересуют не только учёных, но и государство. По словам Рустама Мусабаев, в институт обращалось министерство образования и науки с заданием составить рейтинг СМИ. Например, какие из казахстанских медиа больше других распространяют негативную информацию. Сотрудники лаборатории загрузили в свою базу около 2 миллионов публикаций с 54 казахстанских информационных сайтов за всё время их работы. Дальше учёные займутся анализом полученных данных.



"Есть специальные алгоритмы, которые вычисляют в процентном соотношении, сколько в публикации негатива, позитива, предвзятости. Это называется сентимент-анализ или анализ тональности. Если анализировать текстовое сообщение, можно автоматически отследить такие моменты, когда от частного вывода делается обобщение на всё множество объектов. Например, "все учёные – дилетанты", "все чиновники – коррупционеры" – это уже предвзятость" – объясняет Рустам Мусабаев.



Определять степень негатива публикаций будет специальная программа, которая автоматически посчитает количество отрицательно эмоционально окрашенных слов, опираясь на базу данных. В неё войдут часто используемые слова, объединенные по тематикам, которые характерны для казахстанских СМИ. Используя систему хэштегов, программа сможет посчитать, сколько материалов по каждой теме опубликовало любое СМИ и как рос интерес пользователей к резонансному инфоповоду.



"Представьте, если бы у человека был инструмент, показывающий в браузере, что на Tengrinews, предположим, 90 процентов негатива, 10 процентов информации связано с наукой и 50 – с конкурсами красоты, – говорит Рустам Мусабаев. – Здесь задача не в том, чтобы кого-то контролировать. Мы хотим создать технологии анализа данных, чтобы человек понимал структуру информации, которую он изучает, и знал, какие тематики сейчас обсуждаются и набирают популярность в интернете".



Технология находится на начальном этапе разработке и пока не ясно, будут ли программы учитывать смысловую нагрузку публикаций или только считать негативную лексику. Также учёным предстоит разобраться, как оценивать неоднозначные материалы. Например, новость о задержании чиновника за взятку, можно рассматривать как позитивную, но при этом сам факт коррупции остаётся негативным явлением. Закончить работу над технологией специалисты рассчитывают к 2021 году.



Роман Лукьянчиков


Институт информационных технологий, Алматы / Фото Informburo.kz