ГлавнаяHi-TechНИУ ВШЭ и ИСИЭЗ представили iFORA-QA нейросеть для анализа текстов

НИУ ВШЭ и ИСИЭЗ представили iFORA-QA нейросеть для анализа текстов


НИУ ВШЭ и ИСИЭЗ представили iFORA-QA нейросеть для анализа текстов-0
Источник: naked-science.ru

Объем научно-технической информации патентов, статей, отчетов постоянно растет. Эффективно работать с этим массивом помогает искусственный интеллект. Обычно большие языковые модели мультиязычны и обучены на разных языках. Но в популярных чат-ботах, таких как ChatGPT, преобладают англоязычные данные, что создает риск монокультуры данных в ИИ.

Прорыв от НИУ ВШЭ: Точный анализ на русском языке

Ученые Института статистических исследований и экономики знаний НИУ ВШЭ ИСИЭЗ дообучили большие языковые модели. Цель — создать инструмент для точного анализа научных текстов на русском с пониманием специфики. Основой стал корпус данных iFORA-QA, собранный более чем 150 экспертами ИСИЭЗ из материалов по науке, технологиям и инновациям. Программа успешно прошла государственную регистрацию.

Впечатляющие результаты адаптации

После дообучения точность модели на узкопрофессиональных вопросах выросла. Скорость генерации увеличилась в 2,7 раза, а потребление памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.

Комментарий эксперта Анастасии Малашиной

"Универсальные модели знают много, но поверхностно. Нам нужна модель, понимающая российских ученых и инженеров. Наши исследования научили алгоритм мыслить в предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы", — комментирует Анастасия Малашина, главный аналитик проекта, научный сотрудник Центра стратегической аналитики и больших данных ИСИЭЗ.

Перспективные инструменты на базе модели

Уже в этом году появятся новые инструменты на базе адаптированной модели. Первый — умный поисковик, снижающий риски "галлюцинаций" и формирующий выводы со ссылками на научные источники. Второй — граф связей для выявления закономерностей, включая скрытые, на основе структуры данных. Модель также научится работать с неполной информацией, рассуждать, задавать уточняющие вопросы и давать детальные ответы.

Будущее: Единая интеллектуальная система

Все возможности объединятся в мультиагентную систему для автоматического решения сложных задач. "Мы создаем целостную систему интеллектуальных агентов для российской науки. Она будет автономно анализировать научно-техническую информацию и выявлять скрытые связи. Это шаг к автоматизации аналитики, где ИИ становится партнером ученого", — подчеркивает Анастасия Малашина.

Источник: naked-science.ru

Разные новости