
Объем научно-технической информации патентов, статей, отчетов постоянно растет. Эффективно работать с этим массивом помогает искусственный интеллект. Обычно большие языковые модели мультиязычны и обучены на разных языках. Но в популярных чат-ботах, таких как ChatGPT, преобладают англоязычные данные, что создает риск монокультуры данных в ИИ.
Прорыв от НИУ ВШЭ: Точный анализ на русском языке
Ученые Института статистических исследований и экономики знаний НИУ ВШЭ ИСИЭЗ дообучили большие языковые модели. Цель — создать инструмент для точного анализа научных текстов на русском с пониманием специфики. Основой стал корпус данных iFORA-QA, собранный более чем 150 экспертами ИСИЭЗ из материалов по науке, технологиям и инновациям. Программа успешно прошла государственную регистрацию.
Впечатляющие результаты адаптации
После дообучения точность модели на узкопрофессиональных вопросах выросла. Скорость генерации увеличилась в 2,7 раза, а потребление памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.
Комментарий эксперта Анастасии Малашиной
"Универсальные модели знают много, но поверхностно. Нам нужна модель, понимающая российских ученых и инженеров. Наши исследования научили алгоритм мыслить в предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы", — комментирует Анастасия Малашина, главный аналитик проекта, научный сотрудник Центра стратегической аналитики и больших данных ИСИЭЗ.
Перспективные инструменты на базе модели
Уже в этом году появятся новые инструменты на базе адаптированной модели. Первый — умный поисковик, снижающий риски "галлюцинаций" и формирующий выводы со ссылками на научные источники. Второй — граф связей для выявления закономерностей, включая скрытые, на основе структуры данных. Модель также научится работать с неполной информацией, рассуждать, задавать уточняющие вопросы и давать детальные ответы.
Будущее: Единая интеллектуальная система
Все возможности объединятся в мультиагентную систему для автоматического решения сложных задач. "Мы создаем целостную систему интеллектуальных агентов для российской науки. Она будет автономно анализировать научно-техническую информацию и выявлять скрытые связи. Это шаг к автоматизации аналитики, где ИИ становится партнером ученого", — подчеркивает Анастасия Малашина.
Источник: naked-science.ru






