Доклад

От ключевиков до LLM: ретроспектива методов кластеризации коротких текстов

Зал 3На русском языке

Короткие тексты — ответы на открытые вопросы, запросы в поддержку, комментарии — всегда сложно анализировать из-за того, что у них нет четкой структуры. Как превратить их в структурированные данные? Я нескольких лет подряд пробовал различные подходы к их обработке: от простого анализа ключевых слов до современных нейросетевых решений на основе BERT и LLM.

Я поделюсь историей проб, ошибок и неочевидных инсайтов:

  • Почему LLM — не калькулятор: как выбор модели влияет на стабильность кластеризации и как с этим жить. Что делать, когда у LLM короткое контекстное окно и как можно, не осознавая эту проблему, терять данные. Как здесь могут помочь деление на блоки и предобработка.
  • Для случаев, когда нужно недорогое локальное решение, BERT остается отличным вариантом. Поделюсь источниками качественных моделей, адаптированными для русского языка, и расскажу, как стоп-слова влияют на результаты.
  • В каких случаях простая кластеризация по ключевым словам побеждает более навороченные подходы.

Этот доклад — для тех, кто хочет сэкономить время и избежать «граблей» при анализе коротких текстов. 

Спикеры

Расписание