По прежнему не будучи слишком сосредоточенным на обработке натуральных языков, постоянно возвращаюсь к этому вопросу на практике. Так уж получается, я не виноват. Это просто очень хорошая точка приложения для экспериментов с машинным обучением и обработки данных.
Итак, сегодня получился маленький прорыв в том, чтобы вполне эффективно и приемлемо для практического применения получать группы текстовых сообщений, объединенных общей тематикой. По сути это такой себе unsupervised learning алгоритм, который действительно неплохо работает в ряде случаев. Но столкнулся с проблемой именования категорий. По сути, каждый кластер может быть охарактеризован последовательностью математических значений, не читабельных человеком.
Одно из решений уже сразу в голове - взять алгоритм создания summary и применить его к объединенному корпусу составленному из документов текущей категории, и таким вот образом и получить название кластера. Но разве же это нормально, иметь ключ длинной в предложение да еще и нестабильный.... Так что ищу способ научиться давать человекочитаемое название категории, стабильное и короткое. Нужно же как то подписывать категории...
Спросил совета у знакомого Natural Language Processing специалиста, говорит, используй ключ состоящий из трех-четрыех слов. Пробую использовать. Но все равно есть варианты.
Может использовать набор из самых важных тегов "Обама Выборы Голосование"? Или использовать вместо обычных тегов название стабильных категорий с высокой степенью связанности в духе "Политика Личности Демократия" не учитывая порядок слов... Практика покажет, придется ставить еще один эксперимент,пока не знаю, что лучше.
Комментариев нет:
Отправить комментарий