Oleksandr Korobov - just notes: 2012

среда, 26 декабря 2012 г.

Умничание вокруг лемматизации

Не то что бы я сильный любитель natural language processing, но так получилось что в исскуственном интеллекте этот раздел занимает очень уважаемую позицию. Да и в Grammarly нахватался кое-чего. Так что теперь это для меня родное, и следовательно, продолжаем разговор.

Итак, лемматизация. Начнем с того, почему это понадобилось. Как я уже писал ранее, я сталкивался с задачей классификации текстов. Есть много подходов, и немало эффективных техник основанно на подсчете частот вхождения слов. В общем речь о частотах и модели bag of words. И вот тут все хорошо в английском. Но неважно в русском или немецком. Потому как в этих языках очень большая вариативность словарных форм. Ответ простой. Привести все слова к леммам. Однако все опять таки просто для английского, но для русского и немецкого правила намного разнообразнее и сложнее.

среда, 26 декабря 2012 г.

пятница, 7 декабря 2012 г.

понедельник, 26 ноября 2012 г.

пятница, 23 ноября 2012 г.

понедельник, 19 ноября 2012 г.

четверг, 15 ноября 2012 г.

суббота, 3 ноября 2012 г.

пятница, 26 октября 2012 г.

четверг, 25 октября 2012 г.

пятница, 19 октября 2012 г.

среда, 17 октября 2012 г.

вторник, 9 октября 2012 г.

понедельник, 8 октября 2012 г.

воскресенье, 30 сентября 2012 г.

пятница, 21 сентября 2012 г.

среда, 19 сентября 2012 г.

воскресенье, 26 августа 2012 г.

воскресенье, 5 августа 2012 г.

четверг, 2 августа 2012 г.

четверг, 19 июля 2012 г.

среда, 26 декабря 2012 г.

пятница, 7 декабря 2012 г.

понедельник, 26 ноября 2012 г.

пятница, 23 ноября 2012 г.

понедельник, 19 ноября 2012 г.

четверг, 15 ноября 2012 г.

суббота, 3 ноября 2012 г.

пятница, 26 октября 2012 г.

четверг, 25 октября 2012 г.

пятница, 19 октября 2012 г.

среда, 17 октября 2012 г.

вторник, 9 октября 2012 г.

понедельник, 8 октября 2012 г.

воскресенье, 30 сентября 2012 г.

пятница, 21 сентября 2012 г.

среда, 19 сентября 2012 г.

воскресенье, 26 августа 2012 г.

воскресенье, 5 августа 2012 г.

четверг, 2 августа 2012 г.

четверг, 19 июля 2012 г.