Page 1 of 1

Новые дорожки - Sentiment Analysis

PostPosted: Mon Aug 29, 2011 5:59 pm
by chetvil
Дорогие друзья!

Вашему вниманию предлагается описание набора дорожек связанных с классификацией мнений пользователей о различных сущностях.
В приложенном файле есть вся информация о планируемых задачах и коллекциях!

Конструктивная критика приветствуется, ну и, соответственно, давайте обсуждать!

С уважением,
Четвёркин Илья

Re: Новые дорожки - Sentiment Analysis

PostPosted: Wed Aug 31, 2011 12:06 pm
by dkey
В оценочные методы можно добавить precision / recall / f-measure. Тогда можно сравнить алгоритмы по underlearn/overlearn для конкретных классов тональностей + полнота.

Re: Новые дорожки - Sentiment Analysis

PostPosted: Tue Sep 20, 2011 5:11 pm
by nashb
Предлагаю в обучающие данные добавить поле "полезность", если оно было в исходных данных (как, например, на Яндекс маркете). Это поле может быть использовано как дополнительный аттрибут. Кроме того, мне кажется интересной задача определения "полезных" отзывов или ранжирования отзывов в порядке их полезности. Грубо говоря, какие отзывы читать, а какие - нет. Возможно ли добавить указанное поле?

Re: Новые дорожки - Sentiment Analysis

PostPosted: Mon Sep 26, 2011 4:39 pm
by chetvil
Здравствуйте!

Да, информация о полезности будет добавлена. Но дополнительной дорожки по предсказыванию полезности в этом году не будет.
Кроме того, начинает появляться информация на сайте, с описанием дорожек.
Заодно напишу здесь основные даты дорожек в этом году, для тех, кто ленится почитать манифест :)

31.08.11 Манифест, правила, форматы, сроки
20.09.11 Объявление дорожек всем заинтересованным лицам
15.10.11 Раздача обучающих данных
01.11.11 Раздача тестовых данных
01.12.11 Прием результатов прогонов
10.12.11 Результаты всех участников
Подача работ по результатам дорожки на Диалог. (Конец января).

Re: Новые дорожки - Sentiment Analysis

PostPosted: Sun Oct 23, 2011 3:05 pm
by chetvil
Открыта регистрация на семинар и дорожки по анализу мнений!

Установлены новые даты (надеюсь окончательные :) ) по проведению семинара!
Объявление дорожек: 20 октября
Распространение данных для обучения: с 25 октября
Распространение тестовых данных: с 15 ноября
Предоставление результатов выполнения заданий: до 15 декабря
Результаты оценки: 20 декабря
Тексты докладов: 1 февраля

Re: Новые дорожки - Sentiment Analysis

PostPosted: Mon Oct 31, 2011 1:40 pm
by Foreseer
В классификации на 2 класса хорошо бы в качестве метрики Area Under Curve добавить - одна из стандартных метрик для бинарных классификаторов.

Re: Новые дорожки - Sentiment Analysis

PostPosted: Fri Nov 04, 2011 1:14 am
by Alex
  • Можно ли использовать дополнительные данные для обучения? Например, набрать еще отзывов с маркета.
  • Зачем нужен URL в тестовых данных? Можно собирать доп. информацию с указанной страницы?
  • Для всех 3х дорожек будет использоваться общий набор тестовых данных?

Re: Новые дорожки - Sentiment Analysis

PostPosted: Mon Nov 07, 2011 11:13 am
by chetvil
Дополнительные данные использовать можно, главное укажите это потом в описании вашей работы. Ну и, естественно, всю юридическую часть по использованию дополнительных данных вы берете на себя. РОМИП за это не отвечает.

URL просто для сведений, если хотите - собирайте доп. информацию, но правила игры как и в предыдущем пункте.

Да, для всех 3х дорожек будет общий набор тестовых данных.

По поводу дополнительных метрик - подумаем, насколько нужна еще AUC.