romip.ru

by **neigor** » Mon Apr 11, 2005 10:03 am

На данный момент мы не планируем больших изменений в правилах проведения
этих дорожек (это утверждение не касается процедуры оценки) по сравнению с
прошлым годом.

Есть открытый вопрос про дорожку классификации Веб-страниц.

Кратко просуммирую формальности:

1. Классификация Веб-сайтов

Коллекция: Narod.Ru
Обучающее множество: DMOZ

http://romip.narod.ru/ru/2004/tracks/web-classification.html

2. Классификация нормативных документов

Коллекция: Legal
Обучающее множество: подвыборка коллекции, построеная на основе каталога
Кодекс

http://romip.narod.ru/ru/2004/tracks/legal-classification.html

3. Классификация Веб страниц

Коллекция: Narod.Ru
Обучающее множество: DMOZ

Правила аналогичны дорожке по классификации Веб-сайтов,
но в данном случае для обучения используются САЙТЫ (не все страницы
одного сайта реально относятся к заявленной тематике), а
классифицироваться должны индивидуальные страницы narod.ru.

Вопрос/проблема:
Число страниц в narod.ru - 700.000+. категорий <250.
Вероятнее всего често построенные пулы для каждой категории
будут размерами минимум в несколько тысяч страниц.
Так много категорий не оценить.

Варианты:
- попросить выдавать численный критерий близости документа к теме
и при построении пула для конкретной категории
учитывать только первые N документов по весу из ответа каждой системы.
- при проверке выбрать подмножество narod.ru и
сузить ответы всех систем на это подмножество
(например, только сайты на букву a)
Как сузить - анонсируется после сбора результатов
(похоже на то, как мы делаем при выборе запросов для оценки)

Комментарии/предложения?

-igor

by **maxgubin** » Tue Apr 12, 2005 11:45 am

Всем добрый день!

У меня есть вопрос по данной дорожке. Насколько я понимаю, сейчас
постановки, которая была бы общепринята РОМИП, нет.

В связи с этим, у меня есть предложение принять постановку adhoc task
SUMMAC, на базе legal коллекции. См. Например
http://www-nlpir.nist.gov/related_projects/tipster_summac/final_rpt.html

Кратко мое понимание задачи:
Система представляет для документов, отобранных по запросу X свои аннотации.
Асессор видит запрос X и аннотации документов и оценивает релевантность
документов по аннотациям. Мерой является согласованность оценок для полных
документов, полученных в дорожке поиска и для аннотаций, полученных в данной
дорожке.

Достоинства:
1. Отработанная методика
2. Более-менее близкая к практическому приложению для систем
автоматизированного аннотирования.
3. Используются данные уже полученные семинаром.
Недостатки:
1. Нет повторного использования, т.е. результаты нельзя применить для оценки
других аннотаций. Но это общая проблема всего аннотирования.
2. Для поисковых систем задача в такой постановке не очень интересна.
Попытаюсь объяснить почему.

Как правило, интересны короткие аннотации - по одному snippetу фиксированной
длины для списка результатов, а не аннотация в % от длины исходного
документа. Поэтому, может внести в исходную постановку изменения,
позволяющие участвовать поисковым системам, которые будут формировать не
полноценные аннотации, а snippetы - т.е. вырезки не длиннее, например 300
символов из текста документа. Мне бы такая постановка была бы интереснее.

Максим

by **neigor** » Tue Apr 12, 2005 11:46 am

Максим, спасибо.

Я планировал предложить подобную формулировку со следующими отличиями:

1) абсолютное ограничение на максимальный размер аннотаций)
(причины такие же как у Максима

2) Веб-коллекция

Почему Веб? В основном потому что это проще оценивать асессорами
неспециалистами. В прошлом году были нарекания по качеству оценки
для нормативных дорожек.

Мы все еще думаем как сделать оценку более переиспользуемой и интересной,
НО на постановку задачи это по идее влиять не должно.

И уточнение постановки.
Система на вход получает запрос X и набор документов который надо
проаннотировать по запросу X. Не все документы будут релевантными

Запросы можно взять из оценивавшихся в прошлом году,
соответствующими наборами документов будут оценивавшиеся пулы.

-igor

by pb » Wed Apr 13, 2005 4:50 am

Я согласен с постановкой задачи. Правда, у нас sentence extraction,
придется дорабатывать. Как будем задавать ограничение - в символах или
словах? Может быть, использовать запросы и пулы этого года? Например,
задания сформировать сразу после сбора результатов по поисковой
дорожке, а результаты требовать в течение одной-двух недель. Тогда, я думаю,
можно не зашумлять набор нерелевантными док-тами, а просто подавать
пулы, которые не будут оцениваться.

ПБ

by **maxgubin** » Wed Apr 13, 2005 11:04 am

Всем добрый день!

>Тогда, я думаю,
>можно не зашумлять набор нерелевантными док-тами, а просто подавать
>пулы, которые не будут оцениваться.

Я считаю, что не релевантные документы должны быть. Ведь аннотация для
нерелевантного документа должна показать, что он нерелевантен.

Максим

by **vladimir_pleshko** » Wed Apr 13, 2005 11:07 am

> Вопрос/проблема:
> Число страниц в narod.ru - 700.000+. категорий Вероятнее всего често построенные пулы для каждой категории
> будут размерами минимум в несколько тысяч страниц.
> Так много категорий не оценить.
>
> Варианты:
> - попросить выдавать численный критерий близости
> документа к теме
> и при построении пула для конкретной категории
> учитывать только первые N документов по весу из
> ответа каждой системы.

Не бязательно требовать какую-то величину. Достаточно потребовать
упорядочение по убыванию степени близости.

Подозреваю, что это может ограничить число систем/прогонов. Система
не обязана выдавать меру близости. Скажем, если рубрика описывается
набором логических формул, и решение о принадлежности принимается
при срабатывании любой формулы из набора, с формулой вовсе не
обязательно должно быть связано какое-либо число.

> - при проверке выбрать подмножество narod.ru и
> сузить ответы всех систем на это подмножество
> (например, только сайты на букву a)
> Как сузить - анонсируется после сбора результатов
> (похоже на то, как мы делаем при выборе запросов для оценки)

Согласен. Лучше оценить случайную выборку. При ее построении нужно будет
позаботиться, чтобы ее х-ки были похожи на х-ки всего массива (распределение
документов по длине, распределение сайтов по объему и т.п.).

С уважением,
Владимир Плешко

by **neigor** » Wed Apr 13, 2005 11:13 am

Я так понимаю, что в неоценненных пулах будет масса нерелевантных
документов, так что проблемы нет

Что хорошо - в отличие от оценивавшихся в прошлом году будет заранее
неизвестно какие релевантны, а какие нет.

Вообщем-то идея кажется вполне здравая. Меня смущают только сроки
- очень быстро придется делать задание.

Поэтому предлагаю сделать это задание из двух частей:
1) сейчас мы выдаем прошлогодние пулы
2) по мере построения новых пулов раздаем и их,
но на выполнение этой части будет не более 2 недель

Оценка будет производится частично по первой, частично по второй части
задания.

Можно еще например попросить сдать первую часть заранее, до раздачи второй.
Это позволит раньше начать оценку, но тогда участники должны быдут
использовать _точно_ те же методы без модификаций для выполнения второй
части. А иначе непонятно как можно будет усреднять и сравнивать.

-igor

by pb » Thu Apr 14, 2005 5:43 am

> Я так понимаю, что в неоценненных пулах будет масса нерелевантных
> документов, так что проблемы нет :)
В *оценивающихся* пулах будет достаточно нерелевантных документов (больше,
чем релевантных, насколько можно судить по результатам прошлых лет).

> Что хорошо - в отличие от оценивавшихся в прошлом году будет заранее
> неизвестно какие релевантны, а какие нет.

> Вообщем-то идея кажется вполне здравая. Меня смущают только сроки
> - очень быстро придется делать задание.
Я думаю 2 недели - это нормально (если только не 10000 пулов давать,
а, скажем, 1000. Кстати, Игорь, какова оценка величины пула с учетом
кол-ва участников и глубины на этот год?).

> Поэтому предлагаю сделать это задание из двух частей:
> 1) сейчас мы выдаем прошлогодние пулы
> 2) по мере построения новых пулов раздаем и их,
> но на выполнение этой части будет не более 2 недель

> Оценка будет производится частично по первой, частично по второй части
> задания.

> Можно еще например попросить сдать первую часть заранее, до раздачи второй.
> Это позволит раньше начать оценку, но тогда участники должны быдут
> использовать _точно_ те же методы без модификаций для выполнения второй
> части. А иначе непонятно как можно будет усреднять и сравнивать.
Предлагаю распространить пулы прошлых лет как *тренировочные*
(чтобы подстроиться под формат и т.д.), а потом по "боевым" требовать быстрого
результата.

ПБ

by **alexant03** » Thu Apr 14, 2005 7:24 am

>> Вопрос/проблема:
>> Число страниц в narod.ru - 700.000+. категорий > Вероятнее всего често построенные пулы для каждой категории
>> будут размерами минимум в несколько тысяч страниц.
>> Так много категорий не оценить.
>>
>> Варианты:
>> - попросить выдавать численный критерий близости
>> документа к теме
>> и при построении пула для конкретной категории
>> учитывать только первые N документов по весу из
>> ответа каждой системы.
>
>Не бязательно требовать какую-то величину. Достаточно потребовать
>упорядочение по убыванию степени близости.

Согласен, упорядоченное множество лучше.
Насчет первых N документов - правильно.

>> - при проверке выбрать подмножество narod.ru и
>> сузить ответы всех систем на это подмножество
>> (например, только сайты на букву a)
>> Как сузить - анонсируется после сбора результатов
>> (похоже на то, как мы делаем при выборе запросов для оценки)
>
>Согласен. Лучше оценить случайную выборку. При ее построении нужно будет
>позаботиться, чтобы ее х-ки были похожи на х-ки всего массива(распределение

>документов по длине, распределение сайтов по объему и т.п.).

Насчет похожести выборки, не уверен, что это нужно. Добиться всех идентичных
характеристик (тематики, например, или подъязыка), вряд ли возможно.

С уважением,
Антонов Александр.

romip.ru

Классификационные задачи

Классификационные задачи

Контекстно-зависимое аннотирование

Re: [romip] Контекстно-зависимое аннотирование

Re[2]: [romip] Контекстно-зависимое аннотирование

RE: Re[2]: [romip] Контекстно-зависимое аннотирование

RE: Re[2]: [romip] Контекстно-зависимое аннотирование

Re[4]: [romip] Контекстно-зависимое аннотирование

RE: [romip] Классификационные задачи - страницы

Who is online