Lexical ambiguity resolution

The resolution of lexical ambiguity (word sense disambiguation, WSD) is an unresolved problem of natural language processing , which consists in the task of choosing the meaning (or meaning) of a multi-valued word or phrase depending on the context in which it is located. This problem arises in discursive analysis , in optimizing the relevance of results by search engines, in resolving anaphoric references , in studying linguistic text coherence , in analyzing conclusions .

Scientific research on the resolution of lexical ambiguity has been in the field of view of applied and computer linguistics for a long time and has a long history. Over the years, the number of proposed solutions and their effectiveness steadily increased until the efficiency reached a certain level of comparatively effective accuracy indicators for a certain spectrum of words and types of ambiguities. The problem has not yet been completely solved, since many problems directly related to the linguistic features of human speech stand in the way of a successful solution.

A large number of methods were studied: from methods based on knowledge, rules, lexicographic sources, teaching with a teacher on the body of texts, to teaching methods without a teacher , clustering words based on meaning. Among the listed, to date, teaching methods with a teacher have shown the best efficiency. However, objective comparison and evaluation of methods is a complex process, depending on many factors. For generalized systems of vocabulary knowledge (for English), the effectiveness regularly exceeds the bar in 90%, sometimes even reaching 96%. For more differentiated vocabulary systems, efficiency is in the range of 59% -69%.

Content

1 About the process of resolving ambiguity
2 Brief history of the region
3 Problems and difficulties
- 3.1 Compilation of dictionaries
- 3.2 Definition of a part of speech
- 3.3 The human factor and the consistency of manual results
- 3.4 Common sense
- 3.5 Dependence on the task
- 3.6 Differentiation of word meanings
4 Relevance of the problem, possible applications
- 4.1 Information Search
- 4.2 Machine translation
- 4.3 Information Retrieval
- 4.4 Content Analysis
- 4.5 Other areas
5 Basic types of methods
- 5.1 Knowledge Based Methods
- 5.2 Teaching methods with a teacher
- 5.3 Methods of partial training with a teacher
- 5.4 Teaching methods without a teacher
- 5.5 Other methods
- 5.6 Local problems and outcome
6 External sources of knowledge
7 Evaluation and Comparison of Methods, Senseval Conference
- 7.1 Selection of assessment models
- 7.2 Results and features
8 Notes
9 Recommended reading

About the process of resolving ambiguity

In general, the ambiguity (or ambiguity) of a linguistic expression or speech product (text) is understood to mean that it has several different meanings at the same time ^[1] . Scientists share several types of such polysemy: lexical, syntactic and speech, but the term “WSD” includes the resolution of the lexical (semantic).

What we are talking about can be understood from the following example with the ambiguous word "key":

key as a tool for opening
key as a source of water

as well as 3 contexts:

The key came up, the door opened
I got drunk out of the key
Life abounds

For a person, it is obvious that in the first sentence the word " key " is used in the first meaning, in the second sentence - respectively in the second meaning, and in the third - options are possible. The development of algorithms that mimic such a person’s ability can sometimes become a daunting task.

The resolution process requires several things: a vocabulary knowledge system for determining the many meanings of words and a body of texts for resolution (in some cases, other sources of knowledge may be required).

A Brief History of the Region

This problem was first formulated as a separate task in the 1940s, at the time of the advent of machine translation, which makes it one of the oldest problems in computer linguistics. Warren Weaver ( English Warren Weaver ), in his famous "The" Translation "memorandum" (1949) ^[2] , presented the problem in the computer-computing aspect. Researchers of that time perfectly understood its significance and complexity, in particular, Yehoshua Bar-Hillel (one of the pioneers) in 1960 expressed doubt that the task of universal fully automatic machine translation would ever be feasible due to the need to simulate all human knowledge of the world ^[3] .

In the 70s, the WSD problem became part of the semantic interpretation systems developed within the field of AI , but for the most part they consisted of manually derived rules, and therefore completely depended on the amount of knowledge available, which at that time was extremely difficult to obtain.

By the 80s, such voluminous resources as the Oxford Advanced Learner's Dictionary of Current English had become available and manual writing of rules was supplanted by automatic extraction of knowledge from such sources, but methods still did not leave the class of so-called “knowledge-based methods” .

However, in the 90s, the “statistical revolution” completely changed the approaches and methods in computer linguistics, and the task of resolving lexical ambiguity became a problem to which all kinds of teaching methods with a teacher are applicable ^[4] .

The 2000s showed that teaching methods with a teacher have reached a certain level of accuracy and cannot overcome it, so the attention of scientists has shifted towards working with more generalized systems of vocabulary knowledge (coarse-grained senses), adaptation to subject areas (domain adaptation), partial training with a teacher (semi-supervised systems) and training without a teacher (unsupervised corpus-based systems), mixed methods, as well as processing knowledge bases and outputting results in the form of graphs (the return of knowledge-based systems via graph-based methods) . However, to date, teaching systems with a teacher are considered the most effective.

Problems and Difficulties

However, why does such a task cause so many difficulties, and the results of its solutions demonstrate a relatively low efficiency? In the process of working on the problem of resolving lexical ambiguity, a large number of difficulties were discovered, most often due to the properties of human psychology and speech.

Dictionary Compilation

Firstly, all dictionaries are different and not equivalent to each other. Most often, the task of distinguishing the meanings of a word from each other does not cause difficulties, however, in some cases, different meanings of a word can be very close to each other semantically (for example, if each of them is a metaphor or metonymy to each other), and in such situations, separation in different dictionaries and thesauri can vary significantly. The solution to this difficulty can be the universal use of the same data source: one universal dictionary. Speaking globally, the results of studies using a more generalized system of separation into meanings are more effective ^[5] ^[6] , so some researchers simply ignore the processing of dictionaries and thesauruses with a more detailed division into meanings.

Definition of a part of speech

Secondly, in some languages the problem of determining the part of speech ( English Part-of-speech tagging ) of a word can be very closely related to the problem of resolving ambiguities, as a result of which these two tasks can interfere with each other. Scientists have not come to a consensus that it is worth dividing them into two autonomous components, but the advantage is on the side of those who believe that this is necessary ^[7] .

The human factor and the consistency of manual results

The third difficulty is the human factor . The systems for resolving lexical ambiguity have always been evaluated by comparing the results with the results of people's work. And for people this task may not be as simple as POS-tagging - marking out the meanings among several proposed ones is several times more difficult ^[8] . If a person can keep in mind or easily guess the parts of speech that a word can be, then it is not possible to remember all the possible meanings of words. Moreover, as it turned out, the results of different people do not always coincide ^[9] and they often do not come to a general decision about the meaning in which this word is used in a specific context. Despite this, scientists take the result of a person as a standard, a standard for comparison with computer results. It should be noted that a person copes with generalized dictionary systems much better than with detailed ones - and that is why the attention of researchers turned to them ^[5] ^[6] .

Common Sense

Some researchers argue ^[10] that common sense is also important when processing texts, which it seems unlikely to teach a computer. The following two suggestions are an example:

“Jill and Mary are sisters.” - (they are sisters in relation to each other).
“Jill and Mary are mothers.” - (each independently is a mother).

The first sentence implies that Jill and Mary are sisters to each other; in the second, both Jill and Mary are both mothers, and not the fact that they are relatives. Therefore, for a more accurate analysis of the values, such knowledge of the world and society is necessary. Moreover, this knowledge is sometimes also necessary in resolving syntactic ambiguities and in analyzing anaphores and cataphores .

Task Dependence

Fifth, a permanent task-independent set of methods does not make sense, given that the polysemy of the word mouse (animal and computer device), for example, does not affect the result of the English-Russian and Russian-English translation ( since in both languages both of these meanings are embodied in the same word), but they strongly affect the information retrieval. You can give the opposite example: when translating the word 'river' into French from English, we need to know the meaning of the word ('fleuve' is a river that flows into the sea, and 'rivière' is a river that flows into another river). As a result, different algorithms are required for different tasks - therefore, if some good algorithm for resolving lexical ambiguity is developed, it is impossible to be completely sure that it will suit all tasks.

Word meaning differentiation

Sixth, scientists raise the question of the possibility of a discrete representation of the meaning of a word. Even the term " meaning of the word " itself is quite general and controversial. Most people agree when working with generalized knowledge systems with a high level of word homography, but as soon as the level decreases and dictionaries become more detailed, a large number of discrepancies arise. For example, at the Senseval-2 conference, which used detailed systems, people annotators agreed only in 85% of cases ^[11] .

The meanings of words are very flexible, quite variable and extremely contextual, and sometimes even situationally dependent, therefore they are not always strictly divided into several sub-meanings ^[12] . Lexicographers often find in the texts too broad and semantically overlapping meanings, and the standard meanings of words often have to be adjusted, expanded and narrowed in the most bizarre and unexpected way. For example, in this situation, “children run to their mothers” the word “children” is used simultaneously in two senses: they are both children of their parents and just children. The task of the lexicographer is to, having analyzed the huge volume of texts and materials, describe the entire possible range of meanings of the word. However, it is not yet known whether this approach is applicable in the field of computing and computer linguistics, because the decisions of lexicographers are made in favor of the completeness of the described meanings, and not the applicability of the information received in word processing.

Recently, a task called lexical substitution has been proposed as a solution to the problem of differentiating word meanings ^[13] . Its meaning is to provide a replacement for the word with another that preserves the meaning of the old in this context.

Relevance of the problem, possible applications

It is a well-known fact that the results of the process depend not only on the innovativeness and effectiveness of the methods, but also on the various settings / properties of the task, and the requirements of the resolution process (for example, differentiation of word values, features of evaluating results, disambiguation coverage, etc.). ) It is also important that a large number of NLP areas can take advantage of the results of WSD.

Information Search

In information search systems - if you exclude from consideration documents that contain any of the query words in the wrong meaning that the user is interested in at the moment, then the relevance of the query results can be increased.

The very first works that investigated the possibility of using WSD in the field of information retrieval did not show an increase in search accuracy , but in 1994 Sanderson discovered ^[14] that improvements can only be detected if the ambiguity resolution efficiency exceeds 90%, the general validity of which is debated. And in 1995, Schutze and Pedersen showed ^[15] , which showed that with the above effectiveness, a 4% search improvement can be obtained. However, Stookie showed that the use of WSD can give, albeit small - an average of 1.73%, results with lower WSD efficiency (62.1%) ^[16] .

Machine Translation

In machine translation systems, the lack of reliable mechanisms for recognizing the meaning of a word significantly reduces the quality of the translation, since the word is not always unambiguously translated into another language. And automatically determining the correct translation depending on the context is a very difficult task. The resolution of lexical ambiguity has long been conceived as the main task, the solution of which will achieve an almost perfect machine translation - these thoughts are based on the idea that WSD cannot but improve translation systems to choose the right value candidates for translation. "This area has not been explored as much as necessary because of the long-established, traditionally less efficient predefined vocabulary database ( English sense inventory )."

Information

In specific areas, the most interesting are the problems of resolving their specific concepts: for example, in the medical field, the definition of drug names in the text may be useful, while in bioinformatics it is necessary to resolve ambiguities in the name of genes and proteins - this process was called Information Extraction. It includes tasks such as named-entity recognition (NER), acronym expansion (e.g., Russian Federation - Russian Federation) and others - all of which can be considered as a resolution problem ambiguity, although this is a new and not yet fully explored direction.

Content Analysis

Content analysis and identifying the main parts of the text in terms of ideas, themes, etc., can greatly benefit from WSD. К примеру, классификация текстов (блогов), присвоение тегов статьям или блогпостам , или определение релевантных (возможно, семантически) связей между ними, или (семантический) анализ социальных сетей , становящаяся всё более и более активной в последнее время. Эта область является наиболее новой, неизвестной из всех вышеперечисленных.

Другие области

word processing ( англ. word processing ) является одной из областей применения WSD, так как последнее может помочь процессу корректирования написания слов ^[17] , исправлению заглавных и прописных букв, исправлению/добавлению диакритики на основе семантики контекста
исследования в лексикография и WSD взаимно обогащают друг друга:
1. WSD может помочь разделять слова на значения, используя эмпирические знания, и получить индикаторы контексты определенных значений; более того, WSD может помочь созданию семантических сетей из электронных словарей ^[18]
2. с другой стороны, лексикографы могут предоставить более богатые и логически/эмпирически правильные разделения слов на значения, sense inventories а также аннотированные корпуса текстов (как пример, «HECTOR project» и «Sketch Engine»)
семантический веб : так как семантический веб в своей основе нуждается в домено-зависимом и неограниченном разрешении лексической многозначности для работы с семантикой веб-документов, для взаимодействия между такими вещами, как системы, онтологии и пользователи. WSD используется и исследуется в таких областях, как обучение онтологий ( англ. ontology learning ), построения таксономий областей ^[19] ^[20] ^[21] и обогащения семантических сетей .

Основные типы методов

Как и всегда, при обработке естественного языка, существует два подхода: глубокий и поверхностный.

Подходы, относящиеся к первой категории предполагают доступ к так называемому знаниям о мире (world knowldge или commonsense knowledge base). Например, знание того, что «любая неодушевлённая, материальная вещь может быть зелёным в смысле цвета, но не может быть зелёным в смысле неопытности», позволяет определить, в каком смысле слово «зеленый» употреблено в данном контексте. Такие подходы не настолько результативны на практике, поскольку такой класс знаний о мире, пусть и возможно хранить в удобном для восприятия компьютера формате, покрывает очень небольшие ^[22] области нашей с вами жизни и не совсем применимы ко всем исследованиям. Надо сказать, что и этот подход тоже не всегда работает, например, в предложении «Директор был такой зелёный» пользуясь знаниями, невозможно определить, в данном случае директор зелёный потому что он позеленел или потому что он неопытен — зачастую это возможно определить только исходя не из контекста, а логики и смысла всего текста.

Также, в компьютерной лингвистике существует старая традиция применения данных методов в терминах программных знаний, и зачастую довольно сложно определить, эти знания являются лингвистическими или знаниями о мире ( англ. Commonsense knowledge base ). Первая попытка была предпринята Маргарет Мастермен ( англ. Margaret Masterman ) и её коллегами Кембриджского отделения по исследованию языка (Cambridge Language Research Unit) в Англии, в 50-х: они использовали данные тезауруса Роже и пронумерованные "головные слова" ( англ. headword ) в качестве индикаторов тем и анализировалсь повторения в тексте, используя алгоритм пересечения множеств. Этот эксперимент был не очень удачен ^[23] , однако оказал сильнейшее влияние на последующие работы, особенно на работу Яровкского 1990-х об оптимизации тезаурусного метода с помощью машины обучения с учителем.

Поверхностные же подходы не пытаются понять текст, они лишь опираются на анализ близлежащих слов, например: если рядом со словом «bass» присутствуют слова «sea» или «fishing», скорее всего, что в данном случае имеет место значение в биологическом смысле. Эти правила могут быть автоматически извлечены, используя корпус текстов с размеченными значениями слов. Этот подход, пусть и не покрывает по мощности предыдущий, по эффективности на практике легко его обгоняет. Однако, всегда существуют подводные камни, например как в предложении «The dogs bark at the tree», в котором рядом со словом «bark» содержатся слова и «tree», и «dogs».

Существует четыре основных метода разрешения многозначности:

методы, основанные на знаниях (dictionary- и knowledge-based methods): эти методы преимущественно полагаются на словари, тезаурусы, лексикографические базы данных, не полагаясь на корпусы текстов.
методы обучения с учителем (supervised methods): эти методы используют размеченные корпуса текстов для тренировки классификатора.
методы частичного обучения с учителем (semi-supervised или minimally-supervised methods): эти методы используют вторичные знания, такие как определения терминов в толкованиях слов или выровненный двуязычный корпус .
методы обучения без учителя (Unsupervised methods): большинство этих методов не предполагает использование каких-либо внешних данных и используют только raw unannotated corpora; также, они известны под термином кластеризации и «word sense discrimination».

Методы, основанные на знаниях

Метод Леска ^[24] — продуктивный метод, основанный на использовании знаний словаря. Он основывается на гипотезе, что слова, находящиеся рядом в тексте, связаны друг с другом и эту связь можно наблюдать у определений слов и их значений. Два (или более) слова могут оказаться близкими, если у обоих из них будет обнаружена пара значений с наибольшим пересечением слов в их определениях в словаре. К примеру, словосочетание «pine cone», в определениях обоих в одного из значений присутствует такие слова как «evergreen» и «tree». Также, как альтернативу предыдущему способу, можно использовать глобальную связь между этими словами, подсчитав семантическую близость каждой пары значений в WordNet .

Как альтернативу вышеизложенным методам можно использовать общую семантическую близость ( англ. semantic similarity ) значений слов, основанную на WordNet 'e. Методы, использующие графы и работающие по принципу распространяющейся активации ( англ. spreading activation ) также применялись с некоторым успехом: некоторые из них показали точность, сравнимую ^[25] с методами обучения с учителями, а иногда и превосходящую ^[5] ^[26] в определённых областях. Также, недавно было показано ^[27] , что даже простейшие методы, основанные на мерах связности графов (таких, как степень/валентность всего графа) могут показать высокие результаты при наличии богатой лексической базы.

Использование так называемых моделей управления («selectional preferences» или «selectional restrictions») также бывает довольно полезным. К примеру, используя знание, что слово «bass» в значении рыбы часто встречается со словом «cook» или «eat», мы можем разрешить многозначность в таком предложении как «I am cooking bass». Однако, создать подобные знания о мире чрезвычайно трудозатратно и практически невозможно.

Методы обучения с учителем

Все методы обучения с учителем основаны на предположении, что контекст рассматриваемого нами слова предоставляет достаточно информации для того, чтобы вычислить то, в каком значении оно в данном случае применено (а значит знания, полученные из словарей и тезаурусов, отсекаются как лишние). Все модели обучения с учителем применялись к проблеме WSD, включая связанные с ними техники, такие как выбор переменных , оптимизация параметров и смешанные модели ( англ. ensemble learning ). Метод опорных векторов и метод обучения на примерах ( англ. instance-based learning ) показали себя как одни из наиболее высокоэффективные методы на сегодняшний день, возможно, потому что они могут справиться с многопараметрическими свойствами слов и контекстов. Однако, вышеперечисленные методы имеют в качестве узкого места требование иметь огромное количество вручную размеченных текстов для обучения, что, как уже говорилось, трудоёмко и дорого. Снова встаёт проблема обладания подобными размеченными корпусами.

Методы частичного обучения с учителем

Метод бутстреппинга ^[28] является распространённым способом итеративного обучения и оценки классификатора для увеличения его эффективности. Алгоритм начинается с небольшого количества начальных данных (англ. seed data) для каждого слова: либо небольшое количество вручную введённых примеров контекстов либо пара безошибочных правил определения значения слова (к примеру, слово «play» в контексте слова «bass» почти всегда обозначает, что слово подразумевается в музыкальном значении). Эти данные используются для тренировки классификатора, применяя любой из вышеприведённых методов обучения с учителем. Затем, классификатор применяется на множестве уже неразмеченных текстов для извлечения большой тренирующей выборки, в которую включены только «надёжные» контексты. Процесс итеративно повторяется: каждый следующий классификатор обучается на соответствующем ему бо́льшем множестве контекстов — и повторяется до тех пор, пока весь корпус не покрыт либо пока не достигнуто максимальное количество итераций.

Другой метод использует большие объёмы неразмеченных текстов для получения информации о совместной встречаемости слов, что может значительно дополнить наши данные. Также, правильно выравненный билингвальный корпус может использоваться для разрешения кросс-языковой многозначности, так как многозначное слово в одном языке всегда переводится на другой язык в зависимости от своего значения, в котором оно употреблено. Этот метод в каком-то смысле тоже можно считать методом частичного обучения.

Все вышеперечисленные техники могут позволить адаптировать методы обучения с учителем к другим областям.

Методы обучения без учителя

Данный вид методов — одна из наиболее сложных WSD-задач. Основным предположением этого метода является утверждение: «схожие значения встречаются в схожих контекстах» и таким образом они могут быть извлечены из текста с помощью кластеризации, используя некоторую меру схожести контекстов ^[29] . Тогда, новые контексты могут быть причислены к одному из ближайших кластеров. Производительность метода безусловно ниже других методов, однако сравнение несколько проблематично из-за необходимости проецирования полученных кластеров на имеющиеся в словаре значения. Если же проецирование не требуется, то можно произвести оценки кластеризации (включая энтропию и чистоту). Учёные возлагают большую надежду на то, что методы обучения без учителя смогут помочь превозмочь недостатки получения знаний ( англ. knowledge acquisition ), так как они не требуют решения чрезмерно трудоёмких задач по синтаксической и семантической разметке всего корпуса.

Другие методы

Также существуют другие методы, основанные на совершенно отличающихся от вышеперечисленных принципах:

Определение доминантности значения слова (Determining Word Sense Dominance) ^[30] ^[31] ^[32] ^[33] .
Разрешение, основанное на темах (доменах) корпуса (Domain-Driven Disambiguation) ^[34] ^[35]
WSD, использующее кросс-языковые данные (Cross-Lingual Evidence)

Локальные проблемы и итог

Проблема получения знаний ( англ. knowledge acquisition bottleneck ) является наиболее серьёзным препятствием на пути решения проблемы разрешения многозначности. Методы обучения без учителя опираются на знания, которые едва ли присутствуют в электронных словарях и других лингвистических электронных системах знаний. Методы же обучения с учителем и вовсе полагаются на существование вручную аннотированного корпуса, существование которого технически реализуемо только для небольшого набора слов для целей тестирования, как это было проделано для Senseval.

Поэтому, одним из наиболее обнадёживающих трендов является использование Интернета в качествое корпуса для получения лексической информации автоматически ^[36] . WSD традиционно понимался как способ улучшить результаты таких областей, как information retrieval (IR). В данном случае, тем не менее, обратное тоже верно: поисковые системы обладают простыми и достаточно быстрыми возможностями для успешного майнинга Интернета для использования в WSD. Поэтому проблема получения знаний спровоцировала появление определенных методов по их получению:

Внешние источники знаний

Знания являются одними из ключевых моментов разрешения многозначности: они предоставляют данные, на которые опирается сам процесс разрешения. Эти данные могут быть как корпусы текстов, так и словари, тезурусы, глоссарии, онтологии и т. д.:

Структурированные источники:
- Тезаурусы
- Электронные словари ( Machine-readable dictionaries , MRDs)
- Онтологии
Неструктурированные:
- Текстовый корпус : аннотированный значениями слов (sense-annotated corpora) и неаннотированный (raw corpora)
- Знания о совместной встречаемости слов (Collocation resources)
- Другие ресурсы, такие как: списки встречаемости слов , стоплисты , доменные теги ( англ. domain label ) ^[37] , etc.

Более подробно эти источники рассмотрены в следующих работах: ^[38] , ^[39] , ^[40] .

Оценка и сравнение методов, конференция Senseval

Тестирование и сравнение методов является совсем нетривиальной задачей из-за различий в различных тестовых выборках, sense inventories, а также используемых источников данных. До того, как были созданы специальные мероприятия для сравнения систем, они сравнивались вручную, на собственных, часто небольших подборок данных. Ведь для того, чтобы проверить свой алгоритм, разработчики должны потратить время, чтобы вручную разметить все употребления слов. И сравнивать одни и те же методы даже на одинаковых текстах нельзя, если в них используются разные системы толкования слов.

Для «объединения» и сравнения методов были организованы международные конференции по сравнению систем WSD. Senseval (теперь переименована в Semeval ) является международной конференцией по сравнению систем разрешения лексической многозначности, проводившаяся каждые 3 года, начиначя с 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), и их логический последователь SemEval , который был полностью посвящён задаче WSD и был проведён единожды, в 2007 году. В число её задач входит организация семинаров и мастер-классов, подготовка и разметка корпусов вручную для тестирования систем, а также сравнение алгоритмов различных типов («all-words» и «lexical sample» WSD, палгоритмы использующие аннотированный корпус и использующие неаннотированный) а также изучение таких подзадач как semantic role labeling , gloss WSD , lexical substitution и т. д. В рамках вышеперечисленных мероприятий также проводились сравнения WSD-систем в рамках не только английского языка. Однако, ни одного языка славянской группы на мероприятиях не было.

Выбор моделей оценки

Система значений слов . Во время первых конференций в качестве систем значений слов (словарей, лексических баз данных) использовались либо малоизвестные недоступные ранее (напр., проект HECTOR) либо небольшие, самостоятельно сделанные организаторами небольшие, неполные версии настоящей полной системы, покрывающие те области, которые требовались в соревновании. Обычно и те, и другие являлись недостаточно подробными и дифференцированными (англ. coarse-grained), однако выбирались именно они для того, чтобы избежать использования наиболее популярных и подробных (англ. fine-grained) примеров (напр., WordNet ), поскольку это сделало бы эксперимент «нечистым», так как эти базы знаний уже были неоднократно «засвечены» в различных исследованиях и оценках. Было замечено, что на более подробных результаты были совсем другими, поэтому было принято решение тестировать алгоритмы и на тех, и на других sense inventories.

Набор проверяемых слов . Также, сравнение методов разрешения многозначности делится на два типа по количеству проверяемых слов: разрешение лексической многозначности некоторой совокупности слов (чаще всего, несколько десятков) и разрешение лексической многозначности всех слов текста. Их различие заключается в объёме анализа и обработки данных: задача «all-words» («все-слова-текста») подразумевает обработку всех присутствующих в тексте слов на предмет многозначности (абсолютно все слова в корпусе должны быть разрешены), задача же «lexical sample» («ограниченный набор») состоит в разрешении только целевых слов, определённых заранее и находящихся в нашем корпусе. Первый тип предполагается более реалистичной оценкой, однако намного более трудоёмкой с точки зрения проверки результатов. Из-за сложностей тестирования второго в первых конференциях проводились тестирования только тестового набора, однако потом оба были включены в тестирование.

В случае задачи «ограниченного набора слов» организаторам необходимо было выбрать те самые ключевые слова, на которых системы должны были тестироваться. Критикой мероприятий, которые происходили до Senseval'a, являлось то, что эти образцы из набора выбиралось по прихоти экспериментаторов. На Senseval'e этого попытались избежать, выбрав произвольные слова, разделенные на группы по частям речи, частотностям и степени многозначности. Также, по вопросу включения проблемы определения части речи в программу WSD было много разногласий, поэтому организаторы приняли решение включить в выборку слов как чётко обозначенные части речи, так и определённое количество неопределённых.

Корпус . Необходимо пояснить, что такое размеченный текст и что такое неразмеченный. Неразмеченный корпус является по сути некой массой обычных текстов, которые содержат необходимое количество упоминаний слов, которые нужно «разрешить». Размеченный же является тем же самым сборищем текстов, однако с тем отличием, что все упоминаемые слова содержат приписанную (напр., в качестве тега или иной другой мета-информацией) информацию о том, в каком значении слова употреблены в данных контекстах.

Служить обучающим материалом для наших систем по разрешению лексической многозначности могут как размеченные тексты (системы обуч. с учителем), так и неразмеченные (системы обуч. без учителя), однако для автоматического тестирования систем необходимо наличие именно размеченного, получение которого довольно трудоёмко. Процесс этот проходит таким образом: несколько лингвистов-лексикографов проходят по всему тексту и в соответствии со словарем значений всем словам из заданной выборки слов, тестируемых на определение многозначности, приписывают мета-информацию о том, в каком значении слова употреблены в данных контекстах. Затем, для каждого слова делают некое подобие кворума из принятых решений лексикографов и выносится решение о том, в каком значение оно здесь употреблено, после чего в конечную версию текста добавляются полученные теги; иным словом, все употребления избранных нами слов дополняются необходимой мета-информацией.

Затем, корпус разделяется на три части. Первая, так называемая dry-run distribution (англ. «предварительный прогон») позволяет командам отрегулировать и адаптировать свои программы к виду и структуре подаваемой на вход информации; содержит необходимый минимум информации.

Вторая часть называется тренировочной выборкой (англ. training distibution), содержащей словарные статьи и корпус с мета-информацией о значениях целевых слов), которая позволяет обучить соревнующиеся программы правильно выбирать нужные смыслы слов; она предоставляется всем командам сразу после предварительного прогона. Количество контекстов необходимых слов может колебаться довольно сильно (от нескольких до больше 1000) и зависит от количества доступных контекстов. Затем идёт стадия обучения программ.

Последняя же часть, называемая оценочной выборкой (англ. evaluation distibution, без мета-информации о значениях целевых слов), доступная после завершения обучения программ, позволяет вычислить аккуратность алгоритмов. Каждый контекст был аннотирован вручную по крайней мере тремя людьми, однако эта мета-информация не было включена в распространяемые данные, посокльку именно они проверяются. Все программы, проходя по этой выборке, необходимы были вычислить для каждого контекста наиболее вероятное значение употребляемого слова (или же список значений с соответствующими им вероятностями); после отправки данных организаторам, те автоматически получают результаты, сравнивая со своими (так как оценочная выборка, так же как и обучающая содержит размеченные употребления слов).

Группы и бейслайны . Необходимо отметить, что все алгоритмы работают по-разному и пользуются разными источниками информации, поэтому все они были разделены на группы по методу обработки текстов: методы обучения с учителем и методы обучения без учителя. Для сравнения с уже известными алгоритмами (названными отправными точками — baselines ) были также опубликованы их результаты, например, всевозможные вариации алгоритма Леска .

Далее, поскольку задача WSD требует для себя наличия словаря значений и корпуса , организаторам надо было выбрать какие-нибудь из существующих для проекта. WordNet и SemCor — самые популярные примеры вышеперечисленных необходимых компонентов, однако их использование сделало бы эксперимент нечистым, так как эти базы знаний уже были неоднократно «засвечены» в различных исследованиях и оценках, поэтому для тестирования обычно выбираются или недоступные ранее или самостоятельно сделанные организаторами неполные версии обеих вещей (к примеру, на Senseval-1 оба были предоставлены проектом HECTOR ^[41] ).

Аккуратность алгоритмов . При оценке практически любого алгоритма классификации каких-либо объектов используются две самые распространенные меры оценок — точность и полнота ( англ. Precision and recall ):

precision (точность, то есть процент правильно приписанных классу среди всех объектов ему приписанных)
recall (полнота, то есть процент правильно приписанных среди тех, что должны быть приписаны к этому классу).

Однако, если система аннотирует каждое слово или результат рассчитывается для всех классов сразу, точность и полнота являются одной и той же величиной — она называется аккуратностью вычислений аккуратностью вычислений ( англ. Accuracy ). Эта модель была расширена для употребления при выдаче алгоритмами списка значений с соответствующими им вероятностями.

Результаты и особенности

Семинары Senseval являются наилучшим примером для изучения самых лучших результатов систем WSD и будущих направлений исследования области. Существуют определённые выводы, которые можно сделать, проанализировав и обобщив поздние конференции:

Среди систем обучения с учителем подходы, использующие memory-based learning или SVM показали наилучшую эффективность, однако организаторы конференции подчеркивают, что лучшие результаты достигаются теми системами, которые используют комбинации нескольких подходов и особенно те, основывающиеся на обучении по размеченным корпусам ^[42] .
Для того, чтобы изучить, насколько можно использовать системы разрешения многозначности в приложениях информационного поиска, в рамках конференции SemEval-2007 , одним из заданий являлось применение алгоритмов разрешения многозначности в рамках задачи информационного поиска. Суть задания заключается в следующем: все участники должны выполнять поиск на одной и той же поисковой машине, однако перед поиском необходимо расширить запросы или тексты синонимами, соответствующими выбранным значениям.
Проведение подобных конференций ведет к периодической публикации данных, представляющих большую ценность для учёных: к примеру, таких как размеченные для сравнения систем корпуса текстов — ведь начиная с определённой конференции алгоритмы разрешения многозначности используют семантически размеченные по значениям WordNet корпуса. Семантическая разметка корпуса обычно используется двумя основными способами: как основа для обучения программы разрешения многозначности и её проверки, так и как информация о наиболее частотном значении, которое выбирается в тех случаях, когда не удалось выбрать значение с помощью основного алгоритма. По оценкам, порядка 60 % слов в тестовых текстах употреблены в наиболее частотном значении, полученному по семантически размеченному корпусу SemCor.
Необходимо отметить, что использование разных систем разбиений слов на значения: fine-gained (более дифференцированное) и coarse-grained (менее дифференцированные) — показало очень сильно различающиеся результаты, поэтому теперь в рамках каждой конференции проводится сравнение систем относится как относительно первой группы (напр., WordNet), так второй (напр., Wordsmyth). Однако, больший упор делается всё таки на fine-grained , поскольку получаемые результаты там значительно ниже.

Для понимания общего состояния данной области и уровня, достигнутого лучшими системами разрешения многозначности, необходимо проанализировать и внимательно изучить лучшие результаты и их особенности:

результаты, полученные менее дифференцированных системах значений, чем WordNet, были значительно выше: 88,7 % для lexical sample, и 82-83 % для задачи «all-words». Это является хорошей новостью для всей области, потому что показывает, что проблема репрезентации значений слов (англ. word sense representation) сильно связана с проблемой получения аккуратности в районе 80 %-90 %, при этом оставляя разграничение слов на значения достаточно выразительным и содержательным;
результаты систем задачи «lexical sample» говорят о том, что они достигли верхней планки (так называемое «плато»), при использовании таких дифференцированных систем, как WordNet: исследователям видно, что системы не могут перевалить через неё с такими начальными условиями;
результаты задачи «fine-grained» «all-words» установились на отметке между 65 % и 70 % при использовании WordNet'a, тогда как более высокие результаты на корпусе художественной литературы показали между 78 % и 81 % при использовании coarse-grained значений слов;
превзойти бейзлайн MFC (англ. most frequent sense) является настоящей трудностью для систем «все слова текста» и только небольшое число смогло это сделать; естественно, этот факт к системам «lexical sample» не относится;
важно отметить, что иногда в счет «благополучно» разрешенных многозначных единиц попадают также и однозначные термины: по некоторым оценкам ^[43] , около 3-10 % размеченных слов могут оказаться однозначными в WordNet, и если рассчитать точность разрешения многозначности для лучшей системы, не считая однозначных слов, то величина точности разрешения многозначности лучшей системы может упасть на несколько процентов.

Notes

↑ Анна А. Зализняк. ФЕНОМЕН МНОГОЗНАЧНОСТИ И СПОСОБЫ ЕГО ОПИСАНИЯ. Вопросы языкознания. — М., 2004. — № 2. — С. 20-45
↑ W. Weaver. 1949. Translation . In Machine Translation of Languages: Fourteen Essays, ed. by Locke, WN and Booth, AD Cambridge, MA: MIT Press.
↑ Y.Bar-Hillel, Language and information (Reading, Mass.: Addison-Wesley, 1964), с.174- 179.
↑ Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf )
↑ ¹ ² ³ R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Task 07: Coarse-Grained English All-Words Task . Proc. of Semeval-2007 Workshop (SEMEVAL), in the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech Republic, pp. 30-35.
↑ ¹ ² S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Task 17: English lexical sample, SRL and all words . Proc. of Semeval-2007 Workshop (SEMEVAL), in the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech Republic, pp. 87-92.
↑ Lynette Hirschmann, The evolution of evaluation (1998) — Computer Speech and Knowledge
↑ C. Fellbaum 1997. Analysis of a handtagging task. In Proc. of ANLP-97 Workshop on Tagging Text with Lexical Semantics: Why, What, and How? Washington DC, USA.
↑ B. Snyder and M. Palmer. 2004. The English all-words task Архивная копия от 29 июня 2011 на Wayback Machine . In Proc. of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spain, pp. 41-43.
↑ Douglas Lenat. Computers versus Common Sense (неопр.) . Дата обращения 10 декабря 2008. (GoogleTachTalks on youtube)
↑ P. Edmonds. 2000. Designing a task for SENSEVAL-2 . Tech. note. University of Brighton, Brighton. UK
↑ A. Kilgarriff. 1997. I don't believe in word senses . Comput. Human. 31(2), pp. 91-113.
↑ D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task , Language Resources and Evaluation, 43(2), Springer, pp. 139—159.
↑ SANDERSON, M. 1994. Word sense disambiguation and information retrieval. In Proceedings of the Special Interest Group on Information Retrieval (SIGIR, Dublin, Ireland). 142—151.
↑ SCHUTZE, H. AND PEDERSEN, J. 1995. Information retrieval based on word senses. In Proceedings of SDAIR'95 (Las Vegas, NV). 161—175.
↑ STOKOE, C., OAKES, MJ, AND TAIT, JI 2003. Word sense disambiguation in information retrieval revisited. In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Toronto, Onto., Canada). 159—166.
↑ YAROWSKY, D. 1994. Decision lists for lexical ambiguity resolution: Application to accent restoration in Spanish and French. In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics (Las Cruces, NM). 88-95.
↑ RICHARDSON, SD, DOLAN, WB, AND VANDERWENDE, L. 1998. Mindnet: Acquiring and structuring semantic information from text. In Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, PQ, Canada). 1098—1102.
↑ NAVIGLI, R., VELARDI, P., AND GANGEMI, A. 2003. Ontology learning and its application to automated termi- nology translation. IEEE Intell. Syst. 18, 1, 22-31.
↑ NAVIGLI, R. AND VELARDI, P. 2004. Learning domain ontologies from document warehouses and dedicated Websites. Computat. Ling. 30, 2, 151—179.
↑ CIMIANO, P. 2006. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. Springer, New York, NY.
↑ Lenat, Douglas; Guha, RV (1989), Building Large Knowledge-Based Systems, Addison-Wesley
↑ Y. Wilks, B. Slator, L. Guthrie. 1996. Electric Words: dictionaries, computers and meanings. Cambridge, MA: MIT Press.
↑ Michael Lesk, Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone, ACM Special Interest Group for Design of Communication Proceedings of the 5th annual international conference on Systems documentation, p. 24 — 26, 1986. ISBN 0-89791-224-1
↑ R. Navigli, P. Velardi. 2005. Structural Semantic Interconnections: a Knowledge-Based Approach to Word Sense Disambiguation . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), pp. 1063—1074.
↑ E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. Knowledge-based WSD on Specific Domains: Performing better than Generic Supervised WSD . In Proc. of IJCAI, pp. 1501—1506.
↑ R. Navigli, M. Lapata. An Experimental Study of Graph Connectivity for Unsupervised Word Sense Disambiguation . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678—692.
↑ D. Yarowsky. 1995. Unsupervised word sense disambiguation rivaling supervised methods . In Proc. of the 33rd Annual Meeting of the Association for Computational Linguistics, pp. 189—196.
↑ H. Schütze. 1998. Automatic word sense discrimination . Computational Linguistics, 24(1), pp. 97-123.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Finding predominant senses in untagged text. In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (Barcelona, Spain). 280—287.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Unsupervised acquisition of predominant word senses. Computat. Ling. 33, 4, 553—590.
↑ MOHAMMAD, S. AND HIRST, G. 2006. Determining word sense dominance using a thesaurus. In Proceedings of the 11th Conference on European chapter of the Association for Computational Linguistics (EACL, Trento, Italy). 121—128.
↑ LAPATA, M. AND KELLER, F. 2007. An information retrieval approach to sense ranking. In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL, Rochester, NY). 348—355.
↑ GLIOZZO, A., MAGNINI, B., AND STRAPPARAVA, C. 2004. Unsupervised domain relevance estimation for word sense disambiguation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, Spain). 380—387.
↑ BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. Domain-speciﬁc WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 275—298.
↑ KILGARRIFF, A. AND GREFENSTETTE, G. 2003. Introduction to the special issue on the Web as corpus. Computat. Ling. 29, 3, 333—347.
↑ MAGNINI, B. AND CAVAGLIA, G. 2000. Integrating subject ﬁeld codes into WordNet. In Proceedings of the 2nd Conference on Language Resources and Evaluation (LREC, Athens, Greece). 1413—1418.
↑ E IDE, N. AND VE´RONIS, J. 1998. Word sense disambiguation: The state of the art. Computat. Ling. 24, 1, 1-40.
↑ LITKOWSKI, KC 2005. Computational lexicons and dictionaries. In Encyclopedia of Language and Lin- guistics (2nd ed.), KR Brown, Ed. Elsevier Publishers, Oxford, UK, 753—761.
↑ AGIRRE, E. AND STEVENSON, M. 2006. Knowledge sources for WSD. In Word Sense Disambiguation: Algo- rithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 217—251.
↑ 1. Adam Kilgarriff and Joseph Rosenzweig, English Senseval: Report and Results May-June, 2000, University of Brighton
↑ Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. The Senseval-3 English lexical sample task, 2004. p. 2
↑ Loukachevitch N., Chuiko D. Thesaurus-based Word Sense Disambiguation, 2007