Джеймс Брин
Университет Монаша
Клейтон 3800, Австралия
[email protected]

Оригинал доступен по ссылке edrdg.org

Аннотация

Цель проекта JMdict — создание мультиязычной лексической базы данных с японским языком в качестве основного языка. Используя структуру XML, разработанную с учетом разнообразия языков и богатого набора лексикографической информации, он достиг примерно 100 000 словарных статей, при этом большинство словарных статей имеют переводы на английский, французский и немецкий языки. Сборник включает в себя повторное использование информации, причем переводы на французский и немецкий языки взяты из отдельно поддерживаемых лексиконов. Материалы из других языков также включены. Файл находится в свободном доступе для исследовательских целей и для включения в прикладное программное обеспечение словаря и доступно в нескольких серверных системах WWW.

1. Введение

Основная задача проекта JMdict — составление мультиязычного словаря на японском языке, то есть словаря, в котором заголовки взяты из японского лексикона, а переводы сделаны на нескольких других языках. Это можно рассматривать как синтез серии двуязычных словарей японского языка и других языков, хотя, как обсуждается ниже, есть смысл в размещении этой информации.

Этот проект вырос и стал частью более раннего проекта японско-английского словаря (EDICT: электронный словарь) (Брин, 1995, 2004a). Поскольку японский язык является важным языком в мировой торговле и является вторым по распространенности языком, используемым в сети Интернет, неудивительно, что существует большой интерес к электронным лексическим ресурсам для японского языка в сочетании с другими языками.

2. Цели и развитие проекта

Как упоминалось выше, проект JMdict был создан из двуязычного словаря EDICT. Проект EDICT начался в начале 1990-х годов с относительно простой цели — создать файл словаря японско-английского языка, который можно было бы использовать в базовых пакетах программного обеспечения для предоставления традиционных словарных услуг, а также средств, помогающих читать японский текст. Формат был (и является) довольно простым, состоящим из строк текста, состоящих из японского слова, написанного с использованием кандзи и/или каны, чтения (произношения) этого слова для кана и одного или нескольких английских переводов.

К концу 1990-х, файл перерос свое скромное происхождение, достигнув более 50 000 словарных статей и запустив параллельный проект для словарных статей собственных японских имен (см. ниже). Материал был взят частично из списков слов, словарных списков и т. д. в свободном доступе и дополнен материалом, подготовленным большим количеством пользователей и прочих добровольцев, желающих внести свой вклад. Несмотря на то, что он использовался в различных программных системах и в качестве источника лексического материала в ряде проектов, было ясно, что его структура совершенно не соответствует лексическим требованиям, что предъявлялись пользователями. В частности, он не смог включить необходимое разнообразие информации или представить орфографические сложности исходного языка. Соответственно, в 1999 году было решено запустить новый словарный проект, включающий информацию из файла EDICT, но был расширенным, чтобы включить переводы с других языков, но с японскими статьями в качестве опорных точек. Целями проекта были:

  1. формат файла, предпочтительно с использованием общепризнанного стандарта, который обеспечит быстрый доступ и анализ с помощью различных программных приложений;
  2. обработка орфографических и произношений в пределах одной словарной статьи. Это решило основную проблему с форматом EDICT, так как многие японские слова могут быть написаны альтернативным кандзи и разными частями в кана (окуригана), и могут иметь альтернативное произношение. Формат EDICT требовал, чтобы каждый вариант рассматривался как отдельная словарная статья, что усложняло ведение и расширение словаря;
  3. дополнительная и более уместно связанная маркировка грамматической и другой информации. Некоторая информация, такая как часть речи или исходный язык заимствованных слов, была добавлена ​​в файл EDICT в скобках в полях перевода, но область действия была ограничена, и эту информацию было сложно проанализировать;
  4. обеспечение дифференциации между различными значениями в переводах. В то время как основные признаки полисемии были предоставлены в файле EDICT путем добавления (1), (2) и т. д. К группам переводов, результат трудно было проанализировать. Также это не поддержало случай, когда смысл или нюанс были связаны с определенным произношением, как это иногда происходит в японском языке;
  5. положение о включении переводных эквивалентов с нескольких языков. Файл словаря EDICT используется в ряде стран, и несколько неформальных проектов начали разрабатывать эквивалентные файлы для японского и других целевых языков. Небольшой японско-немецкий файл (JDDICT) был выпущен в формате EDICT. Был выражен значительный интерес к тому, чтобы переводы на различные языки были размещены вместе, чтобы обеспечить такие вещи, как наличие единого справочного файла для нескольких языков, перекрестные ссылки на словарные статьи, межъязыковой поиск и т. д., а также выступление в качестве центра возможного развития переводов на еще не представленные языки;
  6. положение о включении примеров использования слов. Когда файл расширился, многие пользователи файла попросили связать некоторые примеры использования со словами в файле. Формат EDICT не был в состоянии поддержать это;
  7. предоставление перекрестных ссылок на связанные словарные статьи;
  8. продолжение генерации файлов формата EDICT. Поскольку большое количество пакетов и серверов было построено вокруг формата EDICT, дальнейшее предоставление контента в этом формате считалось важным, даже если информация содержала только подмножество того, что было доступно.

Первоначально было принято решение использовать XML (расширяемый язык разметки) в качестве формата файла JMdict, поскольку предполагалось, что это обеспечит соответствующую гибкость в формате, а также ожидается, что оно будет поддерживаться приложениями, библиотеками для разбора и т. д.

Был проведен анализ других доступных форматов словаря, чтобы определить, имеется ли подходящая модель форматирования. Было известно, что коммерческие издатели словарей имеют хорошо структурированные базы данных лексической информации, а некоторые переходят на XML, но ни одна из деталей не была доступна. Большое количество двуязычных словарных файлов и списков слов были в открытом доступе; однако в целом они использовали только очень простые структуры, и не было найдено ни одной, охватывавшей бы все требования к содержанию проекта. Раздел словаря TEI (Text Encoding Initiative), у которого на момент написания имеется хорошо разработанная структура документа для двуязычных словарей, был довольно ограниченным на том этапе (Сперберг-Макквин и др., 1999). Соответственно, было разработано XML DTD (определение типа документа), адаптированное к требованиям проекта.

Файл EDICT был проанализирован и переформатирован в структуру JMdict, и в то же время многие из орфографических вариантов были идентифицированы и объединены. Первоначальный выпуск файла DTD и XML-формата состоялся в мае 1999 года. На этом этапе он содержал перевод на английский язык из файла EDICT и перевод на немецкий язык из файла JDDICT. Как описано ниже, он значительно расширился с тех пор как с точки зрения количества словарных статей, так и с точки зрения мультиязычного охвата.

3. Статус проекта

Файл JMdict был впервые выпущен в 1999 году, и обновленные версии выпускаются 3-4 раза в год вместе с версиями файла EDICT, который создается одновременно из одних и тех же файлов данных. В настоящее время в файле содержится более 99 300 словарных статей, то есть размер печатного словаря среднего размера, и рост числа статей в настоящее время происходит относительно медленно, причем большинство обновлений касается исправлений и расширения существующих словарных статей.

Файл доступен согласно бесплатной лицензии, что позволяет использовать его практически для любых целей без комиссии. Единственное требование заключается в том, чтобы его использование было полностью подтверждено и чтобы любые файлы, разработанные на его основе, продолжали действовать на тех же условиях лицензии.

4. Структура

Структура XML JMdict содержит один тип элемента: <entry>, который, в свою очередь, содержит порядковый номер, слово кандзи, слово кана, элементы информации и перевода. Порядковый номер используется для обслуживания и идентификации.

Элементы слова кандзи и слова кана содержат две формы японских ключевых слов; первый используется для представлений, содержащих хотя бы один символ кандзи, а второй — для представлений только в кане. Слово кана фактически является произношением, но также является важным ключом для индексации файла словаря, так как японские словари обычно упорядочиваются по словам кана. Минимальное содержание этих полей — это одно слово в элементе kana word. Кроме того, каждая словарная статья может содержать информацию о словах (необычный орфографический вариант, архаичный кандзи и т. д.) и информацию о частоте использования. Последнее должно быть связано с реальными словами, а не со статьей в целом, потому что некоторые комбинации слов кандзи и кана используются чаще, чем другие. (Например, 合 気 道 и 合氣道 являются орфографическими вариантами одного слова (айкидо), но первое встречается чаще).

Кана, используемая в элементах, следует современной японской орфографии, то есть хирагана используется для родных японских слов, а катакана — для заимствованных слов, звукоподражательных слов и т. д.

В большинстве случаев в словарной статье есть только одно слово кандзи и одно слово кана (около 75%) или только лишь слово кана (15%). Примерно в 10% словарных статей есть несколько слов в одном из элементов. В некоторых случаях чтение кана может быть связано только с подмножеством слов кандзи в статье. Например, soyokaze (そ よ か ぜ: breeze) можно записать либо 微風, либо そ よ 風 (последняя встречается чаще, поскольку そ よ — нестандартное чтение 微 кандзи). Однако 微風 также может произноситься как бифуу (び ふ う) с тем же значением, но ясно, что это произношение не может быть связано с формой そ よ 風, так как часть кана читается как «сойо». XML не предоставляет элегантный метод для указания ограниченного отображения между частями двух элементов, поэтому, когда требуется такое ограничение, дополнительные теги используются с каждым словом кана, предоставляющим слово кандзи, с которым оно может быть достоверно связано.

Информационный элемент содержит общую информацию о японском слове или в словарной статье в целом. Содержимое допускает коды исходного языка ISO-639 (для заимствованных слов), диалектные коды, этимологию, библиографическую информацию и подробности обновления.

Область перевода состоит из одного или нескольких смысловых элементов, которые содержат как минимум один элемент глоссария. С каждым смыслом связан набор элементов, содержащих часть речи, перекрестные ссылки, синоним / антоним, информацию об использовании и т. д. Также со смыслом могут быть связаны коды ограничения, связывающие смысл с подмножеством японских слов. Например, 水 気 может быть объявлено suiki (す い き) и mizuge (み ず け); оба означают «влажность», но одно только первое может означать «водянка».

Элемент глоссария имеет атрибут, указывающий целевой язык перевода. В его отсутствие предполагается, что глосс на английском языке. Существует также атрибут, определяющий пол, если, например, часть речи является существительным, а глосс — на языке с существительными, имеющими гендерную составляющую. На рисунке 1 показан слегка упрощенный пример статьи. Элементы <ke_pri> и <re_pri> указывают, что слово является элементом  определенного набора часто используемых слов.

<entry>
<ent_seq>1206730</ent_seq>
<k_ele>
<keb>学校</keb>
<ke_pri>ichi1</ke_pri>
</k_ele>
<r_ele>
<reb>がっこう</reb>
<re_pri>ichi1</re_pri>
</r_ele>
<sense>
<pos>&n;</pos>
<gloss>school</gloss>
<gloss g_lang=»nl» g_gend=»fg»>school</gloss>
<gloss g_lang=»fr» g_gend=»fg»>école</gloss>
<gloss g_lang=»ru» g_gend=»fg»>школа</gloss>
<gloss g_lang=»de» g_gend=»fg»>Schule</gloss>
<gloss g_lang=»de» g_gend=»fg»>Lehranstalt</gloss>
</sense>
</entry>

Рис. 1: Пример словарной статьи JMdict

Возможность иметь в одной словарной статье несколько слов кандзи и кана привлекает внимание к вопросам омонимии, гомографии и полисемии, а также к способам их решения, в частности к критериям объединения слов кандзи и кана в одну статью. Поскольку японский язык имеет сравнительно ограниченный набор фонем, существует большое количество однотонных слов. Например, более двадцати разных слов имеют представление кана こ う じ ょ う (коджо). Если мы рассматриваем гомографию как такую, что касается только слов, написанных полностью или частично с использованием иероглифов, то таких случаев относительно немного, однако они существуют. Например, Read 柳 при чтении せ ん り ゅ う (сенри) означает стихотворение комического характера, но при чтении か わ や な ぎ (каваянаги) означает множество ивовых деревьев.

Правило объединения, которое было применено при компиляции файла JMdict, выглядит следующим образом:

  1. рассматривать каждую основную статью как триплет, состоящий из: представления кандзи, сопоставления представления каны, чувств;
  2. если для каких-либо базовых статей два или более члена триплета одинаковы, то объединять их в одну статью;
    1. если словарные статьи отличаются по кандзи или представлению кана, включать их в качестве альтернативных форм;
    2. если статьи различаются по смыслу, рассматривать как случай многозначности;
  3. в других случаях оставлять статью отдельной.

Это правило успешно применяется в большинстве случаев. Основные проблемы возникают, когда значения похожи или связаны, как в случае со статьями: (放 す, は な す, отделить; освободить; освободить) и (離 す, は な す, разделить; разделить; отделить ), где слова кана совпадают, а значения перекрываются. Японские словари разделены на 放 す и 離 す; некоторые держат их как отдельные статьи, а другие — как одну статью с двумя основными значениями (эти два слова происходят из общего источника).

5. Части речи и смежные вопросы

Поскольку языки различаются по частям речи (POS), запись этих деталей в двуязычных словарях может быть проблемой (Аль-Касими, 1977). Традиционно двуязычные словари с участием японского языка избегают записи любой информации POS, предоставляя пользователю возможность выводить эту информацию из перевода и примеров (если таковые имеются). На ранних стадиях проекта EDICT информация POS была намеренно сведена к минимуму, например, указание, где глагол был переходным или непереходным, когда это не было видно из перевода, главным образом для сохранения места для хранения. Поскольку имеется ряд преимуществ, связанных с маркировкой информации POS в файле электронного словаря, элемент POS был включен в структуру JMdict, и для заполнения большей части файла использовались общедоступные классификации POS. Около 30% словарных статей еще предстоит классифицировать; в основном существительные или короткие фразы.

В целях экономии места ранее было принято решение избегать перечисления производных форм слов. Например, японское прилагательное 高 い (takai), означающее «высокий, высокий, дорогой», имеет производные формы 高 さ (takasa) «высота» и 高 く (takaku) «высоко». Поскольку этот процесс очень регулярен, многие японские словари не содержат словарных статей для производных форм, и некоторые двуязычные словари следуют этому примеру. Другим таким примером является распространенная форма глагола, которую иногда называют «глагольное существительное», создаваемое путем добавления глагола sur る (suru) «делать» к соответствующим существительным. Глагол «учиться» — это 勉強 す る (benkyôsuru), где 勉強 — существительное, означающее «изучение» в данном контексте. Опять же, японские словари часто не включают эти формы в качестве заглавных слов, предпочитая указывать в теле статьи, что формирование возможно.

Отсутствие таких производных форм означает, что при создании переводов необходимо соблюдать осторожность, чтобы пользователь мог легко определить соответствующий перевод одной из производных форм.

В мультиязычном контексте упущение производных форм может иметь другие проблемы. Сообщалось, что запись глаголов る す только в их основной форме существительного вызывает некоторый дискомфорт среди немецких пользователей, так как в немецком языке орфографическая конвенция прописывает первые буквы существительных, но не глаголов (по этой причине файл WaDokuJT содержит глаголы  す る в качестве отдельных статей).

6. Включение и поддержка нескольких языков

Как упомянуто выше, часть интереса к наличию статей с переводами на разных языках исходила от компиляции ряда файлов словарей, основанных на файле EDICT или похожих на него. Существует ряд проблем, связанных с включением материалов из других файлов словарей, в частности тех, что касаются политик компиляции: охват, обработка перекошенных форм и т. д. (Брин, 2002). Существует также основная проблема редактирования и поддержание материала, который может стать более сложным по мере включения каждого языка.

Подход, принятый с JMdict, заключался в следующем:

  1. поддержании основного японско-английского файла с хорошо документированной структурой и набором способов включения и редактирования;
  2. поощрении разработки и ведения эквивалентных файлов на других языках в сочетании с японским языком, которые могут по мере необходимости опираться на материал JMdict / EDICT;
  3. периодически собирать полный мультиязычный JMdict из разных компонентов.

Этот подход оказался успешным в том, что он отделил компиляцию файла от текущего редактирования компонентов и оставил последние в руках тех, у кого есть навыки и мотивация для выполнения задачи.

На момент написания статьи файл JMdict содержал более 99 300 словарных статей (на японском и английском языках), из которых у 83 500 имеется перевод на немецкий язык, у 58 000 — перевод на французский, у 4 800 — перевод на русский и у 530 — перевод на голландский. В настоящее время готовится набор из примерно 4500 испанских переводов, и в ближайшее время будет доступно около 20 000 переводов.

Основными источниками этих дополнительных переводов являются:

  1. Французские переводы из двух проектов:
    1. приблизительно 17 500 заявок поступили из проекта Dictionnaire français-japonais (Десперье, 2002), проекта по переводу наиболее распространенных японских слов из файла EDICT на французский язык;
    2. еще 40 500 словарных статей взяты из 仏語補 完 計画 (Французско-японский проект дополнения) по адресу http://francais.sourceforge.jp/ (Этот проект также основан на файле EDICT.)
  2. Немецкие переводы из проекта WaDokuJT (Апель, 2002). Это большой файл, содержащий более 300 000 словарных статей; однако, в отличие от JMdict, он включает в себя множество фраз, имен собственных и наклонных форм глаголов и т. д. Перекрытие JMdict достаточно велико, что привело к большому количеству статей, что были включены в файл JMdict.

Одной из проблем, которая может привести к проблемам при включении переводов из других файлов проекта, является проблема выравнивания переводов, когда у статьи имеется несколько значений. В случае французских переводов координатор проекта пометил переводы многозначных статей смысловым кодом, что позволило правильно вставить переводы при составлении окончательного файла. Для других языков переводы добавляются к установленным переводам на английский язык. Надлежащая обработка множественных чувств является предметом будущей работы.

7. Примеры использования слова

Когда проект уже был в процессе и было разработано DTD, предполагалось, что будут включены наборы двуязычных примеров использования входных слов. По этой причине элемент <example> был связан с каждым смыслом, чтобы можно было включать такие примеры фраз, предложений и т. д.

На практике был выбран совершенно другой подход. Учитывая наличие с 2001 года большого корпуса параллельных японских / английских предложений (Танака, 2001), было решено сохранить корпус в целости и вместо этого предусмотреть связь выбранных предложений из корпуса со словарными статьями с помощью прикладного программного обеспечения словаря (Брин, 2003b). Эта стратегия, требовавшая синтаксического анализа корпуса для извлечения набора индексных слов для каждого предложения, оказалась эффективной на уровне приложения. Он также имеет преимущество, заключающееся в том, что он не поддерживает содержание файла словаря и файла примера.

8. Похожие проекты

Помимо нескольких небольших списков слов, где есть несколько европейских языков, единственным другим крупным современным проектом, который пытается составить всеобъемлющую мультиязычную базу данных, является проект Papillon (например, Бойте и др, 2002). См. http://www.papillon-dictionary.org/ для полного списка публикаций. Дизайн Папийона включает в себя связи, основанные на значениях слов, как это было предложено в (Серассет, 1994), с более тонкой лексической структурой, основанной на Теории “Смысл-Текст” (MTT) (Мельчук, 1984-1996). На момент написания статьи база данных Papillon все еще находилась в процессе наполнения лексической информацией.

С проектом JMdict тесно связан проект Японско-мультиязычного словаря именованных объектов (JMnedict). Это база данных из примерно 400 000 японских названий мест и имен, а также неяпонских имен в их японской орфографической форме, наряду с романизированной транскрипцией японского языка (Брин, 2004b). У некоторых географических названий имеются английские описания: cape, island и т. д., которые находятся в процессе распространения на другие языки. Файл JMnedict находится в формате XML со структурой, аналогичной JMdict.

Другой мультиязычной лексической базой данных является KANJIDIC2 (Брин, 2004c), которая содержит широкий спектр информации о 13 039 кандзи стандарта JIS X 0208, JIS X 0212 и JIS X 0213. Среди информации о каждого кандзи есть ряд примеров на японском, китайском и корейском языках, а также общие значения каждого кандзи на английском, немецком и испанском языках. Набор португальских значений в процессе подготовки. База данных создана в формате XML.

9. Приложения

Хотя существует ряд экспериментальных систем, использующих файл JMdict, единственной системой приложений, использующей полный мультиязычный файл в настоящее время, является сервер проекта Papillon. На рисунке 2 показано выдачу с этого сервера при поиске слова 川 柳. WWWJDIC-сервер автора (Брин, 2003a) использует японско-английские компоненты файла. На рисунке 3 приведена выдержка из дисплея WWWJDIC для слова 小人, являющееся примером словарной статьи с несколькими словами кана и значениями, ограниченными чтением (Маркеры (P) указывают на более распространенные значения).

papillonex.gif

Рис. 2: Пример папийона для 川 柳

wwwjzex.gif

Рис. 3: пример WWWJDIC для 小人

Файл японско-английского словаря EDICT, созданный из той же базы данных, что и файл JMdict, продолжает оставаться основным некоммерческим лексическим ресурсом японско-английского языка и используется в большом количестве приложений и серверов, а также в ряде исследовательских проектов.

10. Заключение

Проект JMdict успешно разработал мультиязычную лексическую базу данных с использованием японского языка в качестве основного языка. При этом он достиг лексического охвата, сравнимого со средне-крупными печатными словарями, и его компоненты используются в широком спектре приложений и исследовательских проектов. Он также продемонстрировал возможность повторного использования материалов из смежных и сотрудничающих проектов по лексикону. Файлы проекта JMdict легко доступны для использования исследователями и разработчиками и могут стать важным лексическим ресурсом в контексте мультиязычности.

Рекомендованная литература

Аль-Касами, А.М. 1977 Лингвистика и двуязычные словари, Е.Дж. Брилл, Лейден.

Апель У.. 2002. WaDokuJT — база данных японско-немецкого словаря, семинар Papillon 2002, NII, Токио.

Бойте, С., Мангеот-Леребур, М., Серассет, Г. 2002 Проект PAPILLON: совместное создание мультиязычной лексической базы данных для получения словарей и лексиконов с открытым исходным кодом, Proc. 2-го семинара NLPXML 2002, семинар Post COLING 2002, под ред. Wilcock, Ide & Romary, Тайбэй, Тайвань.

Брин, Дж. У. 1995. Создание электронного японско-английского словаря, JSAA Conference, Брисбен.

Брин, Дж. У. 2002. Практические вопросы и проблемы построения мультиязычного лексикона, Papillon 2002 Семинар, NII, Токио.

Брин, Дж. У. 2003a. Японский словарь WWW, в «Обучении языку на перепутье», Monash Asia Institute, Monash Univ. Press.

Брин, Дж. У. 2003b. Примеры использования слова в электронном словаре, семинар Papillon 2003, Саппоро.

Брин, Дж. У. 2004a. Проект EDICT, http://www.csse.monash.edu.au/~jwb/edict.html

Брин, Дж. У. 2004b. Проект ENAMDICT / JMnedict, http://www.csse.monash.edu.au/~jwb/enamdict_doc.html

Брин, Дж. У. 2004c. Проект KANJIDIC2, http://www.csse.monash.edu.au/~jwb/kanjidic2/

Десперье, Ж. М. 2002. Анализ результатов совместного проекта по созданию японско-французского словаря, Papillon 2002 Seminar, NII, Tokyo.

Мельчук И. и др. 1984-1996. DEC: dictionnaire explicatif et combinatoire du français contemporain, recherches lexico-sémantiques, Тома I-IV, Montreal Univ. Press.

Серассет, Г. 1994. SUBLIM: un Système Universel de Bases Lexicales Multilingues et NADIA: sa spécialisation aux bases lexicales interlingues par acceptions, (докторская диссертация) Joseph Fourier University, Гренобль

Сперберг-Маккуин С.М. и Бернард Л. (ред.) 1999. Руководство по электронному шифрованию текста и его обмену. Oxford Univ. Press.

Танака, Y. 2001. Сборник мультиязычного параллельного корпуса PACLING 2001, Япония.