Оригинал доступен по ссылке http://www.edrdg.org/

Джеймс Брин
Университет Монаша, Австралия

Аннотация

В японском и прочих языках, не использующих пробелы или другие маркеры между словами, определение и выделение неологизмов, а также прочих незафиксированных слов представляет собой определенный вызов. В данной статье мы рассматриваем проблемы, возникающие при определении неологизма, а также описываем и обсуждаем некоторые методы, использованные для преодоления этих затруднений.

Ключевые слова: японский язык, неологизм, кандзи, хирагана, катакана, сегментация, корпус, n-грамма

1. Введение

В «Оксфордском руководстве по практической лексикографии» (Аткинс и Ранделл, 2008) находим решительное утверждение, что «Компьютерные программы легко обнаруживают абсолютно новые слова». Авторы должно быть имели в виду европейские языки, где в современной орфографической практике каждое слово выделяется пробелами. Цитируемое утверждение явно не применимо к таким языкам, как японский или китайский, где между словами кроме знаков препинания нет ни единого очевидного маркера, и где само понятие «слово» часто является спорным.

В этой статье мы опишем последние исследования и те, что запланированы, с целью расширения некоторых методов, о которых сообщалось ранее, для того чтобы идентифицировать и выделить неологизмы из японских текстов (Брин 2004a; Брин 2005; Кадзи, Уно и Кацурегава 2009). Цель исследования – расширить зарегистрированный лексикон японского языка, как в бесплатном, так и в коммерческом словарях.

2. Обзор орфографии японского языка

Современный японский язык выражается в форме смешанного письма:

  1. кандзи (китайские иероглифы), использующиеся в основном в существительных, а также в корнях глаголов, прилагательных и т. д. Около 2 000 кандзи используются повсеместно, хотя полный перечень имеющихся составляет примерно 80 000. Большинство существительных используют два или более иероглифов кандзи, тогда как в глаголах обычно содержится один.
  2. слоговая азбука хирагана (46 символов плюс диакритические знаки: あ い う え お か き く け こ, и т. д.). В современном японском языке хирагана используется в основном для частиц, для изменения формы глаголов и прилагательных, для союзов и т. п.
  3. слоговая азбука катакана (также 46 символов плюс диакритические знаки: ア イ ウ エ オ カ キ ク и т. д.). Катакана в настоящее время используется для заимствованных слов, научных терминов, транскрипции иностранных имен и др.

Пример использования письменной речи можно увидеть в предложении スーパーで食品食買いました su-pa- de shokuhin o kaimashita: [Я] купил немного еды в супермаркете. Здесь кандзи используются в существительном 食品 (продукты питания) и в корне глагола 買う (kau – покупать), символы хирагана используются для частиц で и を, а также для вежливого склонения глагола в прошедшем времени (い ま し た), а символы катакана используются для сокращенной формы заимствованного слова スーパーマーケット (su-pa-ma-ketto — супермаркет).

3.Неологизмы в японском языке

Несмотря на богатый лексикон, в японском языке существует заметная тенденция перенимать слова и создавать новые (Ли 2002; Цудзимура 2006). В то время, как причины перенимания новых слов различны, существует ряд процессов, связанных с японским языком, способствующих созданию неологизмов:

  1. готовность принять заимствованные слова. В отличие от некоторых стран, где пытаются ограничить использование заимствованных слов, Япония не установила никаких официальных ограничений на использование таковых. Согласно оценкам, количество заимствованных слов, используемых в японском языке, достигает 80 000. Большинство этих слов были заимствованы непосредственно из английского, однако значительное их число, известное как васэй-эйго (японские псевдоанглицизмы) были собраны из английских слов или фрагментов слов.
  2. принятый морфологический метод создания слов путем объединения двух или более кандзи (китайских иероглифов), выбранных из-за их семантических свойств. Указанный метод широко использовался в середине XIX-го века, когда Япония восстановила отношения с остальным миром и нуждалась в расширенном лексиконе, чтобы оперировать приходящей в страну информацией технологического, культурного и т. п. характера. Этот процесс продолжается и дальше. В целом схожий метод используется для создания фразовых глаголов.
  3. тенденция создавать аббревиатуры, особенно из сложных существительных и длинных заимствованных слов. Например, официальный термин «студенческая скидка» на японском будет gakusei waribiki (学生割引), при этом общеупотребляемый термин – gakuwari (学割) образован из первых кандзи каждого из двух составляющих существительных. Аналогичный процесс применяется к заимствованным словам, что приводит к появлению таких слов, как sekuhara (セクハラ), обозначающее «сексуальное домогательство» (сокращение от sekushuaru harasumento).

Многие неологизмы в конечном итоге попадают в издаваемые словари; существует несколько специальных словарей неологизмов (shingo jiten, gendaiyôgo jiten), однако многие сокращения, фразовые глаголы и заимствованные слова внесены в словари в гораздо меньшей мере, тогда как носители языка обычно могут распознать их как таковые, а также распознать их произношение и значение.

Традиционные методы определения неологизмов подразумевают извлечение лексем и сравнивание их с лексической базой данных. У данного подхода могут возникнуть проблемы в случае с японским языком, поскольку здесь в орфографии нет разделения между словами. Как описано ниже, программные пакеты для сегментации текста в случае с японским языком обычно используют обширные лексиконы, позволяющие идентифицировать сегменты слов, но ведут себя непредсказуемо, когда встречаются строки, которых нет в словаре.

4. Сегментация слов в японском языке

Компьютеризированная сегментация японского текста когда-то считалась очень сложной задачей; некоторые писатели в 1980-х считали ее невозможной. С 1990-х годов появилось несколько хороших систем. Например ориентированный на исследования с открытым исходным кодом Juman (Киотский Университет), Chasen и MeCab (Институт науки и техники Нары), коммерческие и внутрифирменные системы от Basis Technology, NTT и Google. Все они сочетают в себе методы искусственного интеллекта с большими словарями (а это подразумевает, что слова для корректной работы должны быть уже известны).

В качестве примера такого программного обеспечения для сегментации рассмотрим предложение «その教師は講堂に学生を集めた。» (Тот учитель собрал учеников в аудитории) в обработке системой Chasen. В таблице 1 показаны результаты сегментации.

Сегмент слова Прочтение Лексическая форма Информация POS
その ソノ その 連体詞
教師 キョウシ 教師 名詞-一般
助詞-係助詞
講堂 コウドウ 講堂 名詞-一般
助詞-格助詞-一般
学生 ガクセイ 学生 名詞-一般
助詞-格助詞-一般
集め アツメ 集める 動詞-自立 一段 連用形
助動詞 特殊・タ 基本形
記号-句点

Таблица 1. Пример сегментации текста посредством CHASEN

Предложение сегментировано правильно и 集めた верно определено как склонение 集める в た (прошедшем времени).

Подобное программное обеспечение для сегментации обычно выводит неассоциированные строки иероглифов если встречаются такие слова, каких нет в их словарях. В таблице 2 мы покажем пример такой замены некоторых неизвестных слов (全堂 вместо 講堂 и 鼡黽 вместо 学生), что приводит к следующей сегментации.

Сегмент слова Прочтение Лексическая форма Информация POS
ゼン 接頭詞-名詞接続
ドウ 名詞-一般
未知語
未知語

Таблица 2. Пример парсинга неизвестных слов системой CHASEN

全堂 было идентифицировано как комбинация префикс-существительное, что правдоподобно, но кандзи в 鼡黽 были помечены как 未知語 (michigo: неизвестное слово). Хорошо известна склонность указанных программных систем выводить неассоциированные строки символов в том случае, если встречаются слова, которых нет в лексиконе. Была проведена некоторая работа по воспроизведению этих «неизвестных слов», но обычно это было в контексте разметки частей речи и анализа отношений зависимости (Асахара и Мацумото 2004; Учимото, Сэкинэ и Исахара 2001; Уцуру, Шимэ, Цучия, Мацуёси и Сато 2007).

5. Подходы в поиске новых слов в текстах на японском языке

Предлагаются три широких подхода для выявления неологизмов и прочих слов на японском языке, не внесенных в лексикон:

  1. сканирование текстов и прочих корпусов на предмет возможных «новых» слов, обычно путем обработки текстов с помощью программного обеспечения для сегментации и работы над задачами, которые находятся «вне лексикона»;
  2. подражание японским морфологическим процессам для произведения потенциальных слов, а после проверка корпусов на наличие этих «слов»;
  3. применение методов машинного обучения, для которых программное обеспечение было обучено определять языковые конструкции, обычно связанные с введением и обсуждение новых или редких слов.

Данные подходы обсуждаются ниже более подробно.

6. Сканирование текстов на неологизмы и на нелексикализованные слова

Главный подход заключается в следующем:

  1. обработке текстов с помощью программного обеспечения для сегментации с целью извлечения лексем. В идеале лексиконы, используемые программным обеспечением, должны быть расширенными, чтобы включать как можно больше известных слов;
  2. выявлении и анализировании случаев, когда анализ не удался. Это будет включать значительную постобработку, в том числе тщательное профилирование любых выявленных аффиксов, так как японский язык является агглютинативным языком, ввиду чего широко используются высокопроизводительные односимвольные аффиксы;
  3. выявление возможных незафиксированных слов;
  4. изучение слов в оригинальном текстовом контексте;
  5. развитие прочтения (то есть произношения) и значения слова.

Как сообщалось в (Брин 2005), было проведено первоначальное испытание, в ходе которого было проанализировано 500 статей из газеты Asahi Shimbun. Процесс сосредотачивался на изолированных не лексикализованных парах кандзи. Был обнаружен целый ряд не зафиксированных ранее слов, например:

  • ранее незафиксированные имена, например 武示 (Такеши), 晃毅 (Куки), 潔重 (Юкишигэ);
  • новые термины, например, 米紙 (американская пресса/газеты) и 軍歴 (записи военной службы);
  • множество сокращений, например, 日歯連 (из 日本歯科医師連盟 – Японское объединение стоматологов);
  • образования в газетном стиле, такие как 中韓 (китайско-корейский) и 仏誌 (французское издание);
  • несколько явно новых образований, таких как 入境 (пересечение границы или пограничный контроль) и 公助 (государственная помощь).

Мы можем опираться на тот факт, что заимствования в японском языке написаны слоговой азбукой катакана, что позволяет относительно просто их извлекать и сравнивать. Исследование также собрало незафиксированные слова, написанные на катакане. Примерно 20% слов на катакане были «новыми» и содержали:

  • множество транскрибированных имен (особенно китайских и корейских);
  • термины относящиеся к японской флоре и фауне;
  • множество вариантов общеупотребляемых заимствованных слов, например プロフィル (профиль) вместо более распространенного プロフィール;
  • целый ряд слов и выражений, которые стоит добавить в лексикон, например, ピープルパワー (народовластие) и ゼロメートル (нулевой метр, что в японском языке означает уровень моря).

7. Генерация возможных слов

В этом подходе мы подражаем японским морфологическим процессам, чтобы синтезировать потенциальные слова, а затем проверить, существует ли «слово» в лексиконе или же используется ли оно в корпусах.

Первые испытания использовали в качестве тестового корпуса WWW с доступом через запрограммированный интерфейс для поисковой системы (в данном случае Google API). Новый WWW-производный ресурс для такого тестирования – Google Japanese Web N-gram Corpus (Кудо и Казава 2007). Данный корпус использует текст, извлеченный из одномесячного моментального снимка WWW, сделанного в июле 2007 года. Текстовые строки были обработаны посредством MeCab, а также были подсчитаны и записаны все последовательности от 1-граммных до 7-граммных, которые встречались более 20 раз. Полученные n-граммы публикуются в виде набора файлов, содержащих от 2,5 млн 1-грамм до 570 млн 7-грамм (более 1,7 млн 1-грамм – это слова или соединения на катакане). Этот корпус обладает огромным потенциалом в исследованиях корпусной лингвистики и станет очень важным ресурсом в определении и выделении неологизмов.

Испытание приемов было проведено с использованием синтезированных сокращений кандзи на основе вышеупомянутого шаблона «2 кандзи из 4 кандзи» (например, 学生割引 сокращено до 学割) (Брин 2004a). Из лексикона JMdict (Брин 2004b) было извлечено приблизительно 8 000 фразовых глаголов, состоящих из 4-х кандзи и создано сокращения из 2-х кандзи, а  те, которые еще не были включены в словарь, были протестированы посредством WWW-страницы. Поскольку пары символов кандзи могут попадаться в различных контекстах, текст, в котором появились вероятные сокращения. Был проанализирован и классифицирован в соответствии с местоположением пары кандзи (окружающих ее кана, кандзи, пунктуации и т. д.) и количеством попаданий на WWW-страницу. Было определено приблизительно 700 потенциальных сокращений для проведения более глубокого анализа и установлено большое количество сокращений.

Дальнейшее исследование было проведено с использованием синтезированных фразовых глаголов (Брин и Болдуин 2009). В японских фразовых глаголах, образованных из двух или более глаголов, и выполняющих роль одного глагола, они являются весьма распространенными и высокопроизводительными. Например 歌い始める (начать петь) состоит из 歌う (петь) и 始める (начать или приступить). Из лексикона JMdict было выбрано 2 900 фразовых глаголов, извлечено две части глагола (700 и 600 соответственно) и создано 420 000 предполагаемых фразовых глаголов. Они были протестированы в трех наиболее распространенных флексиях посредством Google n-граммного корпуса, и были установлено, что примерно 22 800 из них используются (а 4 800 были внесены в ряде словарей). Были детально исследовано 22 800 образцов, что указывает на достижение более чем 90%-ной точности.

8. Прямое сканирование n-граммного корпуса

Наличие японского n-граммного корпуса открыло возможность их поиска непосредственно для слов, не внесенных в словарь. Например, из 2 000 общеиспользуемых кандзи возможных соединений, состоящих из 2-х кандзи, имеется всего 4 миллиона и существует возможность сканировать n-граммный корпус для появления подобных соединений в подходящих текстовых контекстах, таких как последовательности кана-кандзи-кандзи-кана.

Прямое сканирование также использовалось для расширения извлечения фразового глагола, упомянутого выше. N-граммный корпус был отсканирован с использованием символического шаблона фразового глагола и выбранных вариантов, отфильтрованных для действительных флективных значений. Было обнаружено около 80 000 возможных составных глаголов (из которых 6 200 находились в словарях), и выборка показала, что была достигнута точность около 60%.

9. Машинное обучение

Как отмечалось выше, японскому языку присуща тенденция перенимать слова и создавать новые. В результате происходит продолжительная дискуссия касательно новых слов в японоязычных газетах, страницах WWW и т. д., а в Японии имеется несколько WWW-сайтов посвященных подобного рода дискуссиям. Обсуждение значений слов, связанных с неологизмами и т. п. склонно следовать определенным языковым паттернам, например, отрывок обсуждения неологизма オタ芸 содержит следующее:

«オタ芸(オタげい・ヲタげい)とは、アイドルや声優などのコンサートや. ..». Здесь произношение ставится в скобки после слова и сопровождается «とは» – частицей, которая обычно используется для обозначения экспликации термина. Существует ряд подобных лингвистических паттернов, и в настоящее время ведутся исследования по обучению программного обеспечения созданного для классификации текстов обнаруживать документы, содержащие такие отрывки – это позволит проводить целенаправленный анализ документов, которые могут содержать неологизмы.

10. Вывод данных

Произношение или чтение незафиксированного слова – это задача написанных кандзи (Слова, написанные на хирагане или катакане, будут обладать установленным произношением). Существует две проблемы, которые необходимо решить при установлении произношения таких слов:

  1. в отличие от китайского, где каждый символ обычно имеет одно произношение, в японском языке у каждого символа обычно имеется несколько вариантов произношения. Некоторые произношения встречаются чаще, чем другие, и это может генерировать наиболее вероятные произношения для последующего тестирования;
  2. произношение целого ряда иероглифов, находящихся в начале слова, звучит глухо, а в середине слова – звонко. Например, 所 в начале слова звучит как tokoro, но где-либо еще будет звучать как dokoro. Правила этого процесса сложны и неполны, например, 島 (остров) в одном и том же контексте произносится и как shima, и как jima.

Существует тенденция писать произношение необычных слов в скобках после его первого появления в тексте. Это позволяет тестировать варианты произношения путем поиска словосочетания с его вероятным произношением.

11. Вывод значений

Это, несомненно, традиционно самая интенсивная и времязатратная часть лексикографии. В плане процессов, лежащих в основе корпусов, мы работали над автоматическим выводом значений вариантов с последующей проверкой человеком и верификацией.

Что касается автоматического вывода значений, то можно высказать некоторые общие наблюдения:

  1. для сокращений процесс является относительно простым, так как сокращение почти всегда несет в себе значение исходного слова или выражения;
  2. касательно фразовых глаголов достигнут значительный успех в сочетании семантической и лексической информации, касающейся компонентов глаголов. В этой сфере англоязычный n-граммный корпус также оказывается полезным в выявлении наиболее вероятных вариантов;
  3. для выражений, состоящих из нескольких слов, хорошие результаты часто можно получить, протестировав комбинации значений составляющих слов, например, 海底電線 → (подводный) (электрический, телефон, линия, кабель, провод), приводят к варианту «подводный кабель» как к наиболее вероятному;
  4. заимствованные слова, написанные на катакане, могут быть проблемой. В то время как имеется некоторый успех в обратном переводе на английский – особенно в сочетании с проверкой размещения на страницах WWW, – существует также постоянная проблема с псевдо-заимствованиями, созданными из иностранных слов или фрагментов слов, и из заимствований не из английского языка (корейского, французского, немецкого и др.);
  5. заимствованные существительные/выражения можно использовать по аналогии с прочими. Например スパイスライス можно проанализировать как специя+рис или шпион + ломтик, однако проверка посредством английских n-грамм показывает, что правильным будет первый вариант.

12. Итог

Характер японской орфографии делает обнаружение неологизма более трудным, чем во многих других языках.

Современная компьютерная лингвистика обладает методами и ресурсами, чтобы помочь как в идентификации японских неологизмов, так и других незафиксированных слов, а также определить прочтение и значение слов. Это является основной областью исследований и здесь предстоит еще много работы.

Рекомендованная литература

Асахара М. и Матсумото Й. (2004) Идентификация неизвестного японского слова на основе характера сокращения. COLING 2004, Женева.
Брин Дж. (2004a). Расширяя лексикон: поиск сокращений. Семинар по мультиязычным словарным проектам Papillon, Гренобль, 2004.
Брин Дж. (2004b). JMdict: Японско-мультиязычный словарь. COLING Семинар по мультиязычным лингвистическим ресурсам, Женева, август 2004 г.
Брин Дж. (2005). Расширяя лексикон: сбор неологизмов в японском языке, Семинар по мультиязычным словарным проектам Papillon, Чианграй, Таиланд, 2005.
Брин Дж. и Болдуин Т. (2009). Извлечение на базе корпуса японских фразовых глаголов. Австралийский семинар по языковым технологиям (ALTW2009), Сидней, декабрь 2009 г.
Кадзи Н., Уно Н. и Кацурегава М. (2009). Извлечение неологизмов из Большого диахронического веб-архива для поддержки лингвистических исследований. Информационные технологии и управление информационными потоками (DEIM2009), Токио, Япония. (на японском языке).
Кудо Т. и Кадзава Х. (2007). Первая версия Japanese Web N-gram Corpus, Google/Консорциум лингвистических данных, http://www.ldc.upenn.edu/
Ли С.К. (2002). Лексические неологизмы в японском языке. Конференция австралийской ассоциации по «Исследованию в образовании», Брисбен, 2002.
Накадзава Т., Кавахара Д. и Курохаси С. (2005). Автоматическое обнаружение базового лексикона на катакане в данном корпусе. IJCNLP, 2005.
Цудзимура Н. (2006). Введение в японскую лингвистику. Блэквелл, 2-е издание, 2006 г.
Учимото К., Сэкинэ С. и Исахара Х. (2001). Проблема неизвестных слов: морфологический анализ японского языка с использованием максимальной энтропии, способствующей словарю. EMNLP 2001.
Учимото К., Болдуин Т. и Ишизаки С. (2005). Неоднозначные японские фразовые глаголы. Компьютерная речь и язык, Том 19, выпуск 4, октябрь 2005 г. (Специальный выпуск по Multiword Expression)
Уцуру Т., Шимэ Т., Цучия М., Мацуёси С. и Сато С. (2007).
Анализ сокращения и отношения зависимости сложноподчиненных функциональных выражений в японском языке. Текст, речь и диалог машинного обучения: 10-я Международная конференция, TSD 2007, Пльзень, Чехия.