首页 日语论文 検索エンジンを利用した中国語作文支援システムの構築

検索エンジンを利用した中国語作文支援システムの構築

概要 近年日中における貿易と文化交流に伴って中国語を学習する人が増加しているま た中国語で文書を書く機会も増加しているが中国語が母国語でない人にとって日中 辞書だけをもとに自然な中…

概要
近年日中における貿易と文化交流に伴って中国語を学習する人が増加しているま
た中国語で文書を書く機会も増加しているが中国語が母国語でない人にとって日中
辞書だけをもとに自然な中国語を作成することは困難であるしたがって中国語が母国
語でない人を対象とした自然的な中国語を効率よく作成するためのツールが求められて
いる中国語作文支援には大きく分けて日中対訳コーパスを用いる方法と中国単言語
コーパスを用いる方法があり双方に異なる利点がある前者は新聞記事や小説など既存
の翻訳資源を利用した分野を特定したコーパスを用いるので当該分野においての訳文は
高い精度を保つしかし中国語は非常に複雑なので人手でより大規模の対訳コーパス
の構築をしなければならず時間やコストがかかる欠点がある後者は大規模なテキス
トを確保することで汎用性が確保することができるため様々な分野の文章に対して適
用することができるしかし単言語コーパスはあらゆる分野の文章を含むので訳文
の精度は低くなる
本研究ではウェブ検索エンジン内のテキストデータを大規模な中国語単言語コーパス
として用いることにより表現の一般性を検討する機能やコーパスから効率的に訳語の
用法を提示する機能を実現するシステムの提案と構築を行うさらに提案システムは
単言語コーパスの低い精度を高めるためにワイルドカード検索を用いてフレーズの候補
を列挙する機能検索結果のスニペットを利用して候補フレーズを含む例文の提示する
機能を実現した上記のような機能を利用することによりあらゆる分野の精度が高い中
国語作文作業を効率よく行うができると考えられる評価の結果中国語作文支援を行
う本手法の有効性を示すことができた
2
目次
第章 はじめに………………………………………………………………………………….. 4
第2 章 関連研究………………………………………………………………………………….. 6
2.1 中国語単言語コーパスを用いる方法……………………………………………………………… 6
2.1.1 北京大学漢語語言学研究中心CCL[1]…………………………………………………. 6
2.1.2 国家語委現代漢語コーパス[2]……………………………………………………………….. 7
2.1.3 Kiwi[3] ………………………………………………………………………………………………. 9
2.2 対訳コーパスを用いる方法………………………………………………………………………….. 9
2.2.1 日中対訳コーパス[5] ………………………………………………………………………….. 10
2.3 関連研究のまとめ……………………………………………………………………………………… 10
第3 章 検索エンジンを利用した中国語作文の検討………………………………… 12
3.1 中国語の特徴及び中国作文するときの問題点……………………………………………….. 12
3.2 フレーズ検索を用いた汎用性の調査……………………………………………………………. 13
3.3 ワイルドカード検索を使った語彙組み合わせの検討……………………………………… 14
3.4 検索結果要約テキストからの用例の参照……………………………………………………… 15
3.5 検索エンジンを利用した中国語作文の検討のまとめ……………………………………… 16
第4 章 検索エンジンを使った中国語作文支援システムの構築………………… 17
4.1 ワイルドカード検索を利用した語彙組み合わせの検討………………………………….. 17
4.1.1 ワイルドカード検索によるフレーズの抽出……………………………………………. 18
4.1.2 ワイルドカード部分の接置詞チェック………………………………………………….. 18
4.1.3 結果文書数提示による汎用性の比較……………………………………………………… 19
第5 章 システムの評価………………………………………………………………………. 20
5.1 評価方法………………………………………………………………………………………………….. 20
5.2 ワイルドカード検索を利用した表現の一般性の検討……………………………………… 20
5.3 既存のツールとの比較………………………………………………………………………………. 21
第6 章 おわりに………………………………………………………………………………… 22
参考文献…………………………………………………………………………………………….. 23
3
第章 はじめに
近年日本企業の中国への事業展開や国際文化交流の促進により母国語を中国語と
しない日本人が中国語へ接触する機会が増加している日本語と中国語は漢字を利用する
言語ではあるが両者の文法構造は明らかに違うしたがって日本人にとって日中辞
書だけをもとに自然な中国語を作成することは困難であるそこで効率的に自然な中国
語を作成するためのツールが求められている
中国語を作成するためのツールには日本文を入力として辞書マッチングや統計的なア
プローチを用いて自動的に中国語を生成する機械翻訳のアプローチとコーパスからの検
索によって人間の翻訳作業を支援するアプローチの通りがある
一つ目のアプローチである日中機械翻訳には文法規則に基づく手法統計的な手法
用例ベースの手法等があるがいずれも上記のニーズに応えられる精度を持っていない
主に同義語の選択の際に語の組み合わせ方を考慮しないことや格助詞の適切な使い方
などといったことが原因で直訳と呼ばれる訳文になってしまう上記のような問題を解
決し直訳でない自然な訳文を作成することができる機械翻訳を実現するには課題が多
く年月を要するそこで二つ目のアプローチであるコーパスに基づく翻訳支援に関する
研究が近年盛んに行われている[1][2][3][4]
コーパスベースによる中国語作文支援には大きく分けて単一言語コーパスを用いる方
法[1][2][3]と文対応付けがされた対訳コーパスを用いる方法[4]がある
中国語単言語コーパスを用いた研究例としてCCL[1]国家語委現代漢語語料庫[2]
Kiwi[3] などがありいずれもデータを大量に入手できるため一般に使用されている表
現かどうかを調べるのに適しているという国家語委現代漢語語料は7000万語が登録さ
れており最大規模の中国語単言語コーパスであるしかし国家語委現代漢語語料には
語彙を検索してコーパス内での出力結果として例文を表示する形式をとっているため
ユーザーがコーパス内での出現回数や単語の用法などを直接参照できないまたKiwi で
はワイルドカード検索を用いて検索結果からフレーズの抽出を行っているがフレーズ
の一覧を表示するに留まり当該フレーズの具体的な用例などの選択基準を与えていない
一方文対応付けがされた対訳コーパスを用いた研究例として日中対訳コーパス中
日対訳語料庫[4]がある対訳コーパスを用いた手法は検索語に対応する訳語がどのよ
うに使用されているかを参照できる点や翻訳したい文と似た文を探して訳文作成の土
台として用いることができる点などがあるしかし人手による大規模な対訳コーパスの
構築が極めて困難であり半自動構築や自動構築の手法については実現していないまた
小説や詩歌などのテキストは文が非常に長く複雑な構成になっていることが多いので
4
そのまま表示したのでは検索語の訳語やその周辺を参照するために効率が悪いという問
題点がある
これらの問題に対し本研究では検索エンジン特有の機能を利用し適切な語彙選択を支
援する機能や文対応付けがされた対訳コーパスから効率的に訳語の用法を学習できる機
能を実現するシステムの提案・構築を行った具体的にはこれまでの中国単言語コーパ
スを用いた研究例ではユーザーが自身でフレーズの選択を判断するための基準を与えてい
ないのに対しワイルドカード検索により検索結果から抽出したフレーズ候補について
検索エンジンでの出現回数を語彙選択の判断基準として提示し適切な語彙選択を支援す
るまた機械的な対応付けがされた対訳コーパスからの検索時に検索語の訳語やその
周辺を参照するために効率が悪いという問題に対し検索語の訳語対応を自動的に取得し
訳語周辺の参照を効率的に行えるようにした以上の機能を実装した中国語作文支援シス
テムを利用することにより効率的な中国語文書の作成が行えると考えられる
本論文は本章を含めて6 章から構成される以下第2 章では中国作文支援に関する
関連研究を述べる第3 章では本システムで利用している手作業により検索エンジンを利
用した中国語作文の検討方法について述べる第4 章では提案システムの概要と各機能
の詳細について述べる第5 章で本システムの評価考察を行う第6 章で本論文のまと
めとして今後の課題を述べる
5
第2章 関連研究
本章では中国語作文支援に関連する研究について述べる中国語作文支援のアプロー
チとして大きく分けてつのアプローチがある
単言語コーパスを用いる方法
文対応が付けられた対訳コーパスを用いる方法
単言語コーパスは大量のデータを入手できるため実際の利用例を参照したり一般
に使用されている表現かどうか調べるといった目的に利用できるしかし中国語の習熟
度が高い利用者でなければ中国語だけの例文を見てもすぐに意味を理解することができ
ないという欠点がある
対訳コーパスを用いる方法は日本語と中国語の例文を同時に参照することにより例
文中にわからない単語やフレーズがある場合もスムーズに意味を理解し利用方法を習得
できるという利点があるしかし中国語単言語コーパスに比較すると利用できるデー
タ量が圧倒的に少なく目的とする例文を発見できない場合があるという問題がある
以下本研究に関連する中国語単言語の大規模コーパスを用いる方法と機械的に対応
付けを行った対訳コーパスを用いた方法について述べ本研究の位置づけについて述べる
2.1 中国語単言語コーパスを用いる方法
中国語を母国語としない人にとって適切な語彙の組み合わせを選択し自然な中国語
作文を作成することは困難である適切な語彙の組み合わせを選択するための用例データ
ベースとして検索エンジン内の膨大なテキストデータや大量に収集した中国語文テキス
トを用いている関連研究について述べる
2.1.1 北京大学漢語語言学研究中心CCL[1]
CCLは北京大学漢語語言学研究中心が開発したコーパスである内容は新聞記事文学
芝居テレビ・映画脚本ネット文学などのテキストを基にして規模が2008年1月11日現
在は現代漢語2億字・古代漢語8千万字である漢字単語を入力として検索結果を効
果的に絞り込むいくつかの特別構文を用意されている文献[1]で取り上げられている例を
以下に示す
例1「吃亏」が含まれているすべての文章を検索する場合は
吃亏
例2「吃」と「亏」が同時に含まれてまた「吃」が前に「亏」が後ろに両者の間
が一つ字の間隔を取るようにする場合は
吃+1亏
6
例3古代「明」の漢語コーパスから「所以」が含まれている文章を検索する場合は
所以 path:13明
そのうちに「13明」は中国古代明代を示す構文であるまた先頭に「path:」を指定しなけ
ればいけない
CCLでは検索キーワードの特別構文を使いより理想的な結果を得ることができるが
特別構文が複雑であるまた検索結果画面をそのまま表示するため実際に格助詞の使
用頻度や汎用性を参照するのに非常に効率が悪いといる欠点がある

………………………………………………………

由于篇幅所限,此处不能完全刊载论文全部内容,如需完整论文内容,请点击下面链接去下载全篇论文的完整文档!

 

本文来自网络,不代表中国论文网立场。转载请注明出处: http://www.chinalunwen.com/riyu/509/
上一篇
下一篇

作者: 中国论文网

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部