数チェック辞書をアップデート

数チェック用の辞書ファイルをアップデートしました。

ファイル名は以下の通りです。(以前の辞書ファイルは削除せず、そのまま残してあります。)

WLDIC_数チェックVer2(色付).txt

この辞書ファイルを適用すると、以下の画像のようになります。

WildLight数の色付け辞書結果

この辞書では、数値への色付け以外にアルファベット大文字が連続した文字列(短縮用語)へも色付けを行います。

日本語原稿から簡易的に用語を抜く

昨年11月12日に行った翻訳勉強会「十人十色」のワイルドカードセミナーでちょっとお見せした「用語抜き」ですが、1月11日のWildLightセミナーで紹介したら、同様に関心を示して頂けましたので、その考え方をブログ記事にしておきます。

用語集は、顧客が使用する単語を正しく訳文へ適用し、文書内での揺れを無くす上で不可欠な物です。しかし、用語集を作成し管理している顧客や、それを提供してくれる顧客は非常に限られているのが現状です。

ここで説明する方法は、完璧ではないにしろ、翻訳品質管理上、用語集にして翻訳者へ事前提供した方が良い「用語の候補」を、日本語原稿から自動で抜き出す事を目的としています。

では、どうやって用語と思われるものを判断させるか?

実際に日本語原稿を眺め、用語として抜き出した方がいいものを探してみて欲しいのですが、そこから何と無く見えてくるものがあります。

それは…
用語となるものの多くは「漢字とカタカナの塊」であると言う事です。

つまり、漢字とカタカナの塊を抜き出してやると、用語集に必要な用語と思わしきものが抜き出せる事になります。

まず、「漢字とカタカナの塊」を検索して蛍光ペン付けする方法を考えてみましょう。それぞれを検索するワイルドカード文字列は以下の通りです。

漢字は、[一-鶴]
全角カタカナは、[ァ-ヾ]

これを1行で表すと、[ァ-ヾ一-鶴]となります。これをWildLight用辞書に記述する事で、漢字とカタカナの塊に蛍光ペンが付くことになります。あとは、蛍光ペンが付いたところをワードやエクセルへ抜き出してやれば良いわけですが、そのための特殊コマンドが以下のものです。

ExtractH2Word : 蛍光ペン部をワードへ抜く
ExtractH2Excel : 蛍光ペン部をエクセルへ抜く

エクセルへ抜く場合の記述例)

[ァ-ヾ一-鶴]
ExtractH2Excel

ExtractH2WordとExtractH2Excelでは、ユニークな文字列(用語と思わしきもの)だけが抽出され、文字数の大きい順に出力されます。(重複したものは削除される)
また、エクセルへの出力の場合、文書内での登場頻度の情報も付加して出力されます。

抜き出された用語らしきものは、当然、ひとつづつ精査して、本当に必要なものだけを用語として残す作業が必要です。

そもそも、この作業は完璧を全く求めていません。30%の完成度でも無いよりマシである…というところが発想の原点になっています。この考え方はツールを使う上でとても大切だと私は考えています。

TIPS:他の方法
例えば、文書名や文献、規程、規約、法律などの固有名詞は、良く括弧付きで記載されている場合が多いです。つまり、「」『』で括られた文字列は、用語集に必要な用語である場合が多いです。

同様にワイルドカードで記述して蛍光ペン付けを行えば、用語として抜く事ができます。
ちょっと雑ですが、

[『]{1}(*)[』]{1}(tab)¥1
[「]{1}(*)[」]{1}(tab)¥1
ExtractH2Excel

こんな感じになるでしょうか?

これらの処理を行う辞書は、WildLight Library に登録されていますので、ご活用下さい。

WLDIC_抽出和文から用語集候補をWordへ抜く.txt
WLDIC
抽出_和文から用語集候補をExcelへ抜く.txt

抜き出す対象を色々変えて、自分の意図に合う辞書に作り変えてみて下さい。