翻訳会社ソリュテック

 翻訳料金の見積
 翻訳のご発注
 秘密保持契約
 翻訳原稿をE-mail
 翻訳原稿を FTP 転送
 翻訳原稿を郵便
 翻訳原稿をFAX
 翻訳納期の指定
 品質と料金の優先
 翻訳物の公証
 翻訳物の納品方法
 翻訳料金のお支払
 よくあるご質問
 お問合せ

OCRサービス


翻訳会社ソリュテックの翻訳周辺ワークスの1つに OCR による活字読取サービスがあります。( OCRとは、ペーパーベースなど電子化されていない情報をスキャナで読み取ったとして出来た画像データ(TIFF形式、BMP形式など)を、OCRソフトで解析し、文字として扱えるデータに変換する処理のことです。)

翻訳会社ソリュテックのOCRサービスは技術が違う

他社のOCRサービスですとグラフィクと文字が重なっているカタログなどからうまく文字起こしをすることはできないことが多いと思いますが、翻訳会社ソリュテックのOCRサービスはグラフィカルなドキュメントからも文字の読み取りを行うことができます。※ 但し、変形文字や人間の目で見ても単純に判別できないような文字までは拾い出せません。

翻訳会社ソリュテックのOCRサービスは、独自開発の前処理ソフトウエアを通過した後、最新のOCRソフトウエアで識字され、更に独自開発の後処理ソフトウエアで仕上げられます。この、独自開発のフロントエンドとバックエンドが識字率の向上に一層の貢献をしています。

OCRを知り尽くした翻訳会社ソリュテックの技術

翻訳会社が高いレベルのOCR読み取り技術を持っていることを不思議に思われるかもしれませんが、実は、実戦でOCRを使っている翻訳会社だからこそ高いレベルのOCR読み取り技術を持っているのです。

翻訳会社ではペーパーベースのドキュメントの文字数(ワード数)を知ることが非常に重要(お客様への見積もりや翻訳者の負荷を数字で把握するのに使用)となりますので、OCRで文字起こしを行う必要があります。また、翻訳会社ソリュテックでは、遠隔地に分散している優秀な翻訳者が多く翻訳を担当しており、それらの翻訳者との間でインターネット経由で効率よく電子化されたドキュメントのやりとりを行う必要があること、また、翻訳者の識字のしやすさや上書き作業のしやすさなど作業効率を向上させる上でもOCRで文字起こしを行う必要があります。

特に、翻訳会社ではペーパーベースの原稿のレイアウトを極力維持したままOCRで電子化することが他の翻訳会社(コンペティタ)との競争に打ち勝つために重要です。顧客の翻訳会社に対する要望の中で大きなものに、「ペーパーベースの原稿のどの部分がどのように訳されたか、原文と訳文の比較照合をしやすくして欲しい」というのがあります。これをできるだけ簡単に実現しようとすると、OCRで原稿のレイアウトを極力維持して文字を読み取るソリューションが一番優れているというのが弊社の結論です。

更に、翻訳ベンチなどで原文と訳文のペア・センテンスを記録したい場合などでも、原稿が電子化されている必要があり、ペーパーベースの原稿をOCRにかける必要があります。

以上のように、数々の理由から、翻訳会社ではOCRが実戦で用いられており、OCRの運用スキルが高くなっているという訳です。


OCRサービスのメリット

電子的な文字として扱えるようになります。文字データは画像データと比較して軽量かつ文字検索可能ですので、現代の電子化されたオフィスに最適です。ペーパーは量が増えると場所を取ります。それだけ、目に見えないオフィス代金がペーパーに消費されているのと同じことになり非合理です。OCRでパーパーを削減し、オフィスをすっきりさせましょう。

また、文書のリサイクルという観点からも有効です。例えば、御社の古い商品で、商品案内がペーパー・ベースのカタログしか無いというような状況であるならば、それをOCRで文字化してWEBページに掲載しましょう。販売促進につながる可能性が高まります。その他、古い文書のリサイクルで事務の手間を省けるケースというのは多々あると思います。事務効率をアップさせ高い人件費を抑制しましょう。

日本語のOCRは今が旬

日本語のペーパー・ベースのドキュメントをOCRで電子化するなら今が絶好のタイミングです。英語のOCRの読み取り精度は比較的早い時点で実用十分な領域に達しましたが、日本語の場合、なかなか識字率がアップしなかったため、ちょっと昔までは、日本語で書かれたドキュメントの場合、OCRにかけると文字化けする割合が多く、実用的ではありませんでした。今は、OCRの技術革新と弊社独自のOCRまわりの処理により、識字率が大幅にアップしましたので十分実用的になります。OCRのコストもボトムに近いと考えられますので、日本語のペーパー・ベースのドキュメントをOCRで電子化するには今が最適であると考えられます。


OCR後の電子データの形式

OCR後のファイルはワード形式が一般的です。その他、エクセル、PDF、HMTL、テキスト形式での出力も可能です。

より良くよりローコストでOCR結果を得るために

できるだけ良質の原稿をご用意いただけると、より高い識字率でよりローコストにOCRを行えます。翻訳会社ソリュテックには優れたOCR技術がありますが、原稿の質が悪いとチューニング・コストなどでOCRコストがアップしますので、できるだけ良質の原稿をご用意ください。

OCRに適する良質の原稿

・コピーの際などに出来る斑点が少ない原稿。印刷物や元の原稿状態のものがベスト。
・手書き文字が極力含まれないか手書き文字の影響が少ない原稿 *1
・文字がぼけていない原稿
・文字が大きい原稿
・フォントの種類が一般的なフォントに近い原稿
・ページレイアウが単純な原稿
・もとがカラー原稿の場合は減色せずカラー原稿のままの方が良い。
・もとがグレースケール原稿の場合、白黒化せず、グレースケール原稿のままが良い。
・解像度 400 dpi 以上の原稿。

*1 手書き文字の影響が少ない原稿とは、手書き文字の濃度が薄いカラー原稿あるいはグレースケール原稿、あるいは手書き文字が読み取り対象の文字色と完全に異なるカラー原稿のことです。

OCRで対応できない場合や精度をアップさせる手作業による文字起こし

原稿の状態によってはOCR作業では電子化できず、手作業での文字起こしをおすすめする場合がございます。手作業での文字起こしはOCRによる場合と比較して高額ですが、それでも他社よりは低コストでサービスをご提供できるかと存じます。ご相談ください。

OCRによる場合、「ー」と「−」など類似する文字をトチる場合があります。コストはかかりますが、それらのエラーをスペルチェックや目視校正などを人間が行うことで修正することもできます。

翻訳と通訳で世界を結ぶ
翻訳会社<多才な会社の株式会社ソリュテック>通訳会社