MENU

TECH BLOG

CONTACT

05

05TECH BLOG

【TechBlog】Tesseract ノベルゲームに特化した日本語OCR(文字認識)をしてみた

こんにちは!!!クライアントエンジニアの小林です。

趣味で触っているコーパス作成の過程でテキスト入力を自動化したいなぁと思いOCRを導入してみました。
cloud visionはAPI叩くスタイルなので鯖落ちとか面倒だなぁと思い、ローカルで動作するtesseractを選びました。

がしかし、tesseractさん、日本語に対する精度が低いです。

といっても英字は比較的読めているので読めないことはないだろうと思い、プリプロセスを頑張ったらギリギリ実用レベルに達しました。
今回はそれについてのご紹介です。

⇒ このブログの本文へ

NEWER

BACK TO TECH BLOG

OLDER