無料・音声読み上げソフト『Balabolka』…さらに高速チューン!

前回の記事では、誤読を減らすための辞書登録を簡単に一気に行う方法を記載しました。

関連記事:無料・音声読み上げソフト…文章校正に『Balabolka』をチューンアップ!

今回は、より具体的に辞書ファイルに1000件くらいの単語を、ほんの数十分で一気に登録してみます。

そうすれば、相当正しく読めるようになり、このレベルになれば、他人に聞かせることもできそうです。

ネットで辞書の基を探します

誰かが作ってくれている辞書ファイルがあればいいのですが、たぶん厳しいでしょう。

それならば、自分で作るしか無いわけです。

そこで今回は、難読漢字を読めるようにしたいと思います。

  1. 「難読漢字 一覧」または「難読漢字 リスト」等で検索します
  2. 出てきたリストをひとつずつ確認し、リスト化しやすくなっているページを探します
  3. これはというページが見つかったら、必要な部分をコピーペーストしましょう
  4. とりあえず、必要と思われる部分は集めます
    (数百単語は問題ないでしょう)

これで、辞書の基になるリストはできました。

辞書のルールに合わせて成型

『Balabolka』の辞書の成型ルールは

読ませたい単語=読みかた

でしたね。

しかし、単語の区切り方で読めない場合もありますので、今回は念のため初めから

「読ませたい単語 *=読みかた」

としてしまいましょう。

成型ルールを確認したい方は、下記からご覧ください。

関連記事:無料・音声読み上げソフト…文章校正に『Balabolka』をチューンアップ!

辞書の基から辞書ファイルを作成

先ほどコピーペーストで作った辞書の基を用意します。

ここからは作った辞書の基により、作成方法が異なりますので、あなたの作った辞書の基と少し異なると思いますが、たぶん一番手間のかかる見本になっています。

部分的に参考にできると思いますので、GIFアニメと流れをご覧ください。

1.辞書の基からCSVファイルを作ります

2.辞書の基を開いて空白(タブ)になっている部分を「,」に置き換える(CSVファイルにするため)

3.ファイル名を「〇〇.csv」として保存する

4.office系のソフトがインストールされている前提ですすめますが、先ほどの「〇〇.csv」をクリックして、エクセルなどの表計算ソフトから読み込ませます

5.「漢字の列」と「読みがなの列」を入れ替えて保存します

6.再び、テキストエディタで開きます

7.「,」を「*=」にすべて置き換えます

8.一部ルールと異なる記述になっている部分があります

合服、間服*=あいふく

こんなところで、複数の漢字に対して読みがながひとつになっています

ここを手作業で修正します

9.「、」を消して、そこで改行します

10.下の漢字の読み方と同じですから、「*=〇〇」をコピーペーストします

11.これをすべて行って、そして保存します

作った辞書を登録します

登録方法は、今あるあなたの辞書にコピーペーストで登録しても良いですし、新しく別の辞書を作っても良いでしょう。

分けた方が、わかりやすいかもしれません。

登録の方法がわからない方は、以下の関連記事からご確認ください。

関連記事:無料・音声読み上げソフト…文章校正に『Balabolka』をチューンアップ!

テストを確実に行います

読めるかのテストは確実に行いましょう。

辞書がうまく読み込まれていないと感じたら、『Balabolka』を立ち上げ直すなど、臨機応変にお願いします。

さあ、これであなたの『Balabolka』も相当優秀になったことでしょう。

まとめ

より具体的に辞書ファイルに1000件位の単語を、ほんの数十分で一気に登録してみます。

  1. 「難読漢字 一覧」または「難読漢字 リスト」等で検索し、リスト化しやすくなっているページを探します
  2. 必要な部分をコピーペーストし、必要と思われる部分を集めます
  3. その辞書の基からCSVファイルを作り、エクセルなどの表計算の基本的な機能を使って、辞書のルールにそって成型します
  4. できたら辞書を登録します

登録方法は、今あるあなたの辞書にコピーペーストで登録しても良いですし、新しく別の辞書を作っても良いでしょう。

また、テストは確実に行いましょう。

コメント

  1. 高橋 より:

    Balabolkaを使い始めて、辞書登録関連で疑問がたくさんあり、ネット検索でこちらにたどり着きました。

    今、困っているのが、「辞書登録してるはずなのに、それが音声に反映されない」ということです。

    「発音修正」画面で左の変換欄?に、辞書に登録させた文字列(例えば「ネット上*=ネットじょう」など)はきちんと入っているにも関わらず、「ネット上」が「ネットうえ」としか発音しません。

    登録させたい辞書の「.dic」ファイルの上書きするだけでは反映されないのでしょうか?

    他のサイトでは、こちらのように丁寧に解説されているところを見つけられず、困っております。
    お返事頂けると助かります。

    • editor より:

      このブログの他の記事を読んでいただくとわかると思いますが、実は2ヶ月ほど前にWindowsマシンのHDDがクラッシュしまして、現在Linuxマシンになっているので、Balabolkaを使っておりません。

      ただし、原因の想像はできますので、可能性についてのお答えということで、ご了承願います。

      辞書登録しているのに、きちんと読みあげないということですね。

      他のソフトでもよくありますが、多分文章のなかでの単語の区切り方で、起こっていると思います。

      具体的には「ネット上」という単語と思っていても「インターネット上」だった場合は、「インターネット」+「上」という分け方になっていたりすることもあります。

      また、「ネット上」自体は、「ネット」+「上」が単語としての区切りですから、そちらが優先してしまっていると思います。

      • 高橋 より:

        早々のお返事ありがとうございます!

        そうだったんですね…

        何度もすみません。

        調べてもわからなかったのですが、「文章のなかでの単語の区切り方」が原因だった場合、どうすれば修正できるのでしょうか?

        お手隙きの時にでもお返事下されば助かります。

        • editor より:

          確認をさせていただきたいのですが…

          たとえば、目的によっては、非常に単純で、すぐに解決できることも、ご質問にお答えする形だけで進めてしまって、実は遠回りになってしまっていることもあります。

          つまり、Balabolkaをつかって、Balabolkaで「ネット上」を「ねっとじょう」と読ませなければいけない避けられない理由があるのでしょうか?

          それとも、たまたまBalabolkaを使ってみたら、フリーで使いやすかったので、できれば「ネット上」を読めるようにしたいということなのかによっては、お答えが変わると思います。

          前者の場合は、現状使っておりませんので、申し訳ありませんが、適当にお答えできません。

          ただし、一般的に日本語の形態素解析エンジンを使う場合、形態素解析(分かち書き)を行う歳に、辞書の情報を含めて解析することができるようにつくられているのか、それともそうなっていないのかで違ってきますので、ソフト製作者の設計によって、はじめから出来る場合や、普通にはできない場合があると思います。

          形態素解析後にユーザー辞書という形だと無理でしょうし、バグ的にできないこともあるかもしれません。

          後者であれば、他のほとんどのフリーの音声合成エンジンを利用している日本のソフトは「ネット上」を「ねっとじょう」と読めます。

          よろしければ、いくつかの他のソフトも使ってみてください。

          • 高橋 より:

            何度もすみません。
            Balabolkaを選んだ理由は、「PDF文章を音声読み上げしてくれるソフトで、音声の聞き取りやすさや一括辞書編集機能などで比較的ネットでの評価が高かった」ためです。

            仕事で、大量のPDFを何度も読まなくてはならないのですが、時間の有効活用で、通勤の運転中を利用したいと思いたち、上記に至りまます。

            誤読されてもある程度は意味が通じるのですが、何度も聞くものなので、もう少し改善出来ないかなと。

            使い勝手次第ですが、有料ソフト(上限5000円前後)含め、何か良いソフトご存知でしょうか?

            安く手に入るなら、詠太(「一太郎」に搭載の読み上げソフト)なんかがいいのかなぁと思っていますが。

            お手隙きの時にでもお返事下されば助かります。

          • editor より:

            ご返事が遅くなりました。

            PDFを読みあげたいから Balabolkaを使いたいというのが、一番の理由ということでよろしいですよね。

            聞き取りやすさや辞書登録については、気になるでしょうが、他のソフトがダメということではないと思いますので、今回はPDFに絞って考えてよろしいですか?

            PDFファイルについては、一応マル秘データでないとは思いますが、ネットにアップロードする形になるのはまずいと思いますので、オフラインで考えます。

            結論から言えば、すべてのPDFファイルを、PCソフトで一括処理を行いテキスト化して、新しい音声読み上げソフト(テキストファイルを扱えるもの…多分すべてのソフト)を使うというのはダメでしょうか?

            この対応の欠点は、テキスト化という作業が増え(ただし複数のファイルに対して1回)ますが、音声読み上げソフトはどのようなものでも可能になるという利点があります。