検索
ニュース

進歩したAR技術や音声合成技術に触れた東京ブックフェア動画リポート

東京ビッグサイトで開催された国際電子出版EXPOでスマートフォンなどのカメラ機能を利用して画像を読み込むだけで登録されたデータを呼び出すサービスや音声合成技術を駆使したテキスト読み上げ機能が展示されていた。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 東京ビッグサイトで7月3日から5日まで開催された「東京ブックフェア」。同時開催中の「国際電子書籍EXPO」で最新の技術や、既出のものなど、さまざまな情報に触れることができた。2つの分野にしぼってお送りする。

AR技術を用いて印刷物とクラウドをつなげる

 BookLiveが画像マッチング技術と保有するデータベースを活かしたアプリ「BookLive!カメラ(仮)」を展示していることをお伝えしたが、同様の技術をサービスとして提供しようとの試みを展示していたのが、スターティアラボの「COCOAR(ココアル)」とコトブキ企画の「スピードウェブ」だ。

 これまで、画像を読み込んでデータを表示させる技術といえば、QRコードなどのバーコード系が主流だったが、今回展示されていたものは、どちらもアプリを起動して、画像を読み込むと、ひもづけられたデータが呼び出される仕組みになっている。読み込む画像は単純なマークだけではなく、写真なども可能。画像とデータの登録はWeb上の管理画面から行える。

 なお、COCOARアプリではGPSと連動して、その画像がどの地域で読み込まれたかというデータの収集・アクセス解析も提供している。

 また、スピードウェブアプリは画像の向きに関係なく読み込むことができ、1つの画像に登録できるデータは最大20となっており、画像が認識されるとそれらひもづけられたデータタイトルがリストで表示され、ユーザーはタイトルをタップするだけでその情報を閲覧することができる。カタログなどで仕様変更があった場合などに、再印刷、再配布するのは手間が掛かるが、このサービスを使えば、「最新のスペックは、画像を読み込んで確認してください」という文章一つでその手間を省くことができる。こちらも、どの画像が読み込まれたかのデータを収集し、解析するサービスを提供している。

画像を読み込むことで、最大20のコンテンツと連動させることが可能。

 なお、スピードウェブアプリは2012年11月からサービス開始しており、2013年5月からオリジナルアプリへのカスタマイズサービスも提供している。

※初出時、「2012年12月から」としていましたが、「11月から」の誤りでした。お詫びして修正いたします。

利用の幅が広がる「テキスト読み上げ」

 英語版kindleではテキスト読み上げ機能が実装されているが、日本語は複雑な文字文化のため、「音声合成技術」によるテキスト読み上げ機能搭載は難しい。しかし今回訪れた東芝とNTTクラルティのブースでは、「端末」と「コンテンツ」という異なったアプローチではあるが、その機能が展示されていた。

 東芝では今年4月に「BookPlace MONO」という電子書籍リーダー端末を発表し、本誌でも「ヘッドフォンジャック」の搭載と音声読み上げ機能について触れた記事を掲載したが、この7月、同端末のファームウェアアップデートにより、音声読み上げ機能が搭載されるという。まずは男声・女声が搭載されるが、将来的には有名キャラクターや声優の声などを追加していきたいとのことで、ボーカロイド「蒼姫ラピス」での読み上げが参考出展されていた。

BookPlace MONOがファームウェアアップデートにより、国内電子書籍リーダー端末として初の音­声読み上げ機能を搭載する。なお、動画の音声は参考展示で、実際には別の声で読み上げられる。

 東芝では、日本語変換技術と並行して音声合成技術も30年間開発してきており、今回はそれが実った結果、国内の電子書籍リーダー端末としてははじめての搭載できることになったと話していた。また、今回搭載される音声読み上げ機能「ToSpeak」には個人名などの読み方の難しい漢字の読みやアクセントも登録できる「言語辞書」が搭載されるとのことだ。

 なお、iOS/Android向けビューワアプリも同時にバージョンアップされる。

 また、NTTクラルティのブースでは、これまでの「しゃべるEPUB」に加え、「次世代の音声つき電子書籍」が参考出展されていた。

 同コンテンツでは、NTTメディアインテリジェンス研究所が開発している「ユーザーデザイン音声合成技術」を用い、コンテンツ提供側が用意している音源による読み上げだけではなく、ユーザーの声を登録し、その音声を使って、まるでその人が朗読しているかのようにテキストを読み上げることが可能。

音声合成とは思えない自然な読み上げ。ただし、実際に朗読したものを「イントネーショ­ンの元」として使うため、聞き慣れた声なのに読み上げ口調が異なるということに。

 ただ、実際にはイントネーションの元となるデータと、ユーザーの登録した音声を合成したものになるため、例えばユーザーは大阪弁で普段話しているのに、イントネーションデータが秋田弁を元にしていた場合、ユーザーの声が秋田訛りのイントネーションで再生されることになる。

 「離れて暮らしている祖父母の声を使って読み上げる絵本」コンテンツやマンガのセリフを数人の合成音声で読み上げるコンテンツなど、実用面だけではなく、楽しむコンテンツとしても幅が広がりそうだと感じた。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る