XMLデータからXSLTで変換してXSL-FOを作り出して、パーサーを通してPDFやらSWFを作成する技術を開発していました。
ワンソースマルチユースということで、出版や印刷業者が今一生懸命生き残りをかけて開発している分野です。
iPhoneがFlashを搭載しないことから、電子書籍のフォーマットはPDFに確実に向いてしまいました。
それにkindleやSonyのReaderもPDFが中心です。
PDFに関してはすでにAdobe社がAcrobatを提供している上、多くのツールでPDFを出力できるため、新技術開発のメリットは薄いです。
残るは、過去のソースを如何にPDFに変換していくかということ。
日本語の組版は非常に複雑で、日本独自の発展をしてきたため、完全な自動化が不可能に近いのです。
さらに問題は、出版印刷の工程と原稿の保管にも問題があり、最終印刷物を「完成物(正版)」としているため、組版済みのイラストレーターファイルやクォークファイルがあっても、文字(テキスト)データが残っていないことが多いのです。
大概はアウトライン化されテキスト情報が欠落してしまっています。
これらをOCRして再テキスト化しても読み取り率は98%前後。