図書館電子化システム特別委員会第3年次報告: II-3．テキストデータの充実と共同利用について

III．テキストデータの充実と共同利用について

1. はじめに
　インターネットで電子化資料を提供している国立大学図書館は、「電子化資料を提供しているサーバー」(http://www.lib.u-ryukyu.ac.jp/erwg/denshika.html)（調査・作成：九州地区大学図書館電子化推進WG、保守・公開：琉球大学附属図書館）（以下「九州地区WG調査」という。）（平成12（2000）年８月現在）によれば、64大学・機関（予定の１大学を含む）である（別表１）。九州地区WG調査では、これらの電子化資料を(1)研究紀要等学内出版物などテキストの電子化、(2)絵図・古文書など画像の電子化、(3)方言等の音声データ、(4)電子情報のデータベース化、(5)その他の5つに分類しているが、本稿では、(1)のテキストデータについて、共同作成、共同利用のありかたや必要性の有無について、事例を交えながら記述する。

2.　テキストデータの定義
　インターネットで公開しているコンテンツのうち、データを構成する主たる部分がASCIIまたはJISのCharacter-CODEで記述されるコンテンツをいい、説明的な挿図や表が画像データとなっているものも含める。また、エスケープシーケンスコードでレイアウト情報を保持し、専用のソフトウェアでのみ利用可能なワープロ文書は対象外とする。レイアウトや文書構造をタグ文字によって制御するHTML文書やSGML文書は、ACSII-CODEで記述されたコンテンツとして見なす。本稿では、テキストデータをHTML文書やSGML文書のようなタグ付き文書と区別する必要がある場合は、プレインテキストという用語を用いることにする。PDF形式ファイルのように、画像データとテキストデータという区分けが無意味な場合があるが、本稿では、前述のデータを対象として記述する。九州地区ＷＧ調査の「テキストの電子化資料」に分類されているコンテンツのうち、全文テキストを公開している殆どのものがPDF形式ファイル（44種類）である。（別表２）その他は、目録や一覧が主体であり、本文の電子化資料ではない。

3.　全文テキストデータの作成状況
　インターネットで公開しているコンテンツは、九州地区ＷＧ調査の区分けにある音声ファイル等で提供されることもあるが、基本的には画像データもしくはテキストデータである。本稿では、テキストデータを以下の二つに大別する。
　(1)学内刊行物:紀要、ニュース、館報、シラバス
　(2)学内刊行物以外
　ここでは主旨を明確にするため、(1)の学内刊行物を対象とした作成を中心にする。(2)については、奈良先端科学技術大学院大学で先進的にデータの作成を行っており、別途報告などを参照いただきたい。学内刊行物でも、紀要など著作権処理が必要な場合があるが、これらの処理については、本委員会の別報告、筑波大学の事例や「研究成果流通環境に関する総合的研究（平成8,9年度報告）」（以下「研究報告」という。）にも記載があるので、参照されたい。

4.　作成方式

 (1)電子化を前提とした冊子出版
　九州地区WG調査から個々のコンテンツにアクセスしたが、冊子出版にあたって電子化を前提としていると明示しているものは無かった。印刷版下がDTPで作成されている場合においても、本文テキストは、TextやHTMLあるいはPDF形式で出力可能であるが、PDF以外については、挿図や表は別途レイアウト作業が必要となる。電子化を前提とした版下作成の場合で、さらに、全文テキスト検索を前提とした場合は、システムに依存しない形式としては、現状ではSGMLを採用するのが一般的である。ただし、図書館側においても、また、印刷業者側においても、SGMLの適応については、コスト面と適応事例の少なさから、いまだ一般的な方法にはなりえていないと言わざるを得ない。九州地区WG調査から、明確にSGMLを採用したと明記したコンテンツはなかった。前述の通り、PDF形式ファイルが多く見られたが、館報などは、印刷業者から納品されたりするのも一般的になってきたようにも思われる。また、ワープロでレイアウトした文書を、印刷と同じ操作で、簡単にPDF形式ファイルに作成できることから、作成される場合もあると思われる。

(2)冊子体から新規に作成
　既に刊行された冊子から、電子化を行う場合、あらためての文字データ入力を行うことになる。原稿を電子的媒体で提供するのが一般的となりつつあるが、校正後のデータ入手や版下データの形式などまだ問題が多い。あらためて、文字データを入力するにしても、外注で行うか内部で作成するかにより、その直接的経費の算定は異なってくる。たとえば、外注で文字入力を行う場合の経費としての一例では、インターネット上のホームページで公開されている料金表を参照すると、１文字単位の料金はOCRを使用した場合0.6円～や手入力1.2円～などがあり、A4版１頁あたりとして1,200円～や図や表がある場合1,700円～などとなっている。特殊な例として、古典籍の場合は１文字：10円以上という例もある。外注方式の場合、入力文字数、文字校正回数、表や図の量や原本裁断の可否、原本の状況など、種々の条件において、その経費が異なる場合が多いので、参考見積もりを依頼するなど計画段階での経費積算が必要となる。それに対して、画像データとして作成した場合、文字入力より安価である。（1頁あたり：400～50円）
　内部で作成する場合、OCR処理が入力効率に与える影響が大きい。目安として、以下に、スキャン時間と識字率について、日本目録規則1987年改訂版の序文第5頁（1103文字）を対象に簡易試験を行った。

パソコン:富士通製FMV-DT6266T6(intel PentiumII 266MHz、128MB)
スキャナ:マイクロテック製フルカラーイメージスキャナScanMaker E6( 光学解像度:600dpi×1200dpi)
OCRソフト:e-TYPE

	読み取り時間(秒)	誤字	識字率(%)
100dpi	35	-	識別不能
350dpi	35	14	98.73
500dpi	35	10	99.03

　同様に、第47回国立大学図書館協議会総会資料第11頁(777文字)を対象に読み取り調査を行った。

	読み取り時間(秒)	誤字	識字率
100dpi	35	-	識別不能
350dpi	35	8	98.97
500dpi	35	7	99.10

　上記の例からは、読み取り解像度を上げると、識字率は向上して結果が得られた。ただし、350dpiで誤字となったものが、500dpiで正字として読みとれたという単純な識字率の向上ではなく、反対に350dpiで正字として読みとれたものが500dpi誤字となった場合もある。
　また、読み取り解像度と読み取り時間は、今回使用したスキャナの特性として変化はないが、スキャナによっては解像度に応じて読み取り時間が比例するものもある。本簡易試験においては、読み取り時間と識字率（校正作業時間）の観点からすれば、500dpi程度で読み込む事が効率的な電子化作業が行えると判断されるが、使用する装置で事前に実験を行う必要がある。この機械的作業時間の効率化のために、冊子を１頁毎に裁断し、オートシートフィーダで連続読み取りを行ったり、一人で複数台のスキャナを操作するなどの工夫も行われている。

(3)外字処理
　外字処理が必要な主なケースは、人名など固有名詞と考えられる。九州地区WG調査のコンテンツを調査したところ、外字は(1)●や□など別マークで置き換えもの(2)似た漢字に置き換えるもの(3)ひらがな標記するものであった。外字処理の方法としては、複数の漢字を組み合わせて漢字を表記するものや、今昔文字鏡のフォントを使用し外字を表示する方法、NACSIS-CATで使用されている◆番号◆方式なども採用されてきている。少なくとも、外字の処理についての方式は明示する必要があるが、どの方法とも、まだ確定された方式ではなく、UNICODEの採用検討ともあわせて、今後の動向を見る必要もある。

5.　提供方式
　画像データと比べて、テキストデータで情報を提供するメリットとしては、１ファイルあたりの容量が小さいことと検索が可能なことがまずあげられる。後者の検索について、九州地区WG調査のコンテンツの調査を行った。
　(1)全文検索または検索システムで提供（53種類）（別表３）
　(2)HTML形式ファイルまたはPDF形式ファイルとして閲覧提供
　その多くが、PDF形式ファイルまたはテキストデータを公開しているのみであり、全文検索を行うにはいたっていない。研究報告には、簡易全文データベース検索システムの構築について報告がされているが、HTMLまたはPDF形式ファイルで公開するのと異なり、専門的知識や技術が必要とされる。また、検索システムをもちながら、その提供種類が少ないため、横断的にあらゆる情報から必要なテキストデータを検索するというより、いわば索引のような使い方しかできない現状が多い。

6.　共同作成・共同利用
　以上のように、現状では、個々の基準において個々の予算の範囲で個々の大学図書館が電子化作業の努力を行っている。しかし、個々の大学が発信する量は、その所蔵する資料に対しては、はるかに及ばないものであるが、全国的にみると、一定量の電子化情報を提供していることはいうまでもない。また、前述のようにテキストデータの利便性は、画像データより軽量であることと検索可能なことにある。そうであるとすれば、共同提供を前提とした取り組みが必要ではないかと考えるものである。これまでに、本ＷＧで検討されてきた方式は次のようにまとめられる。
　(1)紀要への適用が効果的と思われる学会誌作成システム（NII）方式
　(2)個々に作成したコンテンツを集中して提供するための交換形式ファイル方式
　(3)結果的に連携・協力が可能なZ39.50プロトコル方式
　(4)どこに利用可能なデータがあるのかを知る手がかりメタデータ方式
　コンテンツの提供状況については、すでに、九州地区WG調査で作成された通覧可能なリンク集が作成され、定期的に更新作業が行われている。また、メタデータを利用した検索システムも図書館情報大学や神戸大学の電子図書館システムで提供を開始されており、全文コンテンツに特化したメタデータ検索システムの実現も不可能ではないと思われる。特に、全文検索を主に考えた場合、１機関において、その全文データをまとめて検索できるサイトの提案を行うものである。検索サイトにおいては、レイアウト情報のない、プレインなテキストデータを検索対象とし、実コンテンツは、実際に提供を行う大学図書館のサイト情報からリンクをたどる方式である。(2)の交換形式をプレインなテキストファイルとする以外に、新規に提供を行った機関がURLを登録することにより、当該コンテンツがロボット収集する方法も考えられる。収集されたコンテンツを元に全文テキスト検索を行い、読みやすいレイアウトされたコンテンツは個々の大学図書館で追求するという方式である。すでに、京都大学の電子図書館においては、京大ホームページナビのサービスで京大内のサイトをロボット巡回し、収集したホームページの全文検索を行っている例もある。
　なお、これらコンテンツの共同利用の実施にあたっては、国立大学附属図書館が公開中のコンテンツだけでなく、国立情報学研究所や国立博物館などの関係学術情報機関の公開中コンテンツも含めて検討及び調整することが、共同利用のために必要な作業となる。

7.　おわりに
　本WGは、当初、テキストデータの充実と共同利用についての２つの課題を元に検討を重ねてきた。この二つの課題は、検討過程のうちにおいて共通項目も多く、本報告ではひとつにまとめた形とした。

目次に戻る