(Translated by https://www.hiragana.jp/)
植村 要・山口 真紀・櫻井 悟史・鹿島 萌子「書籍のテキストデータ化にかかるコストについて」
ここをクリックするとページにひらがなのルビがつきます。
植村 要・山口 真紀・櫻井 悟史・鹿島 萌子「書籍のテキストデータ化にかかるコストについて」
障害学会第6回大会・
報告要旨 於:
立命館大学
20090927
◆報告要旨
植村 要*・山口 真紀*・櫻井 悟史*・鹿島 萌子* *立命館大学大学院先端総合学術研究科
「書籍のテキストデータ化にかかるコストについて」
<目的>
視覚障害者が活字書を読むには、音訳・点訳・テキストデータ化によって媒体を変更する必要がある。これは、多くの労力と時間がかかる作業である。今日、この作業の多くが、ボランティアによって担われている。
近年、書籍の製作に際して、組版がDTPによって行われるようになったことで、印刷用データからテキストデータを作成することが、比較的容易になった。これによって、一部の書籍には、奥付に「テキストデータ引換券」が添付され、これを読者が出版社に送ることによって、出版社から読者にテキストデータが提供されるようになった。また、「テキストデータ引換券」が添付されていない書籍であっても、直接連絡をすることでテキストデータを提供する出版社も複数存在する。
しかし、今日、新規に出版される書籍の全てがDTPで組版されているわけではない。また、DTPが開発される以前に出版された書籍には、いうまでもなく印刷用データはない。これらの書籍を視覚障害者が読もうとするなら、従来通り労力と時間を費やして、音訳・点訳・テキストデータ化をする必要がある。
本報告では、今日、そのほとんどが無償ボランティアによって担われている音訳・点訳・テキストデータ化のうち、テキストデータ化を取り上げて、この作業に費やされているコストを試算する。
<方法>
書籍のテキストデータ化は、まず、書籍をスキャナーで読み取り、それをOCRソフトでtxt形式に変換し、続いて、このデータ形式の変換の際に生じた文字の誤認識を修正するという手順で行う。
OCRソフトの文字の誤認識の程度を規定する要因には、字体、他言語やルビの混在の度合い、段組や図表の有無、紙質などがある。これらの要因の違いによるコストの変化を確認し、比較を行う。
◆報告原稿
書籍のテキストデータ化にかかるコストについて
障害学会第6回大会ポスター報告
植村要・山口真紀・櫻井悟史・鹿島萌子
T.目的
視覚障害者が紙に印刷された活字書を読むには、音訳・点訳・テキストデータ化によって媒体を変更する必要がある。テキストデータは、スクリーンリーダーをインストールしたパソコンを用いることで、視覚障害者にもそのまま読むことができる。また、点訳をする際にも、自動点訳ソフトを用いる今日の一般的な点訳の工程では、その作業の前段階としてテキストデータを作成しなければならない。加えて、今後の普及が期待されるDAISY3のコンテンツの作成においても、書籍のテキストデータを必要とする。本報告は、今後の視覚障害者の読書環境を整備する上で欠かすことのできない媒体として書籍のテキストデータを位置づけ、着目する。
近年、書籍の製作は、組版がDTP(Desktop Publishing)によって行われるようになったことで、印刷用データからテキストデータを作成することが比較的容易に可能になった。これによって、一部の書籍には、奥付に「テキストデータ引換券」が添付され、これを読者が出版社に送ることによって、出版社から読者にテキストデータが提供されるようになった。また、「テキストデータ引換券」が添付されていない書籍であっても、直接連絡をすることでテキストデータを提供する出版社も複数存在する。
しかし、DTPで組版されてはいても、テキストデータが提供されない書籍は多くある。テキストデータが提供されるか否かの対応は、出版社によって異なる場合もあれば、一つの出版社であっても書籍によって異なる場合もある。このように異なった対応がなされる背景について、植村は、印刷用データからテキストデータを作成するために要する人材と人件費などのコストの問題、出版社から読者に、および印刷所から出版社に向けられた提供したテキストデータの複製・改ざんおよび外部への流出への危惧などがあることを調査し、記述した。そして、これらが印刷技術、著作権法、コスト、出版社内のルールという四つの要素が関係して生じるものであることを明らかにした(植村 2008)。
一方、今日、新規に出版される書籍の全てがDTPで組版されているわけではない。また、DTPの技術が開発される以前に出版された書籍には、言うまでもなく印刷用データはない。これらの書籍を視覚障害者が読もうとするなら、従来通りの方法で音訳・点訳・テキストデータ化をする必要がある。したがって、音訳・点訳・テキストデータ化は、今後も当分のあいだなくならない作業といえる。
今日、この作業のほとんどが、ボランティアや、その視覚障害者の所属する団体によって、有償あるいは無償で担われている。ここには、この作業を担う主体として誰が正当であるかの問題、無償で行われることが正当であるかの問題、有償で行う場合の適切な対価についての問題がある。このうち、本報告では、作業に対する対価の問題を取り上げ、今後の考察に資するためのデータを提示する。
U.テキストデータ化の工程
テキストデータ化の作業は、次の工程で進められる。まず、書籍を電動裁断機で裁断し、イメージスキャナで読み取って画像ファイルにする。あるいは、書籍を裁断するには購入したものでなければならないため、全ページをコピーしてスキャンする。作成された画像ファイルを、OCR(Optical Character Reader)ソフトを用いてtxt形式の文字データに変換する。続いて、txt形式への変換の際に生じた文字の誤認識を、書籍に照らし合わせて修正する(石川, 立命館大学障害学生支援室 2009)。
視覚障害者の読書法としてのテキストデータ化には、石川が記すように、以下の音訳・点訳では得られない利点とともに、欠点もある(石川 2004)。
・利点:@本が手に入ったらすぐに読める。
A難解な文章も理解できる。
B速読できる。
C斜め読みできる。
D検索できる。
E編集できる。
F二次利用するのに便利である。
・欠点:@OCRソフトが文字を誤認識する。
A読み上げソフトが誤読する。
B自分では誤りを完全には校正できない。
欠点のうちAは、スクリーンリーダーの性能に関わる問題であるが、@とBは、テキストデータ化に固有の問題である。前記したテキストデータ化の工程のうち、この@とBに関わる作業、つまり、OCRソフトの文字の誤認識を視覚障害者以外の者が修正することが、テキストデータ化の中心的な作業の内容になる。
テキストデータ化の作業は、有償で行われている場合も、無償で行われている場合もある。作業に対して対価を支払うには、算定基準が定められなければならない。植村・青木・伊藤・山口(2007)が報告しているように、立命館大学が、在席する学部生・院生を対象に行っている文献のテキストデータ化作業に対する対価は、2006年度は自給、2007年度以降は原本のページ数を単位に算定している。
V.テキストデータ化に要する作業量
書籍をテキストデータ化する作業に費やされるコストを試算するために、実際に作業を行い、作業量をページ数と時間によって測定した。下記の図1は、スキャン→OCRの工程に要した作業量の記録である。図2は、OCRによって生じた文字の誤認識を修正する作業に要した作業量の記録である。図3は、1冊の書籍のテキストデータ化に要する金額を、ページ単位、時間単位の両方で試算した。ここにおいて、ページ単位では、立命館大学障害学生支援室が設定している基準、すなわち、本文は1ページ80円、目次や文献リストは1ページ200円とした。時間単位では、1時間1000円とした。
なお、図1と図2は、同一人物による作業であり、図3は、別人物による作業である。
(図1)
ページ枚数(ページ) |
スキャン(分) |
レイアウト(分) |
認識(分) |
80 |
3.3 |
25.41 |
7.23 |
50 |
2.26 |
9.21 |
4.43 |
50 |
2.07 |
13.22 |
5.01 |
50 |
2 |
14.08 |
4.45 |
50 |
2.1 |
12.35 |
4.5 |
50 |
1.49 |
10.58 |
4.4 |
50 |
2.11 |
8.57 |
4.48 |
50 |
2.09 |
12.59 |
6.06 |
20 |
1.01 |
6.01 |
4.21 |
(図2)
原本ページ |
校正時間(分) |
文字数(字) |
誤字(字) |
強調(箇所) |
pp152-161 |
41.37 |
9909 |
50 |
35 |
pp162-171 |
45.15 |
9709 |
85 |
19 |
pp172-181 |
46.49 |
9813 |
409 |
22 |
pp182-191 |
45.16 |
9497 |
841 |
14 |
pp192-201 |
39.48 |
9736 |
70 |
10 |
pp202-211 |
42.4 |
9585 |
109 |
17 |
pp212-221 |
38.23 |
9490 |
78 |
12 |
pp222-231 |
40.08 |
9898 |
150 |
13 |
(図3)
文献 |
文字数(字) |
時間(H) |
誤字(字) |
金額(ページ) |
金額(時間) |
A |
41.37 |
210 |
21 |
\16,800 |
\21,000 |
B |
45.15 |
295 |
29.5 |
\23,600 |
\29,500 |
C |
270607 |
308 |
30.75 |
\24,600 |
\30,750 |
D |
|
260 |
26 |
\20,800 |
\26,000 |
E |
243843 |
180 |
20 |
\16,000 |
\20,000 |
F |
204321 |
160 |
17 |
\13,600 |
\17,000 |
G |
321066 |
275 |
37.5 |
\30,000 |
\37,500 |
H |
226380 |
260 |
32 |
\25,600 |
\32,000 |
I |
300014 |
326 |
40.5 |
\32,400 |
\40,500 |
J |
196701 |
177 |
24.75 |
\19,800 |
\24,750 |
K |
160370 |
140 |
19 |
\15,200 |
\19,000 |
L |
139058 |
225 |
22.5 |
\18,000 |
\22,500 |
M |
|
235 |
23.5 |
\18,800 |
\23,500 |
N |
459152 |
386 |
40.5 |
\32,400 |
\40,500 |
O |
104784 |
198 |
19.75 |
\15,800 |
\19,750 |
P |
151984 |
237 |
22.75 |
\18,200 |
\22,750 |
Q |
314067 |
373 |
46.5 |
\37,200 |
\46,500 |
R |
19514 |
270 |
27 |
\21,600 |
\27,000 |
S |
205230 |
236 |
25.75 |
\20,600 |
\25,750 |
T |
380296 |
401 |
40 |
\40,000 |
強調(箇所) |
U |
255483 |
375 |
40.5 |
\32,400 |
\40,500 |
W.まとめ
算定基準として時間またはページを単位とする場合のそれぞれに利点と欠点があり、以下のようにまとめられる。
・時間単位の利点:書籍の形式やレイアウトによらず、作業に対して対価を支払うことができる。校正者の能力によらず、作業をしたという事実に対して対価を支払うことができる。
・時間単位の欠点:事前に対価の額の見通しが立たない。作業の熟練によって作業速度が異なる。同じ校正をしたとしても、校正者の作業速度によって対価が異なる(つまり、作業の遅い校正者ほど対価が増す)。
・ページ単位の利点:事前に対価の額の見通しが立つ。校正者の作業速度によらず対価が一定する。
・ページ単位の欠点:1ページの文字数が書籍によって異なる。字体、ページ内のルビ、飾り文字、他言語文字の混在の程度、罫線、段組、写真や図表の有無によって、スキャン→OCRの工程における文字の誤認識の程度が異なる。書籍の紙質によってスキャン→OCRの工程における文字の誤認識の程度が異なる。スキャン→OCRの工程における作業の丁寧さが、文字の誤認識の多寡を決める。
<文献リスト>
・石川准,「OCRによるハイテク読書法の紹介」,
(http://fuji.u-shizuoka-ken.ac.jp/~ishikawa/newread.htm)
・石川准, 2004, 『見えないものと見えるもの――社交とアシストの障害学』医学書院.
・立命館大学障害学生支援室, 2009, 「資料編 テキスト校正ガイドブック」青木慎太朗編『視覚障害学生支援技法』(立命館大学生存学研究センター,生存学研究センター報告6).
・植村要, 2008, 「出版社から読者へ、書籍テキストデータの提供を困難にしている背景について」『Core Ethics』4:13-24.
・植村要・青木慎太朗・伊藤実知子・山口真紀, 2007, 「立命館大学における視覚障害のある大学院生への支援についての1事例 (視覚障害学生支援の技法・2)」障害学会第4回大会ポスター発表.
*作成: