(Translated by https://www.hiragana.jp/)
植村 要・山口 真紀・櫻井 悟史・鹿島 萌子「書籍のテキストデータ化にかかるコストについて」
HOME > 全文ぜんぶん掲載けいさい

ここをクリックするとページにひらがなのルビがつきます。

植村うえむら かなめ山口やまぐち 真紀まき櫻井さくらい 悟史さとし鹿島かしま 萌子もえこ書籍しょせきのテキストデータにかかるコストについて」

障害しょうがい学会がっかいだいかい大会たいかい報告ほうこく要旨ようし 於:立命館大学りつめいかんだいがく
20090927


報告ほうこく要旨ようし

 植村うえむら かなめ*・山口やまぐち 真紀まき*・櫻井さくらい 悟史さとし*・鹿島かしま 萌子もえこ* *立命館大学りつめいかんだいがく大学院だいがくいん先端せんたん総合そうごう学術がくじゅつ研究けんきゅう
 「書籍しょせきのテキストデータにかかるコストについて」

目的もくてき
 視覚しかく障害しょうがいしゃ活字かつじしょむには、音訳おんやく点訳てんやく・テキストデータによって媒体ばいたい変更へんこうする必要ひつようがある。これは、おおくの労力ろうりょく時間じかんがかかる作業さぎょうである。今日きょう、この作業さぎょうおおくが、ボランティアによってになわれている。
 近年きんねん書籍しょせき製作せいさくさいして、組版くみはんがDTPによっておこなわれるようになったことで、印刷いんさつようデータからテキストデータを作成さくせいすることが、比較的ひかくてき容易よういになった。これによって、一部いちぶ書籍しょせきには、奥付おくづけに「テキストデータ引換ひきかえけん」が添付てんぷされ、これを読者どくしゃ出版しゅっぱんしゃおくることによって、出版しゅっぱんしゃから読者どくしゃにテキストデータが提供ていきょうされるようになった。また、「テキストデータ引換ひきかえけん」が添付てんぷされていない書籍しょせきであっても、直接ちょくせつ連絡れんらくをすることでテキストデータを提供ていきょうする出版しゅっぱんしゃ複数ふくすう存在そんざいする。
 しかし、今日きょう新規しんき出版しゅっぱんされる書籍しょせきすべてがDTPで組版くみはんされているわけではない。また、DTPが開発かいはつされる以前いぜん出版しゅっぱんされた書籍しょせきには、いうまでもなく印刷いんさつようデータはない。これらの書籍しょせき視覚しかく障害しょうがいしゃもうとするなら、従来じゅうらいどお労力ろうりょく時間じかんついやして、音訳おんやく点訳てんやく・テキストデータをする必要ひつようがある。
 ほん報告ほうこくでは、今日きょう、そのほとんどが無償むしょうボランティアによってになわれている音訳おんやく点訳てんやく・テキストデータのうち、テキストデータげて、この作業さぎょうついやされているコストを試算しさんする。
方法ほうほう
 書籍しょせきのテキストデータは、まず、書籍しょせきをスキャナーでり、それをOCRソフトでtxt形式けいしき変換へんかんし、つづいて、このデータ形式けいしき変換へんかんさいしょうじた文字もじ誤認ごにん識を修正しゅうせいするという手順てじゅんおこなう。
 OCRソフトの文字もじ誤認ごにん識の程度ていど規定きていする要因よういんには、字体じたい言語げんごやルビの混在こんざい度合どあい、だんぐみ図表ずひょう有無うむ紙質かみしつなどがある。これらの要因よういんちがいによるコストの変化へんか確認かくにんし、比較ひかくおこなう。

報告ほうこく原稿げんこう

書籍しょせきのテキストデータにかかるコストについて

障害しょうがい学会がっかいだい6かい大会たいかいポスター報告ほうこく
植村うえむらかなめ山口やまぐち真紀まき櫻井さくらい悟史さとし鹿島かしま萌子もえこ


T.目的もくてき

 視覚しかく障害しょうがいしゃかみ印刷いんさつされた活字かつじしょむには、音訳おんやく点訳てんやく・テキストデータによって媒体ばいたい変更へんこうする必要ひつようがある。テキストデータは、スクリーンリーダーをインストールしたパソコンをもちいることで、視覚しかく障害しょうがいしゃにもそのままむことができる。また、点訳てんやくをするさいにも、自動じどう点訳てんやくソフトをもちいる今日きょう一般いっぱんてき点訳てんやく工程こうていでは、その作業さぎょうぜん段階だんかいとしてテキストデータを作成さくせいしなければならない。くわえて、今後こんご普及ふきゅう期待きたいされるDAISY3のコンテンツの作成さくせいにおいても、書籍しょせきのテキストデータを必要ひつようとする。ほん報告ほうこくは、今後こんご視覚しかく障害しょうがいしゃ読書どくしょ環境かんきょう整備せいびするじょうかすことのできない媒体ばいたいとして書籍しょせきのテキストデータを位置いちづけ、着目ちゃくもくする。
 近年きんねん書籍しょせき製作せいさくは、組版くみはんがDTP(Desktop Publishing)によっておこなわれるようになったことで、印刷いんさつようデータからテキストデータを作成さくせいすることが比較的ひかくてき容易ようい可能かのうになった。これによって、一部いちぶ書籍しょせきには、奥付おくづけに「テキストデータ引換ひきかえけん」が添付てんぷされ、これを読者どくしゃ出版しゅっぱんしゃおくることによって、出版しゅっぱんしゃから読者どくしゃにテキストデータが提供ていきょうされるようになった。また、「テキストデータ引換ひきかえけん」が添付てんぷされていない書籍しょせきであっても、直接ちょくせつ連絡れんらくをすることでテキストデータを提供ていきょうする出版しゅっぱんしゃ複数ふくすう存在そんざいする。
 しかし、DTPで組版くみはんされてはいても、テキストデータが提供ていきょうされない書籍しょせきおおくある。テキストデータが提供ていきょうされるかかの対応たいおうは、出版しゅっぱんしゃによってことなる場合ばあいもあれば、ひとつの出版しゅっぱんしゃであっても書籍しょせきによってことなる場合ばあいもある。このようにことなった対応たいおうがなされる背景はいけいについて、植村うえむらは、印刷いんさつようデータからテキストデータを作成さくせいするためにようする人材じんざい人件じんけんなどのコストの問題もんだい出版しゅっぱんしゃから読者どくしゃに、および印刷所いんさつしょから出版しゅっぱんしゃけられた提供ていきょうしたテキストデータの複製ふくせいかいざんおよび外部がいぶへの流出りゅうしゅつへの危惧きぐなどがあることを調査ちょうさし、記述きじゅつした。そして、これらが印刷いんさつ技術ぎじゅつ著作ちょさくけんほう、コスト、出版しゅっぱん社内しゃないのルールというよっつの要素ようそ関係かんけいしてしょうじるものであることをあきらかにした(植村うえむら 2008)。
 一方いっぽう今日きょう新規しんき出版しゅっぱんされる書籍しょせきすべてがDTPで組版くみはんされているわけではない。また、DTPの技術ぎじゅつ開発かいはつされる以前いぜん出版しゅっぱんされた書籍しょせきには、うまでもなく印刷いんさつようデータはない。これらの書籍しょせき視覚しかく障害しょうがいしゃもうとするなら、従来じゅうらいどおりの方法ほうほう音訳おんやく点訳てんやく・テキストデータをする必要ひつようがある。したがって、音訳おんやく点訳てんやく・テキストデータは、今後こんご当分とうぶんのあいだなくならない作業さぎょうといえる。
 今日きょう、この作業さぎょうのほとんどが、ボランティアや、その視覚しかく障害しょうがいしゃ所属しょぞくする団体だんたいによって、有償ゆうしょうあるいは無償むしょうになわれている。ここには、この作業さぎょうにな主体しゅたいとしてだれ正当せいとうであるかの問題もんだい無償むしょうおこなわれることが正当せいとうであるかの問題もんだい有償ゆうしょうおこな場合ばあい適切てきせつ対価たいかについての問題もんだいがある。このうち、ほん報告ほうこくでは、作業さぎょうたいする対価たいか問題もんだいげ、今後こんご考察こうさつするためのデータを提示ていじする。

U.テキストデータ工程こうてい

 テキストデータ作業さぎょうは、つぎ工程こうていすすめられる。まず、書籍しょせき電動でんどう裁断さいだん裁断さいだんし、イメージスキャナでって画像がぞうファイルにする。あるいは、書籍しょせき裁断さいだんするには購入こうにゅうしたものでなければならないため、ぜんページをコピーしてスキャンする。作成さくせいされた画像がぞうファイルを、OCR(Optical Character Reader)ソフトをもちいてtxt形式けいしき文字もじデータに変換へんかんする。つづいて、txt形式けいしきへの変換へんかんさいしょうじた文字もじ誤認ごにん識を、書籍しょせきらしわせて修正しゅうせいする(石川いしかわ, 立命館大学りつめいかんだいがく障害しょうがい学生がくせい支援しえんしつ 2009)。
 視覚しかく障害しょうがいしゃ読書どくしょほうとしてのテキストデータには、石川いしかわしるすように、以下いか音訳おんやく点訳てんやくではられない利点りてんとともに、欠点けってんもある(石川いしかわ 2004)。

利点りてん:@ほんはいったらすぐにめる。
A難解なんかい文章ぶんしょう理解りかいできる。
Bそく読できる。
Cななみできる。
D検索けんさくできる。
E編集へんしゅうできる。
F利用りようするのに便利べんりである。

欠点けってん:@OCRソフトが文字もじあやま認識にんしきする。
Aげソフトが誤読ごどくする。
B自分じぶんではあやまりを完全かんぜんには校正こうせいできない。

欠点けってんのうちAは、スクリーンリーダーの性能せいのうかかわる問題もんだいであるが、@とBは、テキストデータ固有こゆう問題もんだいである。前記ぜんきしたテキストデータ工程こうていのうち、この@とBにかかわる作業さぎょう、つまり、OCRソフトの文字もじ誤認ごにん識を視覚しかく障害しょうがいしゃ以外いがいもの修正しゅうせいすることが、テキストデータ中心ちゅうしんてき作業さぎょう内容ないようになる。
 テキストデータ作業さぎょうは、有償ゆうしょうおこなわれている場合ばあいも、無償むしょうおこなわれている場合ばあいもある。作業さぎょうたいして対価たいか支払しはらうには、算定さんてい基準きじゅんさだめられなければならない。植村うえむら青木あおき伊藤いとう山口やまぐち(2007)が報告ほうこくしているように、立命館大学りつめいかんだいがくが、在席ざいせきする学部がくぶせい院生いんせい対象たいしょうっている文献ぶんけんのテキストデータ作業さぎょうたいする対価たいかは、2006年度ねんど自給じきゅう、2007年度ねんど以降いこう原本げんぽんのページすう単位たんい算定さんていしている。

V.テキストデータようする作業さぎょうりょう

 書籍しょせきをテキストデータする作業さぎょうついやされるコストを試算しさんするために、実際じっさい作業さぎょうおこない、作業さぎょうりょうをページすう時間じかんによって測定そくていした。下記かき1は、スキャン→OCRの工程こうていようした作業さぎょうりょう記録きろくである。2は、OCRによってしょうじた文字もじ誤認ごにん識を修正しゅうせいする作業さぎょうようした作業さぎょうりょう記録きろくである。3は、1さつ書籍しょせきのテキストデータようする金額きんがくを、ページ単位たんい時間じかん単位たんい両方りょうほう試算しさんした。ここにおいて、ページ単位たんいでは、立命館大学りつめいかんだいがく障害しょうがい学生がくせい支援しえんしつ設定せっていしている基準きじゅん、すなわち、本文ほんぶんは1ページ80えん目次もくじ文献ぶんけんリストは1ページ200えんとした。時間じかん単位たんいでは、1あいだ1000えんとした。
 なお、1と2は、どう一人物いちじんぶつによる作業さぎょうであり、3は、べつ人物じんぶつによる作業さぎょうである。

1)

ページ枚数まいすう(ページ) スキャン(ぶん レイアウト(ぶん 認識にんしきぶん
80 3.3 25.41 7.23
50 2.26 9.21 4.43
50 2.07 13.22 5.01
50 2 14.08 4.45
50 2.1 12.35 4.5
50 1.49 10.58 4.4
50 2.11 8.57 4.48
50 2.09 12.59 6.06
20 1.01 6.01 4.21

2)

原本げんぽんページ 校正こうせい時間じかんぶん 文字数もじすう 誤字ごじ 強調きょうちょう箇所かしょ
pp152-161 41.37 9909 50 35
pp162-171 45.15 9709 85 19
pp172-181 46.49 9813 409 22
pp182-191 45.16 9497 841 14
pp192-201 39.48 9736 70 10
pp202-211 42.4 9585 109 17
pp212-221 38.23 9490 78 12
pp222-231 40.08 9898 150 13

3)

文献ぶんけん 文字数もじすう() 時間じかん(H) 誤字ごじ 金額きんがく(ページ) 金額きんがく(時間じかん)
A 41.37 210 21 \16,800 \21,000
B 45.15 295 29.5 \23,600 \29,500
C 270607 308 30.75 \24,600 \30,750
D 260 26 \20,800 \26,000
E 243843 180 20 \16,000 \20,000
F 204321 160 17 \13,600 \17,000
G 321066 275 37.5 \30,000 \37,500
H 226380 260 32 \25,600 \32,000
I 300014 326 40.5 \32,400 \40,500
J 196701 177 24.75 \19,800 \24,750
K 160370 140 19 \15,200 \19,000
L 139058 225 22.5 \18,000 \22,500
M 235 23.5 \18,800 \23,500
N 459152 386 40.5 \32,400 \40,500
O 104784 198 19.75 \15,800 \19,750
P 151984 237 22.75 \18,200 \22,750
Q 314067 373 46.5 \37,200 \46,500
R 19514 270 27 \21,600 \27,000
S 205230 236 25.75 \20,600 \25,750
T 380296 401 40 \40,000 強調きょうちょう箇所かしょ
U 255483 375 40.5 \32,400 \40,500

W.まとめ

 算定さんてい基準きじゅんとして時間じかんまたはページを単位たんいとする場合ばあいのそれぞれに利点りてん欠点けってんがあり、以下いかのようにまとめられる。

時間じかん単位たんい利点りてん書籍しょせき形式けいしきやレイアウトによらず、作業さぎょうたいして対価たいか支払しはらうことができる。校正こうせいしゃ能力のうりょくによらず、作業さぎょうをしたという事実じじつたいして対価たいか支払しはらうことができる。
時間じかん単位たんい欠点けってん事前じぜん対価たいかがく見通みとおしがたない。作業さぎょう熟練じゅくれんによって作業さぎょう速度そくどことなる。おな校正こうせいをしたとしても、校正こうせいしゃ作業さぎょう速度そくどによって対価たいかことなる(つまり、作業さぎょうおそ校正こうせいしゃほど対価たいかす)。

・ページ単位たんい利点りてん事前じぜん対価たいかがく見通みとおしがつ。校正こうせいしゃ作業さぎょう速度そくどによらず対価たいか一定いっていする。
・ページ単位たんい欠点けってん:1ページの文字数もじすう書籍しょせきによってことなる。字体じたい、ページないのルビ、かざ文字もじ言語げんご文字もじ混在こんざい程度ていど罫線けいせんだんぐみ写真しゃしん図表ずひょう有無うむによって、スキャン→OCRの工程こうていにおける文字もじ誤認ごにん識の程度ていどことなる。書籍しょせき紙質かみしつによってスキャン→OCRの工程こうていにおける文字もじ誤認ごにん識の程度ていどことなる。スキャン→OCRの工程こうていにおける作業さぎょう丁寧ていねいさが、文字もじ誤認ごにん識の多寡たかめる。

文献ぶんけんリスト>
石川いしかわじゅん,「OCRによるハイテク読書どくしょほう紹介しょうかい」,
(http://fuji.u-shizuoka-ken.ac.jp/~ishikawa/newread.htm)
石川いしかわじゅん, 2004, 『えないものとえるもの――社交しゃこうとアシストの障害しょうがいがく医学書院いがくしょいん.
立命館大学りつめいかんだいがく障害しょうがい学生がくせい支援しえんしつ, 2009, 「資料しりょうへん テキスト校正こうせいガイドブック」青木あおきまき太朗たろうへん視覚しかく障害しょうがい学生がくせい支援しえん技法ぎほう』(立命館大学りつめいかんだいがく生存せいぞんがく研究けんきゅうセンター,生存せいぞんがく研究けんきゅうセンター報告ほうこく6).
植村うえむらかなめ, 2008, 「出版しゅっぱんしゃから読者どくしゃへ、書籍しょせきテキストデータの提供ていきょう困難こんなんにしている背景はいけいについて」『Core Ethics』4:13-24.
植村うえむらかなめ青木あおきまき太朗たろう伊藤いとうみのる知子ともこ山口やまぐち真紀まき, 2007, 「立命館大学りつめいかんだいがくにおける視覚しかく障害しょうがいのある大学院生だいがくいんせいへの支援しえんについての1事例じれい (視覚しかく障害しょうがい学生がくせい支援しえん技法ぎほう・2)」障害しょうがい学会がっかいだいかい大会たいかいポスター発表はっぴょう.

作成さくせい
UP:20090904 REV:20090921
全文ぜんぶん掲載けいさい  ◇障害しょうがい学会がっかいだい6かい大会たいかい  ◇障害しょうがい学会がっかいだい6かい大会たいかい報告ほうこく要旨ようし
TOP HOME (http://www.arsvi.com)