2021年1月10日日曜日

リポジトリって何だ?

論文や資料をインターネットで探しているとリポジトリというカタカナ日本語によくお目にかかる。最近の現象である。先ごろも朝河貫一について調べていて、早稲田大学レポジトリを知った。大学の説明によると「教職員、学生、研究員、校友などが作成した知的生産物をデジタル化し永続的に保存・公開するための電子的なシステム」である。早稲田大学の場合、システムの管理は大学図書館が行っている。これまで個人的な費用や努力によって、研究成果を公表していた研究者にとっては嬉しい制度だと思う。何年か前だが、書店で知人の博士論文が著書として刊行されたのを見つけたが、七千円であった。学術書の値段はどういうふうにして決まるのか知らないが、著者の長年にわたる研鑽の価値の表象にはちがいないから他人が高いの安いのといえるわけがない。それがリポジトリであれば無料で読めると喜ぶのは勝手すぎるが、無償で広く知られるということにも価値がある。著作権のうち複製権と公衆送信権を図書館に認めることで公開が可能になり、著作権まで譲ることではないらしい(筑波大学の説明)。こういう事情を知って、これまで何であるかを知らないままに利用していたリポジトリの役割が理解できた。

その一方で私はコンピューター・プログラミング用語にもリポジトリがあることを知っていたので、大学図書館のリポジトリとどこかで繋がっているように思われた。それで素人なりにあれやこれやと調べはじめた。

ネット上のIT用語辞典のひとつには、「リポジトリとは、容器、貯蔵庫、倉庫、集積所、宝庫などの意味を持つ英単語。日本語の外来語としては、複数(多数)のデータや情報などが体系立てて保管されているデータベース(学術機関の「機関リポジトリ」など)のことを指すことが多い。」と大要を説き、使われ方に、プロジェクト管理やバージョン管理に用いるリポジトリとシステム管理に用いるリポジトリの二通りの例があがっている。90年代の終り頃、町内会の会合で学者の方がリレーショナル・データベースを使えばそんなのはわけないですよ、と発言して煙に巻かれたことなど思い出した。IT用語辞典もデータベースのことを指すことが多いというからには、何も事新しくリポジトリを使う必要はなさそうにも思えるが、実務上はそうもいかないようだ。

現在進行しつつある日本の学術機関リポジトリの普及は、2006/7年に国立情報学研究所が学術機関リポジトリ構築連携支援事業(CSI委託事業)として各大学の機関リポジトリ形成を支援したことに始まるらしい。(注:CSIは、Cyber Science Infrastructureの略語。最先端学術情報基盤と訳される。)

もともとはアメリカの大学が学術雑誌の価格高騰に対処するためと研究果実を広く周知させるためオープン・アクセス方式を構築することを目的として開発された。アメリカの図書館のオンライン検索の進展などを調べているとクリフォード・A・リンチという人物が浮かび上がる。長らくカリフォリニア大学の図書館長だった彼が電子化の推進者であったようだ。この人はコンピューター学のPh.Dである。次の米国教育省サイトで、カリフォルニア大学におけるリンチ氏ほか1名による実施可能性研究(1990年6月20日)の概要が紹介されている。ここにはまだリポジトリの語は見当たらないが、「データベースのディレクトリ」が同様の意味で使われている。

https://eric.ed.gov/?id=ED354003

霞が関リポジトリ構想という文書を見つけた。発行元は総務省、平成22年3月の文書とことだ。沿革を含めた解説もあって参照資料として便利である。それから10年以上経っているがこの文書がどのように使われたのかさっぱりわからない。リポジトリが政府文書を扱う場合には非公開の部分にも対処しなくてはならないと明記されてあるのも興味深い。オープン・アクセスをうたいながらも隠すべきは隠すべしとあるのは人権配慮のことならいいのだが。URLを次に書いておく。https://www.soumu.go.jp/main_content/000537359.pdf

『文藝春秋新年号』に『東洋経済オンライン』でcovid-19のデータ分析を読者にわかりやすく伝えている荻原和樹さんについての記事があった。そのウエブサイトは見事にグラフで埋められている。データとコードソースはGITHUBで公開している、と書いてある。したがって、そこに発表されている資料は誰でも自由に利用できるわけである。現実に操作ができる医師たちは感染対策に非常に重宝しているという。当方は全くのシロートでグラフをいじる技がないので、まず言葉の意味GitHubから探ることになる。例えば、あるサイトで調べると、

Gitは、自分のパソコンなどのローカル環境に、サーバー上にあるリポジトリの複製が作成されます。サーバー上にあるリポジトリをリモートリポジトリ(共有リポジトリ)、ローカル環境に複製されたリポジトリをローカルリポジトリと呼びます。ローカルリポジトリにはすべての変更履歴がコピーされるので、ローカル環境のままで、サーバーに接続しているのと同様に作業することができます。GitHubは、GitHub社という企業によって運営され、個人や法人を問わず利用できるWebサービスです。

という説明があって、Gitを使ってエンジニアを支援するWebサービスがGitHubであると結論される。東洋経済オンラインでは、現実の医師たちに大いに助かりますと喜ばれている。荻原氏の仕事はデータ・ジャーナリズムとよばれる。プログラマーの技術を持ちながら世の人々にデータをわかりやすく興味深く説明したいという目的があるそうだ。ちなみに東洋経済オンラインでは、「新型コロナウイルス 国内感染の状況」という特設ページにグラフを署名入で掲載し、昨年2月28日から毎日更新している。https://toyokeizai.net/sp/visual/tko/covid19/

それはそれとして、リポジトリが頻々と出てきた。ここにいうリポジトリでは、日々のプログラム作業では加除訂正が頻繁になされても、以前のを抹消することなくその都度新版が記録されて累積される。必要なら訂正前の旧版に戻れるというほどの意味がわかればいい。このような仕組みを上述のクリフォード・リンチが文字言語の学術情報に応用しようとしたのが、学術機関レポジトリの起源であろう。

リポジトリは英語のrepositoryのこと、日本語ではレポジトリと書く場合もある。英語の意味は集積所とか貯蔵所とか、納骨堂にいたるまでいろいろの場所であり、もとの動詞の休む、休ませる、などのreposeにもとづいている。モノを集めて用途に合わせて置いておく場所だ。英語ではどんな用途に使ってもrepositoryの表記は変わらないが、用途を示す形容詞がつけられるのが普通のようだ。日本語ではリポジトリそのものを何らかの漢字にしてしまう。逆に言えば使いみちによって新しい表記を作らなくてはならない。使いみちが増えるにつれて意味が周知された語彙が足りなくなる。しかたがないからカタカナのまま使う。解説書などには最近は工夫してパッケージ・リポジトリ(配布所)のように表記している。この場合パッケージは既知の対象物である。大学のリポジトリは、Institutional Repository(機関リポジトリ)と表記するが、機関はすでにして学術機関の略である。日本語の語彙は融通無碍なのだ。上例はどちらも使用する場面が限定され、いつでもどこでもという具合にはいかない。また、文章ではよしとしても、音声では意味が取りにくい。喋る側はその都度、聞く側で用途を判断せぇ、というわけだ。意味を表す漢字で外来語を表示した明治人は知恵者であったが、書物を通じての外国が相手だったからそれで間に合っただけのことだ。その後遺症は未だに続いている。 

こんな事をくよくよ考え始めたのは、大学図書館のシステムに使われているリポジトリが、コンピューター・プログラムの説明にも出てくるから戸惑ったためである。違う世界に同じ言葉があるという感じだ。けれどもリンチ氏の考え方を知れば同質だと理解できる。運用される場が違うだけだ。あるサイトには、プログラム言語のリポジトリは機関リポジトリとは別であると書いてあるが、違うとも同じとも言える。ずいぶん考えてみたが、実りのないことであった。下手な考え休むに似たりとは言うけれど、休むどころかくたびれた。 

(2021/1)