Praegune vajadus: Kas puhas SGML või "Flat ASCII"/TeX! (Now Needed: Either Pure SGML or Flat ASCII/TeX!)

2000.a. sügise-varatalve, 2001.a. hilistalve kogemused (Our Experiences in Late 2000, Early 2001) . . .

Esialgu, 2000.a. alguses või varemgi, olime ettevaatuse pärast seisukohal, et me ei julge vastu võtta MS Word ega WordPerfect'i binaarseid faile. Kunagi 2000 aasta jooksul leidsime, et saame neid formaate küll Linuxis lugeda, ja asusime seisukohale, et julgeme neid vastu võtta. Veel hiljem, 2000.a. lõpu poole ja 2001.a. alguses, rida pisikesi õnnetusi näitasid, et siiski binaarsed failid on ohtlikud, kuna (mitte tekst laias mastaabis, aga siiski) mõni nuanss võib kaduma minna. Niisiis oleme tagasi peaegu oma esialgsel seisukohal: ainult hoiatusega võtame me vastu MS Word'i ning WordPerfect'i. Kuid autorid neid meile saadame, teema oma parima, aga ei saa garanteerida, et kõik läheks laitmatult korda. (At first, early in 2000 or even earlier, we decided in a spirit of prudence that we did not dare accept Word or WordPerfect binary files. At some point in 2000, we found that we could read these formats without difficulty in Linux, and consequently adopted the position that we did dare accept these formats. Still later, toward the end of 2000 or at the beginning of 2001, a number of tiny accidents demonstrated to us that binary word processor files are still dangerous, since (not great chunks of text, but nevertheless little editorially significant nuances of formatting) can go astray. So we have returned almost to our initial position: only with a warning can we accept MS Word or WordPerfect. If authors send us materials in these formats, we'll do our best, but cannot guarantee total accuracy.)

Meie eelistatud tähestikkude menetlus (Our Preferred Format). . .

Eelistatud on 7-bittine (mitte 8-bittine) enkodeerimine SGML-i vormis. (We prefer texts encoded in 7-bit (not 8-bit) characters, using the format of SGML.)

Mis on 7-bittised karakterid? Need on põhiliselt need karakterid mis seisavad tavalisel QWERTY sõrmestikul. Nii me näeme QWERY'l näiteks a ning O ning sirged jutumärgid ", kuid mitte a-umlauti ega O-tildet ega kõveraid jutumärke. Viimatimainitud kolm spetsiaalset karakterit me toodame näiteks Microsoft Word'is mitte tavaliste klahvilöökidega, vaid mingisuguste klahvilöökide kombinatsioonidega, kasvõi "function key"-de abil. (What are 7-bit character? Those are basically those characters available on an ordinary QWERTY keyboard. We see, for example, on such a keyboard the a, the O, and the straight quotation marks ", but not a-umlaut, or the Estonian O-tilde, or curly quotation marks. The three special characters just mentioned are not produced with single QWERTY keystrokes, but with keystroke combinations, possibly using the "function keys.")

Mis on SGML ehk Standard Generalized Markup Language'i formaat? See on menetlus, kus spetsiaalseid karaktere realiseeritakse koodidega stiilis &fuufuu; ning &barrbarr;. Siin on naiteks ä kodeeritud ä, Õ kodeeritud Õ, kõverad jutumäargid eesti-norra stiilis (neid ei saa paraku veebil ette näidata) kodeeritud „ ning ”, ja kõverad jutumäargid « » eesti-prantsuse stiilis kodeeritud « ning ». (What is SGML or Standard Generalized Markup Language format? It is a coding style in which specialized characters are realized by codes in the style &foo; and &bar;. So, for example, ä is coded as ä, Õ as Õ, Estonian-Norwegian quotation marks (not reproducible on the Web) as „ and ”, and the Estonian-French quotation marks « » as « and ».)

Siin on terve tabel, ka arvude- ning mõttekriipsudega (here is a full table, including also the n-dash and m-dash):

Näide (example): MITTE „Talletasime õlsaid ämblikke öösel übrikutesse,” seletas Õpetatud Ärimeeste Ökoloogiline Ühistu. « Ka siis, kui töötatati aastail 1939-45--see oli imelik ajastu-- Shveitsis või Alzheerias.» VAID ”Talletasime õilsaid ämblikke öösel übrikutesse,” seletas Õpetatud &A;rimeeste Ökoloogiline Ühistu.« Ka siis, kui täötati aastail 1939–45—see oli imelik ajastu&mdaash;Šveitsis või Alžeerias.»

(English translation of this specimen Estonian discourse, which illustrates the full range of Estonian diacritical marks, plus Norwegian-Eestonian "high-low" quotation marks, plus French-Eestonian "guillemots" quotation marks: „We deposited certain noble-minded spiders into envelopes by night,” explained the Learned Enterpreneurs' Ecological Union. «Even when, in 1939-45--those were peculiar times--the work was performed in Switzerland or Algeria.»

Muidugi me ei oota, et keegi tipiks käsitsi koodid nagu ä. Igati piisav on toota näiteks ä Microsoft Wordis, siis kasutada Word'i "Search and Replace" rutiini et asendada igat ä'd koodiga ä, ja siis viimati salvestada oma tööd "Plain Text" formaadis. (Of course we do not expect that anyone will type out each such code as ä. It suffices to produce, for example, ä in Microsoft Word, to use the Word "Search and Replace" command to substitute ä for each occurrence of ä, and finally to save the document in "Plain Text" format.)

Varuvariant, neeile, kellele see eelistatud menetlus käib üle jõu (Alternative, for Persons Finding Our Preferred Format Too Difficult) . . . )

Loodame, et mitmed meie redigeerimise-ladumise toimkonnas tulevad kenasti toime SGML'iga. Autoritele oleks see aga küllaltki karm nõue. Ka toimkonnas võib leiduda neid, kellele SGML ei ole mugav. Siin siis varuvariant: vastuvõetav on ka TeX'i formaat. TeX on sobiv transporteerimise ning arhiivinduse formaat, sest ta on 7-, mitte 8-bittine, ja kergesti konverteeritav SGML'i Perl-i skripti ehk pisiprogrammiga.

(We hope that many in our editorial-production team will come to terms easily enough with SGML. For authors, admittedly, this will be a rather tough requirement. Here, then, is a fallback position: we are happy to take, in lieu of SGML, TeX format. TeX is an appropriate style for transport and archiving, since it uses 7-bit, not 8-bit, characters, and is easily convertible into SGML by means of a Perl script.)

Näide (example): ``Talletasime \~oilsaid \"amblikke \"o\"osel \"umbrikutesse,'' seletas \~Opetatud \"Arimeeste \"Okoloogiline \"Uhistu. ``Ka siis, kui t\"o\"otati aastail 1939\ndash45\mdashsee oli imelik ajastu\mdash\vSveitsis v\~oi Al\vzeerias.''

Kuidas toime tullakse 2001.a. kursiiviga, rasvase trükiga jms (How to Cope in the Year 2001 with Italics, Bolding, etc) . . .

Kui on midagi peent (kursiivi, rasvast trükki, . . . ) võib kasutada otse SGML DocBook Dokumenditüübi Definitsiooni koodi. Aga vaevalt meie töörühmal on selle dokumentatsioon ("DocBook: The Definitive Guide", Norman Walsh ja Leonard Muellner, O'Reilly 1999) kergesti käepärast. Nii et piisab pseudo-koodide kirjutamist. (When some delicate issue arises (italics, bolding, . . . ) one can use the SGML DocBook Document Type Definition code. But it is unlikely that the documentation for this SGML application ("DocBook: The Definitive Guide", Norman Walsh and Leonard Muellner, O'Reilly 1999) will be readily accessible to our team. So it suffices to write pseudo-tags.) Näide (example): This is <__BOLD>very heavy type, called rasvane in Estonian and bold in English</__BOLD>; and now we have turned bolding off. (That semicolon was NOT bold, since it appeared outside the tag-delimited area.) And here is some <__RASVANE> more bolding;</__> now we have again turned the bolding off. (This time, we bolded the semicolon.) (Notice that in writing pseudo-tags, we use a double underscore, and in general write <__FOO< and </__FOO> for some "FOO". It matters very little what word you use for "FOO", as long as your intention is clear. Since the tag is mere pseudo-SGML, it will be read by a human being, not a machine. So don't be afraid to be creative, as long as you are clear!) And finally, we turn <__ITALIQUES>italics on</__ITALIQUES> and off--using, in a spirit of sheer joie-de-vivre. a FOO en francais rather than in englische or estnische Sprache.


TAGASI koduleheküljele