天天看點

計算機語言stir,世界語言資源平台

提供者:朱述承

簡介

冰島語解析曆史語料庫(IcePaHC)是一個曆史語料庫,具有從12世紀到現代所有時期的冰島語書面語樣本。該語料庫大多與UPenn開發的曆史英語語料庫相容。對于曆史文本來說,這裡的現代化拼寫是為了适應音位變化。

下載下傳位址

第9版内容

共計1,002,390詞

1150: Fyrsta málfræðiritgerðin (The First Grammatical Treatise) (4422 words)

1150: Íslensk hómilíubók (Icelandic book of homilies) (40943 words)

1210: Jarteinabók (10328 words)

1210: Þorláks saga helga (10868 words)

1250: Íslendinga saga (22805 words)

1250: Þetubrot Egils Sögu (Theta manuscript of Egils Saga) (3461 words)

1260: Jómsvíkinga saga (21133 words)

1270: Grágás. Lagasafn íslenska þjóðveldisins. (6203 words)

1275: Morkinskinna (25064 words)

1300: Alexanders saga (23356 words)

1310: Grettis saga Ásmundarsonar (20563 words)

1325: Árna saga biskups (19968 words)

1350: Bandamanna saga (Möðruvallabók text) (13618 words)

1350: Finnboga saga ramma (23036 words)

1350: Mörtu saga og Maríu Magdalenu (17241 words)

1400: Gunnars saga Keldugnúpsfífls (8770 words)

1400: Gunnars saga Keldugnúpsfífls - Part 2 (3164 words)

1400: Víglundar saga (13453 words)

1450: Bandamanna saga (Konungsbók text) (11560 words)

1450: Ectors saga (21063 words)

1450: Júditarbók (6562 words)

1450: Vilhjálms saga Sjóðs (23132 words)

1475: Miðaldaævintýri (18084 words)

1480: Jarlmanns saga og Hermanns (14482 words)

1525: Erasmus saga (Reykjahólabók) (8589 words)

1525: Georgíus saga (Reykjahólabók) (20092 words)

1540: Nýja Testamenti Odds Gottskálkssonar (The New Testament of Oddur Gottskálksson), Postulanna Gjörningar (Acts of the Apostles) (16550 words)

1540: Nýja Testamenti Odds Gottskálkssonar (The New Testament of Oddur Gottskálksson), S. Jóhannis Guðspjöll (Gospel of St. John) (20925 words)

1593: Eintal sálarinnar við sjálfa sig (23327 words)

1611: Okur (15481 words)

1628: Reisubók séra Ólafs Egilssonar (17199 words)

1630: Fimmtíu heilagar hugvekjur Meditationes sacrae (12698 words)

1650: Illuga saga Tagldarbana (20921 words)

1659: Píslarsaga séra Jóns Magnússonar (9825 words)

1661: Reisubók Jóns Ólafssonar Indíafara (23031 words)

1675: Móðars þáttur (3845 words)

1675: Söguþáttur af Ármanni og Þorsteini gála (11228 words)

1675: Um ætt Magnúsar Jónssonar (3187 words)

1680: Sögu-þáttur um Skálholts biskupa fyrir og um siðaskiptin. (10281 words)

1720: Vídalínspostilla (23016 words)

1725: Biskupasögur Jóns prófasts Halldórssonar í Hítardal (22297 words)

1745: Nikulás Klím (22038 words)

1790: Fimmbræðra saga (18860 words)

1791: Ævisaga síra Jóns Steingrímssonar (22369 words)

1830: Hellismanna saga (14988 words)

1835: Um eðli og uppruna jarðarinnar (On the Nature and Origin of the Earth) (3257 words)

1850: Piltur og stúlka (17844 words)

1859: Fimtíu hugvekjur út af pínu og dauða Drottins vors Jesú Krists (20530 words)

1861: Sagan af Heljarslóðarorrustu (20336 words)

1882: Brynjólfur Sveinsson biskup (27342 words)

1883: Hans Vöggur (1927 words)

1888: Grímur kaupmaður deyr (7241 words)

1888: Vordraumur (10753 words)

1902: Upp við fossa (20647 words)

1907: Leysing (20613 words)

1908: Ofurefli (20262 words)

1920: Árin og eilífðin. Prédikanir eftir Harald Níelsson (21234 words)

1985: Margsaga (22295 words)

1985: Sagan öll (20980 words)

2008: Ofsi (21144 words)

2008: Segðu mömmu að mér líði vel - saga um ástir - (21958 words)

使用說明

如果您使用Windows,最簡單的方法就是下載下傳IcePaHC for Windows并按照螢幕上的說明進行操作。适用于Windows的IcePaHC使用CorpusSearch運作查詢,是以除了此網頁外,還請閱讀CorpusSearch文檔。如果您使用IcePaHC for Windows,則無需輸入啟動程式的指令,隻需單擊桌面上的IcePaHC圖示即可。如果您沒有安裝Java,安裝将引導您進入Java下載下傳頁面。

由于語料庫使用标記的包圍格式,是以它與采用這種注釋的程式相容。我們推薦使用由UPenn的Beth Randall開發的CorpusSearch程式。如果您已将語料庫複制到目錄“/ home / chomsky / icepahc”并将CorpusSearch jar檔案儲存在“/ home / chomsky / corpussearch”中,則可以使用以下指令來使用語料庫中的查詢來搜尋語料庫名為datsubj.q的文本檔案。

java -classpath /home/chomsky/corpussearch/CS_2.002.75.jar csearch/CorpusSearch datsubj.q /home/chomsky/icepahc/*.psd

讓我們假設datsubj.q是一個查詢,它挑選出所有的和主語。該檔案可能如下所示:

node: IP*

query: (IPidoms NP-SBJ) AND (NP-SBJ idoms-D)

果使用這樣的檔案運作上面的指令,CorpusSearch将傳回一個名為datsubj.out的檔案,其語料庫中的所有語句都包含配詞主題。閱讀語料庫的CorpusSearch文檔和注釋準則,了解如何做更多。

請注意,将會有方法通過建立别名等來簡化指令,但這在不同的作業系統上會有所不同。閱讀CorpusSearch文檔入門以擷取更多資訊。