FormadoKolegioj kaj universitatoj

Kio estas Tekstaro Lingvistiko?

Nur kelkaj jardekoj por aŭtomatigi la lingva esploro, sciencistoj povis nur revi. La laboro estis farita mane, ĝi altiras grandan nombron da studentoj, ekzistas granda verŝajneco "senzorga" eraroj, kaj plej grave - ĉiuj ĉi prenis longan, longan tempon.

Kun la evoluo de komputila teknologio fariĝis ebla por fari esploradon en la ordo de grando pli rapide, kaj hodiaŭ unu el la plej promesplenaj direktoj en la studo de lingvo estas tekstaro lingvistiko. Lia ĉefa karakteriza estas la uzo de grandaj kvantoj de teksto informoj, informoj en unu datumbazo, en speciala maniero kaj vokis la akcentitan korpo.

Ĝis nun, estas multaj konstruaĵoj kreitaj kun malsamaj celoj surbaze de diversaj lingvaj materialoj spanning de milionoj al dekoj da miliardoj da leksika unuoj. Tiu direkto estas rekonita kiel esperiga kaj montras signifan progreson al la apliko kaj esplorceloj. Fakuloj, iel traktanta natura lingvo, ĝi rekomendas konatigxi kun la korpo de tekstoj almenaŭ je baza nivelo.

Historio de corpus linguistics

La formado de ĉi tiu tendenco estas pro la kreo de Usono ĉe Brown korpon en la frua 60-ies de la lasta jarcento. La kolekto inkluzivas la tekstojn de ĉiuj 1 miliono de vorto formoj, kaj hodiaŭ la korpo de ĉi tiu grandeco estus plene konkuraj. Tio estas plejparte pro la rapideco da evoluo de komputila teknologio, tiel kiel la kreskantaj postuloj por novaj esploroj rimedoj.

En la 90aj korpuslingvistiko elvenis en plena kaj sendependa disciplino, kolekto de tekstoj estis tiritaj supren kaj markita por dekoj da lingvoj. En ĉi tiu periodo ĝi estis kreita, ekzemple, la brita Nacia Tekstaro 100 milionoj ĵetonoj.

Kun la disvolviĝo de ĉi tiu kampo de lingvistiko, tekstoj volumoj pli kaj pli (kaj atingi miliardojn da vortaro unuoj), kaj la aranĝo iĝas pli diversaj. Ĝis nun, la interreto spaco povas trovi kadavrojn skribita kaj parolata lingvo, multlingva, kaj lernado orientita artaj aŭ akademiaj literaturo, kaj ankaŭ multaj aliaj specioj.

Kiuj estas la loĝejo

Korpo tipoj en la korpo lingvistikon povas esti provizita por pluraj kialoj. Intuicie, la bazo por la klasifiko povas esti teksto lingvo (rusa, germana), la aliro modon (malfermita fonto, fermita, komerca), la varo de la fonto materialo (fikcio, dokumenta filmo, akademiaj, ĵurnalismo).

Interesaj maniero generas materialoj de parola lingvo. Ekde la intenca registradon de tiaj parolado krei artefaritan medion por la respondantoj, kaj la rezultanta materialo povis nomi "spontaneaj", moderna korpuslingvistiko iris la alia vojo. Volontulo estas ekipita kun mikrofono, kaj dum la tago produktis rekordon de ĉiuj konversacioj, en kiu partoprenas. Homoj ĉirkaŭ kompreneble eble ne scias, ke en la kurso de la ĉiutaga konversacio kontribuas al la disvolviĝo de la scienco.

Poste ricevis rekordon stokita en la datumbazo kaj estas akompanitaj de presita teksto transskribaĵo tipo. Tiel, ĝi iĝas ebla markado bezonis krei parolan ĉiutaga parolado loĝado.

aplikaĵo

Kie ajn ebla la uzo de lingvo, kaj eble la uzo de konstruaĵoj tekstoj. Metodoj por apliki la kasko en lingvistikon Eble:

  • Kreante programon determini la ŝlosilo, estas vaste uzata en la politiko kaj negoco por konservi trako de pozitivaj kaj negativaj respondoj de balotantoj kaj klientoj, respektive.
  • Ligo informsistemo por vortaroj kaj tradukistoj por plibonigi lia okupas.
  • Gamo da esploro taskoj kiuj kontribuas al la kompreno de la lingvo unuo, la historio de lia disvolviĝo kaj antaŭdiro de ŝanĝoj en la proksima estonteco.
  • Evoluo de inform-akiro sistemoj surbaze de la morfologiaj, sintaksaj, semantikaj kaj aliaj trajtoj.
  • Optimumigo de la malsamaj lingvaj sistemoj kaj aliaj.

Uzo de konstruaĵoj

simila rimedo interfaco kun tipa serĉilo, kaj pelas la uzanto eniri vorto aŭ kombino de vortoj por serĉi la informo bazo. Krom formi la ĝusta serĉvorto povas uzi la plibonigita versio, kiu permesas trovi laŭteksta informo sur preskaŭ ajna lingva kriterioj.

serĉo bazo povas esti:

  • membreco de aparta grupo de partoj de parolo;
  • gramatikaj trajtoj;
  • semantiko;
  • estilística kaj emocia kolorigo.

Vi ankaŭ povas kombini serĉo kriterioj por sekvenco de vortoj, ekzemple, trovi ĉiujn okazojn de la verbo en la prezenco, unua persono singulara, kiu venas post la prepozicio "en" kaj la substantivo en la kazo akuzativo. La solvo al tia simpla tasko prenas la uzanton kelkaj sekundoj kaj postulas nur kelkaj musklakoj en la specifita kampoj.

La procezo de kreado

La serĉado mem povas esti efektivigita sur ĉiuj subcorpus kaj unu specife elektita, depende de la bezonoj en atingi difinitan celon:

  1. La unua paŝo estas difini kio tekstoj formas la bazon por la kazo. Por praktikaj celoj, oni ofte uzataj ĵurnala, novaĵoj, enreta komentoj. La esplorprojekto estas la uzo de vasta gamo de pako tipoj, sed la teksto devus esti elektitaj laŭ iuj komunaj grundo.
  2. La rezulta kolekto de tekstoj submetita al pretreatment, estas korekto de eraroj, se entute, preparita de bibliografiaj kaj ekstra-lingva priskribo de la teksto.
  3. Forigas ĉiuj ne-laŭteksta informo: Forviŝas la grafiko, bildoj, tabeloj.
  4. Ĉu atribuon de signoj, kiuj estas tipe parolado, por plua prilaborado.
  5. Fine, ĝi portis morfologiaj, sintaksaj kaj aliaj markoj akiris plureco de elementoj.

La rezulto de ĉiuj transakcioj faritaj de sintaksa strukturo kun distribuita tie pluralidad de elementoj, ĉiu el kiu estas identigita parolparto, gramatikaj kaj, en iuj kazoj, la semantika atributoj.

Malfacilaĵoj en kreado konstruaĵoj

Gravas kompreni, ke ne sufiĉas kunmeti aro de vortoj aŭ frazoj por la korpo. Unuflanke, kolekto de tekstoj devas esti ekvilibra, tio estas, reprezenti malsamajn tipojn de tekstoj en certaj proporcioj. Sur la alia - la enhavo de la areo devus esti interspacigitaj en speciala maniero.

La unua problemo estas solvita per interkonsenton: ekzemple, en la kolekto inkludas 60% de literaturaj tekstoj, la 20% de dokumenta filmoj, iu procento donas skriba reprezento de la parolata lingvo, leĝaro, sciencaj verkoj, ktp perfekta recepto ekvilibrigita korpo hodiaŭ ne ekzistas ...

La dua demando, pri la enhavo aranĝo, solvi defia. Ekzistas specialaj programoj kaj algoritmoj uzitaj por aŭtomata markiloj de tekstoj, sed ili ne donas perfekta rezulto, povas kaŭzi ĉesigoj kaj postulas manlibron reverki. Ŝancoj kaj defioj en traktado tiun problemon estas priskribita en detalo en paperan V. p Zaharova de tekstaro lingvistiko.

Teksto markado estas implementado en pluraj niveloj, kiujn ni listigas sube.

morfologian etikedanta

De lernejo, ni memoras ke en la rusa lingvo, ekzistas diversaj partoj de parolado, kaj ĉiu el ili havas sian propran karakterizaĵoj. Ekzemple, la verbo havas kategoriojn de deklivo kaj la epoko en kiu neniu substantivo. denaska parolanto senhezite decline substantivoj kaj konjugita verboj, sed por marki la korpo de 100 milionoj. ĵetonoj manlaboro ne funkcios. Ĉiujn necesajn operacioj povas ekzekuti la komputilo, tamen, por tio ĝi devas esti instruita.

Morfologia etikedanta, la komputilo devas "kompreni" ĉiu vorto kiel certa parolparto havanta certaj gramatikaj trajtoj. Ekde la rusa (kaj ajna alia lingvo) funkcias kelkaj regula reguloj, eblas konstrui aŭtomata procedo por la morfologia analizo, renversante en la aŭto dum kelkaj algoritmoj. Tamen, ekzistas esceptoj al la regulo, kaj ankaŭ diversaj kompliki faktoroj. Rezulte, reto komputila analizo de hodiaŭ estas malproksime de idealo, kaj eĉ 4% eraro rendimenta valoro de 4 mln. Vortoj en la korpo de 100 milionoj. Unuoj, postulante manlibron reverki.

Detala libro priskribas la problemon Zaharova V. p "Tekstaro Lingvistiko".

sintaksaj komentario

Sintaksa analizo aŭ sintaksa analizo - proceduro kiu determinas la rilaton de vortoj en frazo. Uzante aron de algoritmoj eblas determini la tekston de subjekto, predikato, aldonoj, multoblajn turnoj de parolado. Eltrovu kiuj vortoj estas la ĉefa sekvenco, kaj kiu - dependaj, oni povas efike ekstrakti informon de teksto kaj por instrui la maŝino emisii responde al serĉo peto nur la informon interesa ni.

Parenteze, moderna serĉiloj uzi tiun por doni specifajn nombrojn anstataŭ longeca tekstoj en respondo al gravaj demandoj kiel "kiom da kalorioj en pomon" aŭ "la distanco de Moskvo al Sankt-Peterburgo." Tamen, por kompreni eĉ la fundamentojn de la procezo priskribita de la bezono konsulti la «Enkonduko al la Corpus Linguistics" aŭ alia baza lernilo.

semantika markado

La semantiko de la vorto - estas, en simplaj terminoj, la signifo. Vaste aplikebla alproksimiĝo al la semantika analizo de vorto atribuite etikedoj, reflektante lia aparteno al aro de semantika kategorioj kaj subkategorioj. Tia informo valora por optimizando algoritmoj analizi tekston tono, aŭtomata summarization kaj aliaj taskoj metodoj de tekstaro lingvistiko.

Estas nombro de "radikoj" de la arbo, kiu reprezentas abstraktan vorton kun tre larĝa semantiko. Kiel branĉo de la arbo nodoj formiĝas, kiu enhavas pli kaj pli specifa leksikajn elementojn. Ekzemple, la vorto "besto" povas esti asociita kun konceptoj kiel "homa" kaj "besto". La unua vorto daŭre disbranĉigi eksteren en malsamaj profesioj, parenceco kondiĉoj, nacieco, la dua - sur klasoj kaj specoj de animaloj.

La uzado de inform-akiro sistemoj

Areoj de uzo de corpus linguistics kovri diversaj kampoj de agado. Domaroj estas uzataj por la preparo kaj korekto de vortaroj, krei aŭtomatigita traduksistemoj, annotating, prenado faktoj, determinante la tono kaj aliaj tekstoj prilaborado.

Krome, tiaj rimedoj estas aktive uzita en la studo de mondlingvoj kaj mekanismoj de funkciado de lingvo ĝenerale. Aliro al grandaj volumoj de antaŭ-preta informo faciligas rapidan kaj ampleksa studo de la tendencoj de evoluo lingvoj, kaj stabilan formado neologismoj parolado rapido ŝanĝo valoroj leksika unuoj kaj aliaj.

Ekde la laboro kun tiaj grandaj kvantoj de datumoj postulas aŭtomatigo, hodiaŭ ekzistas proksime interago inter la komputilo kaj tekstaro lingvistiko.

Rusa Nacia Tekstaro

Ĉi tiu kazo (mallongigita NKRYA) inkludas kelkajn subcorpus, permesante la uzo de rimedo por vasta gamo da taskoj.

La materialoj en la datumbazo estas dividitaj NKRYA:

  • al publikigadoj en la amaskomunikiloj de la 90 kaj 2000-aj jaroj, tiel naciaj kiel fremdaj;
  • registradon parolado;
  • aktsentologicheski markitaj tekstoj (tio, la markoj de streso);
  • dialekto parolado;
  • poezio;
  • Materialoj kun sintaksa kaj aliaj markoj.

La informsistemo ankaŭ inkludas Subcorpus kun paralelaj tradukoj de verkoj de la rusa al la angla, germana, franca kaj multaj aliaj lingvoj (kaj inverse).

Ankaŭ en la datumbazo estas sekcio de historiaj tekstoj, reprezentanta la skribita parolado ruse en malsamaj periodoj de lia disvolviĝo. Ankaŭ ekzistas trejnado korpo, kiu povas esti utila por eksterlandaj civitanoj en majstranta la rusa lingvo.

Rusa Nacia Tekstaro konsistas 400 milionoj leksika unuoj, kaj en multaj manieroj antaŭ signifa parto de la lingvoj de Eŭropo korpoj.

perspektivojn

Fakte favore al la rekono de ĉi tiu tendenco estas la havebleco de promesante laboratorio korpuslingvistiko ruse universitatoj, kaj ankaŭ fremdaj. Kun la uzo de kaj esplorado en la kadro de ĉi tiu informo kaj serĉo rimedoj kunportas la disvolviĝo de iuj areoj en la kampo de altaj teknologioj, demando-respondante sistemojn, sed estas diskutita supre.

Pluevoluigo de tekstaro lingvistikon estas antaŭvidita je ĉiuj niveloj, kiu iras de teknika kaj laŭ efektivigo de novaj algoritmoj kiuj optimumigi la procezoj de serĉado kaj procesante informoj, povigado komputiloj, pli RAM kaj konsumanto, ĉar uzantoj estas pli kaj pli manieroj por uzi ĉi tiun tipon de rimedo en ilia ĉiutaga vivo kaj laboro.

Konklude

Meze de la lasta jarcento en 2017 ŝajnis malproksima estonteco, kie kosmoŝipoj vojaĝi tra la universo kaj robotoj faras la tutan laboron por la popolo. Fakte, la scienco estas plena je "blankaj makuloj" kaj farante senesperaj provoj por respondi la demandojn de la homaro dum jarcentoj ĝeni. Demandoj funkcianta de lingvo tie okupas lokon de honoro, kaj kabineto kaj komputilan lingvistikon povas helpi respondi ilin.

Procesorado de grandaj aroj de datumoj povas detekti mastrojn, antaŭe nealirebla, antaŭdiri la evoluon de specifa lingvo karakterizaj por spuri la formado de vortoj en preskaŭ reala tempo.

Sur praktika nivelo, la tutmonda areoj povas vidi, ekzemple, kiel potenciala ilo por taksi la publika humoro - interreto estas konstante ĝisdatigita ĉiutage diversaj tekstoj kreitaj de veraj uzantoj: ĉi rimarkojn kaj recenzojn, kaj artikolojn, kaj multaj aliaj formoj de parolado.

Krome, laborante kun korpoj kontribuas al la disvolviĝo de la sama aparataro, kiuj estas implikitaj en inform-akiro, ni bone konas la servon "Google" aŭ "Yandex", maŝintradukado, elektronikaj vortaroj.

Ni povas senhezite aserti, ke la tekstaro lingvistikon faras nur la unuajn paŝojn, kaj en la proksima estonteco floros.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 eo.birmiss.com. Theme powered by WordPress.