The WrocUT Language Technology Group G4.19

Announcements

plWordNet 1.5 released

We are pleased to announce the release of Polish WordNet, plWordNet 1.5. The resource has been built from scratch, following the general model of Princeton WordNet. See http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf for a detailed discussion of the first stage of the construction, completed in 2009. The latest version of plWordNet, with 73000 lexical units, 103000 unique senses and 150000 relation instances, is among the largest such systems not translated from Princeton WordNet.


Read more...

Oferta pracy

Na stanowisku Programista – pracownik badawczy, Miejsce Pracy: Wrocław, Politechnika Wrocławska.


Read more...

O nas

Jesteśmy akademicką grupą naukową skupiającą osoby zainteresowane obszarami lingwistyki, lingwistyki informatycznej oraz inżynierii języka naturalnego włączając w to zagadnienia technologii językowych. Grupę G4.19 tworzą naukowcy, doktoranci oraz studenci. Nasz zespół funkcjonuje głównie w ramach Zakładu Sztucznej Inteligencji Instytutu Informatyki Politechniki Wrocławskiej, ale członkami naszej grupy są również osoby związane z innymi uczelniami i na stałe przebywające w Ottawie, Warszawie i Gdańsku. Zajmujemy się prowadzeniem badań naukowych oraz rozwojem i wdrażaniem narzędzi do komputerowego przetwarzania języka naturalnego. Szczególnie zależy nam na rozwoju podstawowych narzędzi i zasobów językowych dla języka polskiego.

Nasze zainteresowania obejmują:

  • konstrukcję wordnetu — rodzaju elektronicznego tezaurusa — dla języka polskiego (Słowosieć) w oparciu o półautomatyczną metodą zastosowaną do bardzo dużych korpusów języka polskiego (zbiorów dokumentów napisanych w języku polskim), opracowana metoda jest stosowane pod kontrolą zespołu lingwistów w ramach opracowanych przez nas narzędzi do edycji wordnetu (WordnetLoom) i półautomatycznego rozszerzania wordnetu (WordnetWeaver)
  • automatyczne wydobywanie wiedzy o semantyce leksykalnej z korpusów tekstu — w tym algorytmów do automatycznego pozyskiwania relacji semantycznych wiążących słowa z dużych korpusów tekstu.
  • analizę morfo-syntaktyczną — w tym szczególnie tzw. tagowaniem, czyli ujednoznacznianiem opisu morfo-syntaktycznego słów w tekścieskonstruowaliśmy i rozwijamy tagera dla języka polskiego o nazwie TaKIPI,
  • płytką analiza składniowa — rozwój narzędzi do płytkiej analizy składniowej dla języka polskiego,
  • rozstrzyganie niejednoznaczności leksykalnej (ang. word sense disambiguation),
  • ekstrakcję informacji — rozpoznawanie jednostek identyfikacyjnych, relacji i zdarzeń w dokumentach dziedzinowych,
  • rozpoznawanie pisma ręcznego — na poziomie analizy obrazów oraz na poziomie późniejszej korekty wyników rozpoznania w oparciu o różnego rodzaju modele językowe budowane na podstawie korpusów tekstu.


Zrealizowaliśmy i obecnie realizujemy szereg projektów badawczych finansowanych przez Ministerstwo Nauki i Szkolnictwa Wyższego oraz Unię Europejską, np.:

  • "Półautomatyczna konstrukcja zasobów leksykalnych przez rozpoznawanie relacji semantycznych na podstawie danych morfo-syntaktycznych i semantycznych w korpusach tekstu"
  • "Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych"

[zobacz realizowane projekty]


Udostępniamy szereg narzędzi i zasobów językowych dla języka polskiego:

  • Słowosieć -- wordnet dla języka polskiego, dostępny pod adresem http://plwordnet.pwr.wroc.pl,
  • TaKIPI -- tager dla języka polskiego dostępny na licencji GPL, do pobrania z http://nlp.pwr.wroc.pl/takipi/,
  • usługi internetowe: TaKIPI-WS, plWordNet-WS i SuperMatrix-WS.

[zobacz pełną listę narzędzi]

 

Jesteśmy częścią europejskiej sieci naukowej CLARIN oraz koordynujemy działania polskiej podsieci CLARIN.

Nasza misja

  • prowadzenie badań naukowych w dziedzinie lingwistyki informatycznej i inżynierii języka naturalnego ze szczególnym uwzględnieniem specyfiki języka polskiego,
  • rozwój i wdrażanie narzędzi do komputerowego przetwarzania języka polskiego,
  • konstrukcja i upowszechnianie zasobów językowych dla języka polskiego,
  • szeroka współpraca naukowa w budowie podstawowych zasobów i narzędzi językowych dla języka polskiego,
  • popularyzacja wiedzy o zastosowaniach metod lingwistyki komputerowej i inżynierii języka naturalnego w różnych dziedzinach nauki.