OntoLex - OntoLex

OntoLex - сөздік қорының қысқаша атауы лексикалық ресурстар мәліметтер желісінде (OntoLex-Lemon) және оны құрған W3C қауымдастық тобының қысқаша атауы (W3C Ontology-Lexica Community Group).[1]

OntoLex-Lemon лексикасы

OntoLex-Lemon лексикасы лексикалық деректерді а ретінде жариялауға арналған сөздік қорды ұсынады білім графигі, ішінде RDF форматы және / немесе Лингвистикалық байланысты мәліметтер. W3C қауымдастығы есебі ретінде жарияланғаннан бастап 2016 ж[2], ол «Интернеттегі онтология-лексиканы ұсынудың нақты стандарты» ретінде қызмет етеді.[3] OntoLex-Lemon - бұл бастапқыда МакКрей және басқалар ұсынған лимонның сөздік қорын қайта қарау. (2011).[4]

Cурет 1. OntoLex-Lemon негізгі моделі

1-суретте көрсетілген OntoLex-Lemon негізгі элементтері:

  • лексикалық кіру: лексиканы талдау бірлігі, бір немесе бірнеше формалар мен бір немесе бірнеше сезімдерді топтастыру, респ. ұғымдар. Қосымша морфосинтактикалық ақпарат бере алады, мысалы, сөйлеудің бір бөлігі. Әрбір лексикалық жазба ең көп дегенде бір сөйлеу бөлігіне ие бола алатындығына назар аударыңыз, өйткені формалары бірдей, бірақ әртүрлі сөйлеу бөліктері бар лексикалық жазбалар топтарын ұсыну үшін лексикография модулін қараңыз.[5]
  • лексикалық форма: белгілі бір лексикалық жазбаның беткі формасы, мысалы, оның жазбаша көрінісі
  • лексикалық мағына: белгілі бір лексикалық кірістің сөз мағынасы. OntoLex-Lemon сезім мүшелері екенін ескеріңіз лексикаландырылған, яғни олар дәл бір лексикалық жазбаға жатады. Әр түрлі лексемалар арқылы білдіруге болатын мағына элементтері үшін лексикалық ұғымды қолданыңыз.
  • лексикалық ұғым: әр түрлі лексикаландырумен мағыналық элементтер. Типтік мысал - бірнеше синоним сөздерді бір жиынтыққа біріктіретін WordNet синсеттері.

Негізгі модульден басқа (аттар кеңістігі http://www.w3.org/ns/lemon/ontolex# ), басқа модульдер лексиканың метадеректерін ұсынуға арналған лексиканы көрсетеді[6] (аттар кеңістігі http://www.w3.org/ns/lemon/lime# ), лексика-семантикалық қатынастар (мысалы, аударма және вариация, кеңістік http://www.w3.org/ns/lemon/vartrans# ), көп сөз тіркестері (ыдырау, аттар кеңістігі http://www.w3.org/ns/lemon/decomp# ) және синтаксистік фреймдер (атау кеңістігі) http://www.w3.org/ns/lemon/synsem# ).

OntoLex-Lemon мәліметтер құрылымын басқа сөздік форматтарымен салыстыруға болады (төменде қатысты сөздіктерді қараңыз). OntoLex-Lemon туралы инновациялық элемент - бұл RDF сөздік қоры сияқты деректер моделін ұсынады, өйткені бұл жеке сөздіктерге емес, веб-технологияларға негізделген жаңа жағдайларды пайдалануға мүмкіндік береді (мысалы, аударма туралы қорытынды, төмендегі қосымшаларды қараңыз). Жақын болашақта OntoLex-Lemon қалады бірегей Бұл рөлде (лингвистикалық) байланысты ашық деректер қауымдастығы қолданыстағы сөздіктерді қайта қолдануға шақырады[7] және 2019 жылдың желтоқсанындағы жағдай бойынша OntoLex-Lemon - бұл мақсатқа сай құрылған жалғыз сөздік (яғни W3C немесе басқа стандарттау бастамасы). Бұл сондай-ақ OntoLex-Lemon спецификациясының жақында кеңейтілуінен көрінеді, мұнда OntoLex-Lemon-ді қолданудың жаңа салаларына кеңейту үшін жаңа модульдер жасалған:

  • W3C қауымдастық тобының есебі ретінде жарияланған OntoLex-Lemon лексикография модулі,[8] OntoLex-Lemon цифрлық лексикографияның талаптарына қатысты қолданылады.
  • OntoLex-Lemon Morfology Module, 2019 жылдың желтоқсан айынан бастап,[9][10] морфологиялық бай тілдер үшін OntoLex-Lemon, мысалы, көптілділікті жеңілдетуге бағытталған
  • OntoLex-Lemon модулі, жиілік, аттестаттау және корпус туралы ақпарат, әзірлену үстіндегі 2019 жылдың желтоқсан айындағы жағдай бойынша,[11][12], OntoLex-Lemon-ді компьютерлік лексикография мен табиғи тілді өңдеуде қолдануды жеңілдетуге бағытталған
  • LexInfo жаңартулары: LexInfo OntoLex-Lemon деректері үшін деректер санаттарын ұсынады. Қазіргі уақытта (қаңтар 2020 ж.) LexInfo жаңартылуда, 3.0 нұсқасы бұрынғы Monnet-Lemon сөздік қорына тәуелді болмайды.[13]

Қолданбалар

OntoLex-Lemon контексіндегі лексикалық ресурстар үшін кеңінен қолданылады Лингвистикалық байланысты мәліметтер. Таңдалған қосымшаларға кіреді

  • OASIS лексикографиялық инфрақұрылымдық деректер моделі және API (LEXIDMA), халықаралық өзара әрекеттесетін лексикографиялық жұмыс үшін негіз[14]
  • Еуропалық көп тілді білім инфрақұрылымы[15][16]
  • Lex0, байланыстырылған деректер қоры ретінде (көп тілді) лексикалық және терминологиялық ресурстарды құру және басқару үшін қолданылатын бірлескен веб-редактор[17]
  • VocBench, онтологияларды, тезаурилерді, лексикаларды және RDF деректерін басқаруға арналған веб-негізделген, көптілді, бірлескен даму платформасы[18][19][20]
  • Lexicala API by K Сөздіктер, 50 тілдің және 150 тілдік жұптың лингвистикалық мәліметтеріне қол жетімділікті ұсынады.[21]
  • DiTMAO, ескі окситандық медициналық-ботаникалық терминология сөздігін жасау үшін жасалған лексикографиялық редактор[22]
  • сөздіктер бойынша аударма жасау туралы ортақ тапсырмалар сериясы (TIAD-2017)[23][24], TIAD-2019[25][26], TIAD-2020[27])
  • DBnary, RDF басылымының 16 тілдегі басылымы Уикисөздік[28][29]
  • PanLex, шамамен 2500 сөздіктерден және 500-ден астам тілдерден тұратын ауқымды лексикалық желі[30]
  • Принстон WordNet 3.1, ағылшын тіліне арналған ауқымды, иерархиялық және реляциялық құрылымдық лексикалық қор[31]
  • Дүниежүзілік WordNet қауымдастығы, көптілді шығаруға, сақтауға және өзара байланыстыруға арналған қоғамдастықтың күш-жігері WordNets[32]
  • BabelNet, ауқымды көп тілді лексикалық желі[33][34]
  • LiLa, дәйексөз формаларының жиынтығынан тұратын үлкен лексиконға негізделген латын тілінің білім қоры[35][36][37]

OntoLex-ті дамыту онтологияға, байланысты мәліметтерге немесе лексикографияға арналған ғылыми іс-шараларда үнемі шешіліп отырады. 2017 жылдан бастап OntoLex модулі бойынша белгіленген семинарлар сериясы екі жылда бір рет өткізіліп тұрады.[38]

Байланысты лексика

Лексикалық ресурстарды стандарттауға және жариялауға бағытталған өзара байланысты сөздіктер жатады ДИКТ (мәтіндік формат), XML сөздігі eXchange форматы, TEI-Dict (XML) және Лексикалық белгілеу шеңбері (дерексіз модель, әдетте, XML-де серияланған; лимон лексикасы LMF-нің RDF сериялануынан пайда болған). OntoLex-Lemon осы алдыңғы модельдерден айырмашылығы - жергілікті Байланыстырылған ашық деректер лексикасы бұл машинада оқылатын сөздіктердің құрылымы мен семантикасын (жай) ресімдемейді, бірақ олардың арасындағы ақпараттық интеграцияны жеңілдетуге арналған.

Әдебиеттер тізімі

  1. ^ «OntoLex қауымдастық порталы». W3C. Алынған 6 желтоқсан 2019.
  2. ^ Симиано, Филлип; МакКрей, Джон П .; Буйтелаар, Пауыл. «Онтологияның лексикондық моделі: қауымдастық туралы есеп, 10 мамыр 2016 ж. Қорытынды топтық есеп 10 мамыр 2016 ж.». W3C. Алынған 6 желтоқсан 2019.
  3. ^ Джулия Боске-Гил, Хорхе Грация және Елена Монтиел-Понсода (2017 ж. Шілде). «OntoLex-тегі лексикография модуліне қарай» (PDF). Кернерман сөздігі (25). Алынған 5 сәуір 2020.
  4. ^ МакКрей, Джон; Спор, Деннис; Cimiano, Филипп (2011). «Семантикалық желідегі лексикалық ресурстар мен онтологияларды лимонмен байланыстыру». Кеңейтілген семантикалық веб-конференция материалдары (ESWC-2011), Ираклион, Греция: 245–259.
  5. ^ Боск-Гил, Джулия; Грация, Хорхе. «OntoLex лимон лексикография модулі». W3C. Алынған 6 желтоқсан 2019.
  6. ^ Фиорелли, Мануэль; Стеллато, Армандо; МакКрей, Джон П .; Симиано, Филипп; Пазиенца, Мария Тереза ​​(2015). Гандон, Фабиен; Сабу, Марта; Қап, Харальд; д’Амато, Клаудия; Кудре-Мауру, Филипп; Циммерманн, Антуан (ред.) «LIME: OntoLex үшін метадеректер модулі». Семантикалық желі. Соңғы аванстар және жаңа домендер. Информатика пәнінен дәрістер. Springer International Publishing. 9088: 321–336. дои:10.1007/978-3-319-18818-8_20. ISBN  978-3-319-18818-8.
  7. ^ «Лингвистикалық байланыстырылған ашық деректер. Лингвистикалық байланысты ашық деректер бұлтының қазіргі жағдайы туралы ақпарат». Алынған 10 желтоқсан 2019.
  8. ^ Боск-Гил, Джулия; Грация, Хорхе. «OntoLex лимон лексикография модулі. Қоғамдық топтың қорытынды есебі 17 қыркүйек 2019 ж.». W3C. Алынған 10 желтоқсан 2019.
  9. ^ «Морфология». Алынған 10 желтоқсан 2019.
  10. ^ Климек, Беттина; МакКрей, Джон П .; Боск-Гил, Джулия; Ионов, Максим; Таубер, Джеймс К .; Чиаркос, христиан. Морфологияны онтологиялық лексикаларда бейнелеудегі қиындықтар, Косем, И., Зингано Кун, Т., Коррея, М., Феррерия, Дж.П., Янсен, М., Перейра, И., Каллас, Дж., Якубичек, М. ., Krek, S. & Tiberius, C. (eds.) 2019. 21 ғасырдағы электрондық лексикография. ELex 2019 конференциясының материалдары. 1-3 қазан 2019, Синтра, Португалия (PDF). Брно: Лексикалық есептеуіш CZ, s.r.o. 570-591 бет.
  11. ^ «Жиілік, аттестаттау және корпус туралы ақпарат». Алынған 10 желтоқсан 2019.
  12. ^ Чиаркос, христиан; Ионов, Максим. «OntoLex-Lemon жиілігі, аттестациясы және корпус туралы ақпарат модулі (спецификация жобасы)». Алынған 9 сәуір 2020.
  13. ^ «LexInfo - OntoLex-Lemon үшін деректер категориясының онтологиясы». Алынған 4 қаңтар 2020.
  14. ^ цензура. «Қатысуға шақыру: OASIS лексикографиялық инфрақұрылымдық деректер моделі және API (LEXIDMA) TC». OASIS. Алынған 10 желтоқсан 2019.
  15. ^ Шмитц, П .; Франческони, Е .; Хадлауи, Н .; Батуш, Б .; Stellato, A. (2018). Автоматты карта жасау арқылы көп тілді ресурстардың мағыналық өзара әрекеттестігі, Электрондық үкімет және ақпараттық жүйелер перспективасы бойынша халықаралық конференция. Чам: Спрингер. 153–163 бет.
  16. ^ Батуш, Брахим; Шмитц, Питер; Франческони, Энрико; Хадлауи, Надже (02.02.2018). ПМКИ - көп тілді білім. PMKI деректер моделінің құжаттамасы Инфрақұрылым (PDF). Еуропалық техникалық сипаттама. Алынған 10 желтоқсан 2019. Күннің мәндерін тексеру: | күні = (Көмектесіңдер)
  17. ^ Ленардич, Якоб. «CLARIN-IT LexO-ны ұсынады: лексикография семантикалық вебпен кездесетін жерде». КЛАРИН. Алынған 10 желтоқсан 2019.
  18. ^ AIMS тобы. «VocBench нұсқасының 4.0.2 нұсқасы 2018 жылдың тамызында шығарылды». Италиядағы БҰҰ ФАО. Алынған 10 желтоқсан 2019.
  19. ^ Стеллато, Армандо; Раджбхандари, Сахит; Турбати, Андреа; Фиорелли, Мануэль; Караксиоло, Катерина; Лоренцетти, Тизиано; Кейцер, Йоханнес; Пазиенца, Мария Тереза ​​(2015). Гандон, Фабиен; Сабу, Марта; Қап, Харальд; д’Амато, Клаудия; Кудре-Мауру, Филипп; Циммерманн, Антуан (ред.) «VocBench: көптілді тезаурилерді бірлесіп дамытуға арналған веб-қосымша» (PDF). Семантикалық желі. Соңғы аванстар және жаңа домендер. Информатика пәнінен дәрістер. Springer International Publishing. 9088: 38–53. дои:10.1007/978-3-319-18818-8_3. ISBN  978-3-319-18818-8.
  20. ^ «VocBench 3: Онтология, тезаури және лексиконға арналған семантикалық веб-редактор | www.semantic-web-journal.net». semantic-web-journal.net. Алынған 2020-01-17.
  21. ^ Илан Кернерман және Дориэлле Лонке (шілде 2019). «Lexicala API: сөздік деректеріндегі жаңа дәуір» (PDF). Кернерман сөздігі (27). Алынған 5 сәуір 2020.
  22. ^ «Ескі окситандық медициналық-ботаникалық терминология сөздігі». Алынған 10 желтоқсан 2019.
  23. ^ «TIAD-2017 ортақ тапсырмасы - сөздіктер арасында аударма жасау. Қатысуға шақыру». Алынған 10 желтоқсан 2019.
  24. ^ МакКрей, Джон П .; Бонд, Фрэнсис; Буйтелаар, Пол; Симиано, Филипп; Деклерк, Тьерри; Грация, Хорхе; Кернерман, Илан; Монтиель Понсода, Елена; Ордан, Ноам; Пиасацки, Мачей (18.06.2017). LDK 2017 семинарларының материалдары: OntoLex моделі бойынша бірінші семинар (OntoLex-2017), сөздіктер мен аудармаларға аударма жасау бойынша ортақ тапсырма және Wordnets үшін шақырулар. CEUR. Алынған 10 желтоқсан 2019.
  25. ^ «TIAD 2019. Сөздіктер бойынша екінші аударма қорытындысы (TIAD) ортақ тапсырма». Алынған 10 желтоқсан 2019.
  26. ^ Грация, Хорхе; Қабаши, Бесім; Кернерман, Илан (20 мамыр, 2019). TIAD-2019 жалпы тапсырмасы - сөздіктер бойынша аударма қорытындысы. Лейпциг, Германия: CEUR.
  27. ^ «TIAD 2020 - сөздіктер арасындағы екінші аударма қорытындысы (TIAD) ортақ тапсырма».
  28. ^ «Dbnary Уикисөздігі лингвистикалық байланысты ашық деректер ретінде». Алынған 10 желтоқсан 2019.
  29. ^ Sérasset, Gilles (2016). «DBnary: Уикисөздік RDF-тегі лимонға негізделген көп тілді лексикалық қор ретінде». Семантикалық веб. Алынған 10 желтоқсан 2019.
  30. ^ Камхольц, Дэвид; Бассейн, Джонатан; Colowick, Susan M. (2014). PanLex: 9-шы тілдік ресурстар мен бағалау конференциясы (LREC-2014), Рейкьявик, Исландия, мамыр 2014 ж., Panlingual лексикалық аударма үшін қор құру.. Еуропалық тілдік ресурстар қауымдастығы. 3145–3150 бет. Алынған 10 желтоқсан 2019.
  31. ^ «Принстон WordNet 3.1. WordNet RDF». Алынған 10 желтоқсан 2019.
  32. ^ «Ғаламдық Wordnet форматтары: RDF». Алынған 10 желтоқсан 2019.
  33. ^ «BabelNet SPARQL соңғы нүктесі». Алынған 10 желтоқсан 2019.
  34. ^ Эрман, М .; Секциони, Ф .; Ванелла, Д .; МакКрей, Дж.П .; Симиано, П .; Навигли, Р. Көптілді деректерді байланыстырылған деректер ретінде ұсыну: BabelNet 2.0 жағдайы. In: 9-шы тілдік ресурстар және бағалау конференциясының материалдары (LREC-2014), Рейкьявик, Исландия, мамыр 2014 ж.. Еуропалық тілдік ресурстар қауымдастығы. 401–408 бб. Алынған 10 желтоқсан 2019.
  35. ^ «LiLa SPARQL соңғы нүктесі». Алынған 4 сәуір 2020.
  36. ^ «LiLa сұранысының интерфейсі». Алынған 4 сәуір 2020.
  37. ^ Пассаротти, МС .; Чекчини, Ф.М .; Францини, Г .; Литта, Э .; Мамбрини, Ф .; Руффоло, П. LiLa: Латынды байланыстыру. Тілдік ресурстар және NLP құралдары туралы білім қоры. In: Тіл, деректер және білім бойынша екінші конференция материалдары (LDK 2019), Лейпциг, Германия, 20-23 мамыр 2019 ж.. CEUR семинарының материалдары. Алынған 4 сәуір 2020.
  38. ^ Симиано, Филиппия (2017 ж. Шілде). «OntoLex 2017 - OntoLex моделі бойынша бірінші семинар» (PDF). Кернерман сөздігі (25). Алынған 5 сәуір 2020.

Сыртқы сілтемелер

  • [1] OntoLex-Lemon сипаттамасы
  • [2] OntoLex-Lemon лексикография модулі
  • [3] OntoLex Github репозиторийі