پروژه پارسی پرداز

معرفی پروژه

 

POS TAGGER

برچسب گذاری اجزای واژگانی کلام (Part of Speech tagging) عمل انتساب برچسب های واژگانی به کلمات و نشانه های تشکیل دهنده یک متن است؛ به صورتی که این برچسب ها نشان دهنده نقش کلمات و نشانه ها در جمله باشد. درصد بالایی از کلمات از نقطه نظر برچسب واژگانی دارای ابهام هستند، زیرا کلمات در جایگاههای مختلف برچسب های واژگنی متفاوتی دارند. بنابراین برچسب گذاری واژگانی عمل ابهام زدایی از برچسب ها با توجه به زمینه (متن) مورد نظر است. برچسب گذاری واژگانی عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می باشد. تا کنون مدل ها و روش های زیادی برای برچسب گذاری در زبان های مختلف استفاده شده است. بعضی از این روش ها عبارتند از:
مدل مخفی مارکوف (Markov Hidden Model)
برچسب گذاری مبتنی بر تبدیل یا قانون (Transformation/Rule -based tagger)
سیستم های مبتنی بر حافظه (Memory-basedSystem)
سیستم های ماکزیمم آنتروپی (Maximum Entropy System)

STEMMER

هدف از انجام پروژه ریشه یابی معنایی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ريشه اصلی تشکيل دهنده آنهاست. تفاوت اصلی اين پروژه با ساير پژوهش‌های انجام شده در زمينه ريشه‌يابی، قابليت بازگرداندن کلمات به ريشه بدون از بين رفتن معنای آنها در جمله می‌باشد. بدين منظور به نقش کلمات در جمله توجه ويژه‌ای شده است. در اين طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پيکره همشهری استفاده شده است.

PARSER

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروه های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.
پارسر طراحی شده برای زبان فارسی در این پروژه، از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، درخت نحوی یا پارسینگ را برای جملات متن تشکیل می دهد. در واقع عملیات پارسینگ با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) و همچنین دستورات نحوی گرامر زبان فارسی صورت میگیرد. بدیهی است هر چقدر نگارش بکار رفته در جملات و همچنین رعایت علائم سجاوندی طبق اصول و با دقت بیشتری صورت گرفته باشد، عملیات پارسینگ با کیفیت بهتری صورت خواهد گرفت و اجزای تشکیل دهنده ی جمله با عملیات کمتر و ساده تری برچسب زده خواهند شد.


اعضای پروژه


 

تاریخ اجرا

1391-1392