پارسی پرداز

برای استفاده از نرم افزار ابتدا بسته نرم افزاری دات نت فریمورک 4.5 را نصب نمایید.‏ استفاده از این برنامه در پژوهشهای علمی با ارجاع به آزمایشگاه فناوری وب دانشگاه فردوسی مشهد بلامانع است. درصورت استفاده از این ابزار در کار پژوهشی خود، لطفاً به این ابزار بصورت زیر ارجاع نمایید:
ابزارهای پردازش متون زبان فارسی، آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، 1391. (wtlab.um.ac.ir)
همچنین در صورت مشاهده اشتباه در تشخیص ریشه کلمه یا برچسب آن، لطفاً مورد اشتباه را به ایمیل ehsan.asgarian@gmail.com اطلاع دهید.

برچسب گذار نقش کلمات فارسی ابزار ریشه یاب معنایی برای زبان فارسی نسخه 1.6 ابزار پارسر زبان فارسی

توضیحات بیشتر

POS TAGGER

برچسب گذاری اجزای واژگانی کلام (Part of Speech tagging) عمل انتساب برچسب های واژگانی به کلمات و نشانه های تشکیل دهنده یک متن است؛ به صورتی که این برچسب ها نشان دهنده نقش کلمات و نشانه ها در جمله باشد. درصد بالایی از کلمات از نقطه نظر برچسب واژگانی دارای ابهام هستند، زیرا کلمات در جایگاههای مختلف برچسب های واژگنی متفاوتی دارند. بنابراین برچسب گذاری واژگانی عمل ابهام زدایی از برچسب ها با توجه به زمینه (متن) مورد نظر است. برچسب گذاری واژگانی عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می باشد. تا کنون مدل ها و روش های زیادی برای برچسب گذاری در زبان های مختلف استفاده شده است. بعضی از این روش ها عبارتند از:
مدل مخفی مارکوف (Markov Hidden Model)
برچسب گذاری مبتنی بر تبدیل یا قانون (Transformation/Rule -based tagger)
سیستم های مبتنی بر حافظه (Memory-basedSystem)
سیستم های ماکزیمم آنتروپی (Maximum Entropy System)

STEMMER

هدف از انجام پروژه ریشه یابی معنایی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ريشه اصلی تشکيل دهنده آنهاست. تفاوت اصلی اين پروژه با ساير پژوهش‌های انجام شده در زمينه ريشه‌يابی، قابليت بازگرداندن کلمات به ريشه بدون از بين رفتن معنای آنها در جمله می‌باشد. بدين منظور به نقش کلمات در جمله توجه ويژه‌ای شده است. در اين طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پيکره همشهری استفاده شده است.

PARSER

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروه های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.
پارسر طراحی شده برای زبان فارسی در این پروژه، از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، درخت نحوی یا پارسینگ را برای جملات متن تشکیل می دهد. در واقع عملیات پارسینگ با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) و همچنین دستورات نحوی گرامر زبان فارسی صورت میگیرد. بدیهی است هر چقدر نگارش بکار رفته در جملات و همچنین رعایت علائم سجاوندی طبق اصول و با دقت بیشتری صورت گرفته باشد، عملیات پارسینگ با کیفیت بهتری صورت خواهد گرفت و اجزای تشکیل دهنده ی جمله با عملیات کمتر و ساده تری برچسب زده خواهند شد.

زمینه پژوهشی

پردازش زبان طبیعی

تاریخ اجرا

1391

اعضای پروژه

احمد استیری

سید محمد اصغری نکاح

رضا سعیدی

سید احمد طوسی

احسان عسکریان

هادی قائمی