مطالعه‌ای بر پیشرفت‌های پردازش زبان طبیعی با یادگیری عمیق

۱- مقدمه

پردازش زبان طبیعی یک رشته فرعی از علوم کامپیوتر است که پلی بین زبان‌های طبیعی و کامپیوترها ایجاد می‌کند. به ماشین‌ها کمک می‌کند که زبان انسان را درک، پردازش و تحلیل کنند [‏ ۱ ]‏. اهمیت NLP به عنوان یک ابزار کمک به درک داده‌های تولید شده توسط انسان، نتیجه منطقی وابستگی بافتی داده‌ها است. داده‌ها از طریق درک عمیق‌تر از بافت آنها، که به نوبه خود تحلیل متن و کاوش را تسهیل می‌کند، معنی‌دارتر می‌شوند. NLP این امر را با ساختارها و الگوهای ارتباطی انسان‌ها قادر می‌سازد. ​

توسعه روش‌های NLP به طور فزاینده‌ای وابسته به روش‌های برگرفته از داده است که به ساخت مدل‌های قوی‌تر و قابل‌اتکاتر کمک می‌کند [‏ ۲ ]‏، [‏ ۳ ]‏. پیشرفت‌های اخیر در توان محاسباتی، و همچنین در دسترس بودن داده‌های بزرگ، یادگیری عمیق را فعال می‌کند، یکی از جذاب‌ترین روش‌ها در حوزه NLP [‏ ۲ ]‏ – [‏ ۴ ]‏، به خصوص با توجه به این که یادگیری عمیق در حال حاضر عملکرد برتر در زمینه‌های مجاور مانند بینایی ماشین [‏ ۵ ]‏ – [‏ ۷ ]‏ و تشخیص گفتار [‏ ۸ ]‏، [‏ ۹ ]‏ را نشان داده‌است. این تحولات منجر به تغییر پارادایم از رویکردهای سنتی به رویکردهای داده محور جدید با هدف پیشبرد NLP شد. دلیل این تغییر ساده بود: رویکردهای جدید در مورد نتایج امیدوارکننده‌تر هستند، و مهندسی آن‌ها آسان‌تر است. ​

به عنوان یک موضوع فرعی برای پیشرفت قابل‌توجه در رشته‌های مجاور با استفاده از روش‌های یادگیری عمیق، شبکه‌های عصبی عمیق برای وظایف مختلف NLP، از جمله برچسب گذاری گفتار [‏ ۱۰ ]‏ – [‏ ۱۲ ]‏، شناسایی نهادهای اسمی [‏ ۱۳ ]‏، [‏ ۱۳ ]‏، [‏ ۱۴ ]‏، و برچسب گذاری نقش معنایی [‏ ۱۵ ]‏ – [‏ ۱۷ ]‏ به کار گرفته شده‌اند. بیشتر تلاش‌های تحقیقاتی در یادگیری عمیق مرتبط با برنامه‌های NLP شامل یادگیری تحت نظارت یا یادگیری بدون نظارت است. ​

این بررسی، نقش در حال ظهور یادگیری عمیق در حوزه NLP، در میان طیف گسترده‌ای از مقوله‌ها را پوشش می‌دهد. این مطالعه، نقش در حال ظهور یادگیری عمیق در حوزه NLP، در میان طیف گسترده‌ای از مقوله‌ها را پوشش می‌دهد. تحقیقات ارایه‌شده در [‏ ۱۸ ]‏ در درجه اول بر معماری‌ها با بحث کمی در مورد کاربردها متمرکز شده‌است. از سوی دیگر، این مقاله چالش‌ها، فرصت‌ها و ارزیابی‌های تاثیر اعمال یادگیری عمیق بر مشکلات NLP را توصیف می‌کند. ​

این بررسی شش بخش دارد، از جمله این مقدمه. بخش ۲ ابعاد نظری NLP و هوش مصنوعی را ارایه می‌دهد و به یادگیری عمیق به عنوان روشی برای حل مشکلات دنیای واقعی نگاه می‌کند. این امر این مطالعه را با پرداختن به این سوال تحریک می‌کند: چرا یادگیری عمیق در NLP استفاده می‌شود؟ بخش سوم مفاهیم اساسی لازم برای درک NLP را مورد بحث قرار می‌دهد که موضوعات نمونه را در نمایش، چارچوب‌ها، و یادگیری ماشین پوشش می‌دهد. بخش چهارم خلاصه‌ای از مجموعه داده‌های بنچ‌مارک به کار رفته در دامنه NLP است. بخش ۵ بر روی برخی از برنامه‌های NLP تمرکز می‌کند که در آن یادگیری عمیق مزایای قابل‌توجهی را نشان داده‌است. در نهایت، بخش ۶ نتیجه‌گیری را ارایه می‌دهد، همچنین به برخی از مشکلات باز و مناطق امید بخش برای بهبود می‌پردازد. ​

۲- پیش‌زمینه

پردازش زبان طبیعی از دیرباز به عنوان یک جنبه از هوش مصنوعی در نظر گرفته شده‌است، زیرا درک و تولید زبان طبیعی نشانه‌های سطح بالایی از هوش هستند. یادگیری عمیق یک ابزار موثر هوش مصنوعی است، بنابراین ما در ادامه جایگاه یادگیری عمیق را در دنیای هوش مصنوعی بررسی می‌کنیم . پس از آن ما انگیزه‌ها برای اعمال یادگیری عمیق در NLP را توضیح می‌دهیم. ​

الف. هوش مصنوعی و یادگیری عمیق

​​​​​​​​جزایر موفقیتی وجود دارند که در آن‌ها داده‌های بزرگ از طریق قابلیت‌های هوش مصنوعی پردازش می‌شوند تا اطلاعات را برای دستیابی به اهداف عملیاتی مهم تولید کنند (‏به عنوان مثال، ردیابی تقلب)‏.

بر این اساس، دانشمندان و مصرف کنندگان افزایش را در انواع کاربردها پیش‌بینی می‌کنند. با این حال، دستیابی به این امر نیازمند درک هوش مصنوعی و مکانیسم‌ها و ابزارهای آن است (‏به عنوان مثال، الگوریتم ها)‏. تد گرینوالد، در توضیح هوش مصنوعی برای آن‌هایی که متخصص هوش مصنوعی نیستند، می‌گوید: «به طور کلی هوش مصنوعی هر چیزی است که یک کامپیوتر بتواند انجام دهد که قبلا به عنوان یک وظیفه برای یک انسان در نظر گرفته می‌شد» [‏ ۱۹ ]‏. ​

هدف هوش مصنوعی گسترش قابلیت‌های فن‌آوری اطلاعات (‏IT) ‏از آن‌هایی به (‏۱)‏تولید، برقراری ارتباط و ذخیره داده‌ها و همچنین (‏۲)‏پردازش داده‌ها به دانشی است که تصمیم گیرندگان و دیگران نیاز دارند [‏ ۲۰ ]‏. یک دلیل این است که حجم داده‌های موجود به قدری سریع در حال افزایش است که در حال حاضر پردازش تمام داده‌های موجود برای مردم غیر ممکن است. این کار دو انتخاب باقی می‌گذارد: (‏۱)‏بسیاری از داده‌های موجود باید نادیده گرفته شوند یا (‏۲)‏هوش مصنوعی باید برای پردازش حجم وسیعی از داده‌های موجود در بخش‌های ضروری اطلاعاتی که تصمیم گیرندگان و دیگران می‌توانند درک کنند، توسعه یابد. یادگیری عمیق پلی بین حجم عظیم داده‌ها و هوش مصنوعی است. ​

۱)‏تعاریف: یادگیری عمیق به استفاده از شبکه‌های عصبی عمیق برای مقادیر انبوهی از داده‌ها برای یادگیری یک روند با هدف رسیدگی به یک کار اشاره دارد. این کار می‌تواند از طبقه‌بندی ساده تا استدلال پیچیده متفاوت باشد. به عبارت دیگر، یادگیری عمیق مجموعه‌ای از مکانیزم‌هایی است که به طور ایده‌آل قادر به استخراج یک راه‌حل بهینه برای هر مساله با توجه به مجموعه داده ورودی مرتبط و گسترده می‌باشد. به بیان ساده، یادگیری عمیق، کشف و تحلیل ساختارها / ویژگی‌های مهم در داده‌ها با هدف فرموله کردن یک راه‌حل برای یک مشکل مشخص است. در اینجا هوش مصنوعی و یادگیری عمیق به هم می‌رسند. یک نسخه از هدف یا جاه‌طلبی در پشت هوش مصنوعی این است که ماشین را قادر می‌سازد تا بهتر از عملکرد مغز انسان عمل کند. یادگیری عمیق وسیله‌ای برای رسیدن به این هدف است. ​

۲)‏معماری یادگیری عمیق: معماری‌های یادگیری عمیق بسیاری در زمینه‌های تحقیقاتی مختلف توسعه‌یافته اند، به عنوان مثال در کاربردهای NLP با استفاده از شبکه‌های عصبی بازگشتی (‏RNNs)‏[‏ ۲۱ ]‏، شبکه‌های عصبی کانولوشنال (‏CNNs)‏[‏ ۲۲ ]‏، و اخیرا شبکه‌های عصبی خود بازگشتی [‏ ۲۳ ]‏. ما بحث خود را بر بررسی مدل‌های ضروری متمرکز می‌کنیم که در مقالات مرتبط توضیح داده شده‌اند. ​

پرسپترون چند لایه: یک پرسپترون چند لایه (‏MLP) ‏حداقل سه‌لایه (‏لایه‌های ورودی، پنهان و خروجی) ‏دارد. یک لایه به سادگی مجموعه‌ای از نرون‌هایی است که برای تبدیل اطلاعات از لایه قبلی به لایه بعدی عمل می‌کنند. در معماری MLP، نورون‌های یک لایه با یکدیگر ارتباط برقرار نمی‌کنند. یک MLP از توابع فعال‌سازی غیر خطی استفاده می‌کند. هر گره در یک لایه به تمام گره‌های لایه بعدی متصل می‌شود، و یک شبکه کاملا متصل ایجاد می‌کند (‏شکل ۱)‏. MLP ها ساده‌ترین نوع شبکه‌های عصبی پیش‌خور (‏Feed Forward) هستند. شبکه‌های عصبی پیش‌خور نشان‌دهنده یک دسته عمومی از شبکه‌های عصبی هستند که در آن اتصالات بین گره‌ها هیچ چرخه‌ای ایجاد نمی‌کنند، یعنی در یک شبکه عصبی پیش‌خورد هیچ چرخه‌ای از جریان اطلاعات وجود ندارد. ​

شکل ۱- معماری عمومی پرسپترون چندلایه
شکل ۱- معماری عمومی پرسپترون چندلایه

شبکه‌های عصبی کانولوشنال: شبکه‌های عصبی کانولوشنال (‏Convolutional Neural Networks)‏ که معماری آن‌ها از قشر بینایی انسان الهام می‌گیرد، یک زیر رده از شبکه‌های عصبی پیش‌خور هستند. شبکه‌های عصبی کانولوشنال پس از عملیات ریاضی اساسی، کانولوشن نام گذاری می‌شود، که معیاری برای قابلیت همکاری توابع ورودی آن ارایه می‌دهد. شبکه‌های عصبی کانولوشنی معمولا در شرایطی به کار می‌روند که داده‌ها باید با یک نقشه داده دو بعدی یا سه‌بعدی نمایش داده شوند. در نمایش نقشه داده‌ها، نزدیکی نقاط داده معمولا مربوط به همبستگی اطلاعاتی آن‌ها است. ​

در شبکه‌های عصبی کانولوشنی که ورودی تصویر است، نقشه داده‌ها نشان می‌دهد که پیکسل های تصویر همبستگی بالایی با پیکسل های همسایه خود دارند. در نتیجه، لایه‌های کانولوشنال سه بعد دارند: عرض، ارتفاع و عمق. این فرض احتمالا توضیح می‌دهد که چرا اکثر تلاش‌های تحقیقاتی اختصاص‌داده‌شده به CNNها در حوزه بینایی ماشین انجام می‌شوند [‏ ۲۴ ]‏. ​

یک سی‌ان‌ان تصویری را به عنوان مجموعه‌ای از مقادیر عددی در نظر می‌گیرد. پس از انجام عملیات ریاضی خاص، تصویر را در یک فضای خروجی جدید نشان می‌دهد. این عملیات همچنین استخراج ویژگی نامیده می‌شود، و به ضبط و نمایش محتوای تصویر کلیدی کمک می‌کند. ویژگی‌های استخراج‌شده می‌توانند برای تحلیل بیشتر، برای وظایف مختلف استفاده شوند. یک مثال، طبقه‌بندی تصویر است که هدف آن طبقه‌بندی تصاویر با توجه به برخی کلاس‌های از پیش تعریف‌شده است. مثال‌های دیگر شامل تعیین این است که کدام اشیا در یک تصویر وجود دارند و در کجا واقع شده‌اند. شکل ۲ را ببینید. در مورد استفاده از شبکه‌های کانولوشنی برای پردازش زبان طبیعی، ورودی‌ها عبارات یا اسنادی هستند که به صورت ماتریس نشان داده می‌شوند. هر ردیف از ماتریس با یک عنصر زبانی مانند یک کلمه یا یک کاراکتر در ارتباط است. اکثر معماری‌های سی‌ان‌ان نمایش کلمات یا جملات را در مرحله آموزش خود یاد می‌گیرند. معماری‌های مختلفی از سی‌ان‌ان در وظایف مختلف طبقه‌بندی مانند آنالیز تشخیص و طبقه‌بندی موضوعی مورد استفاده قرار گرفتند [‏ ۲۲ ]‏، [‏ ۲۵ ]‏ – [‏ ۲۷ ]‏. از شبکه‌های عصبی کانولوشنی برای طبقه‌بندی کاهش و وابستگی نیز استفاده شده است [‏ ۲۸ ]‏، [‏ ۲۹ ]‏. ​

یک معماری معمول سی ان ان برای تشخیص اشیا. شبکه یک نمایش ویژگی با توجه به ناحیه خاص یک تصویر (‏مثال نشان‌داده‌شده در سمت چپ) ‏ارایه می‌دهد که شامل شی مورد نظر است. از میان مناطق چندگانه نشان‌داده‌شده (‏ترتیب بلوک‌های تصویر، با توجه به شدت پیکسل تصویر در سمت راست) ‏توسط شبکه، منطقه‌ای که بالاترین امتیاز را دارد به عنوان نامزد اصلی انتخاب خواهد شد. ​
یک معماری معمول سی ان ان برای تشخیص اشیا. شبکه یک نمایش ویژگی با توجه به ناحیه خاص یک تصویر (‏مثال نشان‌داده‌شده در سمت چپ) ‏ارایه می‌دهد که شامل شی مورد نظر است. از میان مناطق چندگانه نشان‌داده‌شده (‏ترتیب بلوک‌های تصویر، با توجه به شدت پیکسل تصویر در سمت راست) ‏توسط شبکه، منطقه‌ای که بالاترین امتیاز را دارد به عنوان نامزد اصلی انتخاب خواهد شد. ​

شبکه عصبی بازگشتی: اگر ما یک رشته از شبکه‌های پیش‌خور را مرتب کنیم و خروجی هر شبکه را به عنوان ورودی به شبکه بعدی تغذیه کنیم، یک شبکه عصبی بازگشتی (etwork‏Recurrent Neural N) ‏ساخته خواهد شد. مانند شبکه‌های عصبی پیش خور، لایه‌های یک RNN می‌توانند به لایه‌های ورودی، پنهان و خروجی طبقه‌بندی شوند. در قالب‌های زمانی گسسته، توالی‌های بردارهای ورودی به عنوان ورودی، یک بردار در یک زمان تغذیه می‌شوند، به عنوان مثال، بعد از قرار دادن هر دسته از بردارها، انجام برخی عملیات‌ها و به روز رسانی وزن‌های شبکه، دسته ورودی بعدی به شبکه تغذیه خواهد شد. بنابراین، همانطور که در شکل ۳ نشان‌داده شده‌است، در هر گام زمانی ما پیش‌بینی می‌کنیم و از پارامترهای لایه پنهان فعلی به عنوان ورودی گام زمانی بعدی استفاده می‌کنیم.​ ​

لایه‌های پنهان در شبکه‌های عصبی بازگشتی می‌توانند اطلاعات را از گذشته، به عبارت دیگر حافظه حمل کنند. این ویژگی باعث می‌شود که آن‌ها به طور خاص برای کاربردهایی که با یک توالی از ورودی‌ها مانند مدل‌سازی زبان سر و کار دارند، مفید واقع شوند [ ۳۰ ]. ​این مفهوم بعدا به طور مفصل توضیح داده خواهد شد.

شبکه حافظه طولانی کوتاه‌مدت (emory‏Long Short Term M)‏ یکی از پراستفاده‌ترین کلاس‌های شبکه‌های بازگشتی است. LSTMها تلاش می‌کنند تا حتی وابستگی‌های طولانی‌مدت بین ورودی‌ها از مراحل زمانی مختلف را بدست آورند. تشخیص گفتار و ترجمه ماشینی مدرن اغلب بر روی LSTM ها تکیه دارد. ​

شبکه عصبی بتی (‏RNN)‏، که در سمت چپ خلاصه شده‌است، گسترش یافت. در سمت راست، برای N مرحله زمانی، با X نشان‌دهنده ورودی، h لایه پنهان و O خروجی
شبکه عصبی بتی (‏RNN)‏، که در سمت چپ خلاصه شده‌است، گسترش یافت. در سمت راست، برای N مرحله زمانی، با X نشان‌دهنده ورودی، h لایه پنهان و O خروجی

​​​​​​​​

رمزکننده‌های خودکار: رمزکننده‌های خودکار روش‌های نظارت نشده را در یادگیری عمیق اجرا می‌کنند. آن‌ها به طور گسترده در کاهش ابعاد یا برنامه‌های کاربردی NLP استفاده می‌شوند که از توالی به مدل‌سازی توالی تشکیل شده‌اند (‏نگاه کنید به بخش III – B [‏ ۳۰ ]‏)‏شکل ۴ طرح کلی یک رمزگذار اتوماتیک را نشان می‌دهد. از آنجا که رمزکننده‌های خودکار بدون نظارت هستند، هیچ برچسبی متناظر با هر ورودی وجود ندارد. هدف آن‌ها یادگیری یک نمایش کد برای هر ورودی است. رمزگذار مانند یک شبکه عصبی پیش‌خور است که در آن ورودی در یک بردار ‏کدگذاری می‌شود. رمزگشا به طور مشابه با رمزگذار عمل می‌کند، اما برعکس، یعنی، ساخت خروجی براساس ورودی کدگذاری شده. در کاربردهای فشرده‌سازی داده، ما می‌خواهیم خروجی ایجاد شده تا حد ممکن به ورودی اصلی نزدیک باشد. رمزکننده‌های خودکار دچار اتلاف می‌شوند، به این معنی که خروجی بازسازی تقریبی ورودی است. ​

شکل​​​​​​​ ۴. طرح کلی یک رمزگذار خودکار
شکل​​​​​​​ ۴. طرح کلی یک رمزگذار خودکار

شبکه‌های مولد خصمانه: گودفلو [‏ ۳۲ ]‏ شبکه‌های مولد خصمانه ‏(Generative Adversarial Networks) ‏را معرفی کرد. همانطور که در شکل ۵ نشان‌داده شده‌است، یک شبکه مولد خصمانه ترکیبی از دو شبکه عصبی، یک تفکیک‌کننده و یک ژنراتور است. کل شبکه در یک فرآیند تکراری آموزش‌دیده است. اول، شبکه ژنراتور یک نمونه جعلی تولید می‌کند. سپس شبکه متمایزکننده سعی می‌کند تعیین کند که آیا این نمونه (‏مثلا: یک تصویر ورودی) ‏واقعی است یا جعلی، یعنی، آیا از داده‌های آموزشی واقعی (‏داده‌های استفاده‌شده برای ساخت مدل)‏ آمده‌است یا خیر. هدف ژنراتور این است که تفکیک‌کننده را طوری گول بزند که تفکیک‌کننده معتقد باشد نمونه‌های مصنوعی (‏یعنی تولید شده) ‏تولید شده توسط ژنراتور واقعی هستند. ​

این فرآیند تکراری تا زمانی ادامه می‌یابد که ژنراتور نمونه‌هایی را تولید کند که توسط تفکیک‌کننده قابل‌تشخیص نباشند. به عبارت دیگر، احتمال طبقه‌بندی یک نمونه به صورت جعلی یا واقعی مانند تغییر یک سکه منصفانه برای متمایزکننده است. هدف از مدل مولد به دست آوردن توزیع داده‌های واقعی است در حالی که تفکیک‌کننده تلاش می‌کند تا داده‌های جعلی را شناسایی کند. یکی از ویژگی‌های جالب GANها (‏با توجه به مولد بودن) ‏این است که وقتی مرحله آموزش تمام شد، نیازی به شبکه تشخیص وجود ندارد، بنابراین ما فقط می‌توانیم با شبکه مولد کار کنیم. به عبارت دیگر، داشتن دسترسی به مدل تولیدی آموزش‌دیده کافی است. ​

انواع مختلفی از GANها معرفی شده‌اند، به عنوان مثال، Sim GAN [‏ ۷ ]‏، Wasserstein GAN [‏ ۳۳ ]‏، info GAN [‏ ۳۴ ]‏، و DC GAN [‏ ۳۵ ]‏. در یکی از زیباترین پیاده‌سازی‌های GAN (‏۳۶)‏، صورت کاملا مصنوعی اما در عین حال کامل، چهره‌های مشهور تولید می‌شوند؛ تصاویر واقعی نیستند، بلکه عکس‌های جعلی هستند که توسط شبکه تولید شده‌اند. در دامنه پردازش زبان طبیعی، اغلب از GAN‌ها برای تولید متن استفاده می‌شود [‏ ۳۷ ]‏، [‏ ۳۸ ]‏. ​

شبکه مولد خصمانه
شبکه مولد خصمانه

ب. انگیزه استفاده از یادگیری عمیق در پردازش زبان طبیعی

​​​​​​​​کاربردهای یادگیری عمیق براساس انتخاب‌های (‏۱)‏ نمایش ویژگی و (‏۲) ‏الگوریتم یادگیری عمیق در کنار معماری پیش‌بینی می‌شوند. اینها به ترتیب با نمایش داده و ساختار یادگیری در ارتباط هستند. برای نمایش داده‌ها، به طرز شگفت آوری، معمولا یک جدایی بین این که چه اطلاعاتی برای کار در دسترس مهم هستند، وجود دارد، در مقابل این که چه نمایشی در واقع نتایج خوبی را ارایه می‌دهد. برای مثال، در تحلیل احساسی، واژگان، ساختار نحوی، و متن توسط برخی از زبانشناسان به عنوان اهمیت اولیه فرض می‌شوند. با این وجود، مطالعات قبلی براساس مدل کیسه کلمات (‏BoW)‏ عملکرد قابل قبولی را نشان دادند [‏ ۳۹ ]‏. مدل کیسه کلمات [‏ ۴۰ ]‏، که اغلب به عنوان مدل فضای برداری دیده می‌شود، شامل نمایشی است که فقط برای کلمات و فرکانس وقوع آن‌ها محاسبه می‌شود. BoW ترتیب و تعامل کلمات را نادیده می‌گیرد و با هر کلمه به عنوان یک ویژگی منحصر به فرد رفتار می‌کند. BoW ساختار نحوی را نادیده می‌گیرد، با این حال نتایج مناسبی را برای آن چه که برخی کاربردهای وابسته به نحو در نظر می‌گیرند ارایه می‌دهد. این مشاهده نشان می‌دهد که نمایش‌های ساده، هنگامی که با مقادیر زیادی از داده‌ها همراه شوند، ممکن است به خوبی یا بهتر از نمایش‌های پیچیده‌تر عمل کنند. این یافته‌ها این استدلال را به نفع اهمیت الگوریتم ها و معماری‌های یادگیری عمیق تایید می‌کنند. ​

اغلب پیشرفت NLP به مدل‌سازی موثر زبان محدود می‌شود. یکی از اهداف مدل‌سازی زبان آماری نمایش احتمالاتی توالی کلمات در زبان است که به دلیل قضیه نفرین ابعاد، کار پیچیده‌ای است. تحقیق ارائه‌شده در [‏ ۴۱ ]‏ یک پیشرفت بزرگ برای مدلسازی زبان با شبکه‌های عصبی با هدف غلبه بر نفرین ابعاد با (۱) یادگیری نمایش توزیعی کلمات و (‏۲)‏ ارائه یک تابع احتمال برای دنباله‌ها بود. ​

به نظر می‌رسد که چالش اصلی در تحقیقات NLP، در مقایسه با حوزه‌های دیگر مانند بینایی کامپیوتری، پیچیدگی دستیابی به نمایش عمیق زبان با استفاده از مدل‌های آماری باشد. وظیفه اصلی در برنامه‌های NLP، ارایه نمایشی از متون، مانند اسناد است. این شامل یادگیری ویژگی، یعنی استخراج اطلاعات معنی‌دار برای فعال کردن پردازش و تحلیل بیشتر داده‌های خام است. ​

روش‌های سنتی با تغییر دادن زمان بر ویژگی‌ها، از طریق تجزیه و تحلیل دقیق انسانی از یک کاربرد خاص شروع می‌شوند، و با توسعه الگوریتم ها برای استخراج و استفاده از نمونه‌های آن ویژگی‌ها دنبال می‌شوند. از سوی دیگر، روش‌های یادگیری ویژگی نظارت شده عمیق بسیار داده محور هستند و می‌توانند در تلاش‌های عمومی با هدف ارایه یک نمایش داده قوی مورد استفاده قرار گیرند. ​

با توجه به مقادیر گسترده داده‌های بدون برچسب، یادگیری ویژگی بدون نظارت به عنوان یک کار مهم در NLP در نظر گرفته می‌شود. در اصل، یادگیری ویژگی بدون نظارت، یادگیری ویژگی‌ها از داده‌های برچسب گذاری نشده به منظور ارایه یک نمایش ابعادی پایین از یک فضای داده ابعادی بالا است. رویکردهای مختلفی مانند خوشه‌بندی K-means و تحلیل مولفه‌های اصلی پیشنهاد شده و با موفقیت در این راستا پیاده‌سازی شده‌اند. با ظهور یادگیری عمیق و فراوانی داده‌های برچسب نخورده، یادگیری ویژگی بدون نظارت تبدیل به یک وظیفه حیاتی برای یادگیری نمایش، یک پیشرو در برنامه‌های کاربردی NLP می‌شود. در حال حاضر، بیشتر وظایف NLP متکی بر داده‌های حاشیه‌نویسی شده هستند، در حالی که برتری داده‌های حاشیه‌نویسی نشده بیشتر به تحقیقات در اعمال نفوذ روش‌های عمیق برگرفته از داده بدون نظارت انگیزه می‌دهد. ​

با توجه به برتری بالقوه رویکردهای یادگیری عمیق در برنامه‌های NLP، انجام تجزیه و تحلیل جامع روش‌ها و معماری‌های مختلف یادگیری عمیق با توجه خاص به برنامه‌های NLP ضروری به نظر می‌رسد. ​

شکل ۶. با در نظر گرفتن یک توالی مشخص، مدل تفکر پرش تولید می‌کند. ​​​​​​​ توالی‌های اطراف با استفاده از کدگذار آموزش‌دیده. فرض بر این است که جملات مجاور، از نظر زمینه، ارتباط نزدیکی با هم دارند. ​
شکل ۶. با در نظر گرفتن یک توالی مشخص، مدل تفکر پرش تولید می‌کند. ​​​​​​​ توالی‌های اطراف با استفاده از کدگذار آموزش‌دیده. فرض بر این است که جملات مجاور، از نظر زمینه، ارتباط نزدیکی با هم دارند. ​