درباره پیکره

پروژه پیکره زبان کردی  نخستین پیکره آنلاین  موجود به زبان کردی (گویش سورانی) است که در دانشگاه کردستان شروع به فعالیت نموده است.

در جمع آوری متون این پیکره از وب سایتهای خبری کردی مانند کوردپرس استفاده شده است و پس از نرمالسازی گزارش آماری زیر به دست آمده است.

نسخه فعلی این پیکره شامل 69000 سند خبری است که محتوی آنها شامل اخبار گوناگون از دسته های مختلف است. مراحل برچسب زنی نحوی پیکره با 40 سند شروع شده است که اسناد با دقت تمام  برچسب زده شده اند. این اسناد شامل  14,898,062 کلمه میباشند که از این تعداد واژه 436,655 واژه منحصر بفرد هستند. لازم به ذکر است که بر روی پیکره، از ریشه یاب استفاده نشده است و این عدد به واژه های خام بدون ریشه یابی اشاره دارد. به عنوان مثال دو واژه
کتێب ” و “کتێبەکان” دو واژه منحصر بفرد محاسبه شده اند.

پراکندگی سایزی فایلهای متنی از 2 کیلو بایت تا 247 کیلو بایت میباشد. و پراکندگی زمانی از سال 1389 تا 1394 است

تعداد سند

69000