ویکی‌پدیا:واحد ضد خرابکاری/ربات

از ویکی‌پدیا، دانشنامهٔ آزاد
ربات مبارزه با خرابکاری
فاز ۱

۲۲٫۱٪، از هدف انجام شده برای اتمام فاز یک برچسب‌زنی و شروع کار آموزش ربات.

   

نسخه آزمایشی ربات مبارزه با خرابکاری در حال آماده‌شدن و دریافت انواعی از ویرایش‌ها

در این زیر صفحه توسعهٔ ربات مبارزه با خرابکاری پیگیری می‌شود. در اینجا برای همهٔ کاربران که علاقه به همکاری دارند کار هست. حداقل‌های مورد نیاز، کافی کاربر توانایی جستجو در وب و خواندن زبان فارسی را داشته باشد و برای کاربران فنی کوئری نویسی و کدنویسی با پایتون کمک شایانی‌ست.

روش کار ربات مبارزه با خرابکاری[ویرایش]

این ربات بر پایهٔ پردازش زبان طبیعی و با توجه به نسخه‌های تفاوت ویرایشی که توسط کاربران در اینجا برچسب زده‌شده‌اند و متغییرهایی که در زیر بخش خصوصیت‌ها (در پایین) از پایگاه داده ویکی‌پدیا استخراج می‌شوند. خواهد توانست بین ویرایش خوب و بد تفاوت قائل شود و نوع ویرایش را تشخیص دهد که تشخیص ربات عددی بین ۰ تا ۱ خواهد بود هر چه عدد به یک نزدیک‌تر باشد ویرایش خرابکاری‌تر است یا احتمال خرابکاری بیشتری دارد و برعکس.

برای راه‌اندازی ربات چندین سری فعالیت باید انجام شود که به شرح زیر است:

  • تحقیق و بررسی نمونه‌های مشابه و مقاله‌های علمی و بررسی امکانات موجود و استفاده از تجربیات دیگر ویکی‌ها در حال انجام...
  • برچسب‌زنی حدود ۲۰ هزار نسخه ویرایشی که در وپ:ابز به صورت ویکی‌پروژه توسط چندین کاربر برچسب‌زن در حال پیگیری‌ست. تعدادی از برچسب‌ها هم توسط کوئری بر پایهٔ خلاصه ویرایش یا نام کاربری به صورت فله‌ای زده خواهند شد. در حال انجام...
  • توسعه کدهای ربات برای پردازش زبان بر پایهٔ کتابخانه‌‌های یادگیری ماشینی و deep learning
  • توسعه کدهای ربات برای واگردانی یا هشدار دادن در مورد ویرایش‌های مشکوک

دیتای مورد نیاز[ویرایش]

پردازش دیتابیس[ویرایش]

خصوصیت‌ها[ویرایش]

متا دیتای مقاله
  • تعداد بازدید هفته گذشته
  • تعداد بازدید هفته گذشته به میانگین سال گذشته
  • حجم مقاله
  • عمر مقاله
  • تعداد کل ویرایش در مقاله
  • تعداد نویسندگان یکتا
  • نسبت کاربر آی‌پی و تازه‌وارد به کاربر باتجربه
  • تعداد ویرایش ۳۰ روز اخیر
  • فاصله زمانی ویرایش تا ویرایش قبلی
  • فاصلهٔ زمانی تا آخرین واگردانی
  • تعداد ویرایش کاربر قبلی
  • تعداد پیگیری‌کننده صفحه
  • تعداد کاربرانی که بعد از آخرین ویرایش مقاله را دیدند
  • تعداد خرابکاری در تاریخچه
  • حجم تفاوت ویرایش به متوسط حجم ویرایش ۵ درصد کاربر بیش‌تر فعال در تاریخچه
  • حجم مقاله تا پیش از این ویرایش
  • آیا ویرایش جزئی‌ست؟
مشخصات کاربر
  • تعداد ویرایش
  • متوسط ویرایش کاربر بر پایهٔ یک سال گذشته
  • دسترسی کاربر
  • تعداد خنثی‌شده
  • تعداد خنثی‌کرده
  • تعداد کاربران یکتا که ویرایش کاربر مذکور را خنثی‌کرده‌اند
  • تعداد بسته شده
  • فاصلهٔ میان ثبت‌نام و ویرایش
  • فاصله با آخرین مقاله‌ای که ویرایش کرده
  • زمان تا آخرین ویرایش کاربر که واگردانی شده


مشخصات متن و خلاصه ویرایش
سطح جمله
  • متوسط طول جمله
  • متوسط طول کلمه
  • متوسط بر جمله:
    • متوسط تعداد کلمه یکتا بر جمله
    • متوسط تعداد سجاوندی بر جمله
    • متوسط POS بر جمله
  • بر جمله:
    • تعداد فعل بر جمله
    • تعداد صفت بر جمله
    • تعداد حرف ربط به جمله
    • تعداد نام‌ها و مکان‌ها بر جمله
    • تعداد قید بر جمله
    • تعداد کلمه بر جمله
    • تعداد کاراکتر بر جمله
سطح متن
  • تعداد جمله
  • تعداد کلمه یکتا
  • تعداد فعل
  • تعداد صفت
  • تعداد قید
  • تعداد حرف ربط
  • تعداد قید مقایسه‌ای
  • تعداد حرف اضافه
  • تعداد جملهٔ فعال
  • رتبهٔ پیچیدگی متن
  • تعداد عدد
  • تعداد نویسه غیر نوشتاری
  • تعداد نویسهٔ مدیاویکی
    • تعداد الگو استفاده شده
    • تعداد منبع
    • تعداد پیوند به بیرون
    • تعداد پیوند درونی
    • تعداد تصویر افزوده شده یا حذف شده
    • تعداد رده افزوده یا حذف شده
  • متوسط طول جمله
  • حداقل طول جمله
  • حداکثر طول جمله
  • نسبت طول زیاد به طول کم جمله
  • درصد جملات آغاز شده با حرف ربط، قید، صفت، اسم
  • درصد عبارت‌های القابی به جمله (آقای، جناب و...)
  • پرکاربردترین N-Gram های متن
  • کلمات موجود در فهرست سیاه
خلاصه ویرایش
  • آیا در خلاصه ویرایش عبارت خنثی‌سازی یا نام کاربر هست؟
  • آیا ویرایش قبل از این ویرایش خلاصه‌اش خنثی‌سازی بوده (جنگ ویرایشی)
قطبیت
  • میزان قطبی بودن متن
زمان ویرایش
  • زمان ویرایش در شبانه‌روز
  • زمان در هفته
  • زمان در سال
آی‌پی
  • موقعیت و کشور یا محدودهٔ آی‌پی
مقایسه برداری
  • مقایسهٔ ویرایش با ویرایش یک کاربر تائید شده و متن مقاله

برای زبان‌های لاتین[ویرایش]

  • نسبت 1+upper به 1+lower
  • نسبت Upper به کل

کدهای استخراج خصوصیت[ویرایش]

توابع پایتون مورد نیاز[ویرایش]

Mysql[ویرایش]

API[ویرایش]

برچسب‌زنی[ویرایش]

نکته۱: در اینجا عبارت واگردانی، به مفهوم‌هایی مانند خنثی‌کردن، بازگرداندن، واگردانی کردن و هر عملی که ویرایش قبل را به صورت کامل به ویرایش قبل‌تر بازگرداند اشاره دارد.
نکته۲:معیار قضاوت فقط ویرایشی‌ست که مشاهده می‌کنید و کاری به ویرایش قبل و بعد نداریم.
نکته۳: واگردانی ویرایش یک کاربر باید بر اساس یکی از معیارهای زیر باشد. (دلیل‌هایی مانند: چون آی‌پی بود، چون تازه‌وارد بود و... برای واگردانی یک ویرایش مناسب نیست)









نکته ۱: برای بررسی برچسب‌هایی که هر کاربر زده‌است کافی‌ست بر روی پیوندها کلیک کنید علاوه بر تفاوت ویرایش که مشاهده می‌کنید در بخش نشانی مرورگر (URL) بعد از شمارهٔ شناسه، متن برچسب‌ها و نام کاربر برچسب‌زن مشخص است. مثلاً 26495660|Nمنبع-Nدرست|tager:کاربر:Yamaha5|ت:RC با کلیک بر روی پیوند متن &oldid=26495660&Nمنبع-Nدرست&tager:کاربر:Yamaha5&ت:RC در نشانی اینترنتی دیده می‌شود که متن قبل از نام کاربری نوع برچسب‌ها و متن بعد از ت: نحوهٔ استفاده از ابزار (تفاوت ویرایش (d)، تغییرات اخیر (RC)، تاریخچه (h)) را نشان می‌دهد. اگر برچسب کاربری اشتباه بود به وی تذکر دهید تا درستش کند اگر کامل نبود و امکان بیشتر برچسب زدن وجود داشت. از نو آن ویرایش را برچسب بزنید. بعدا ربات میزان مشارکت و دقت مشارکت کاربران برچسب‌زن را در پیش‌بینی‌اش در نظر می‌گیرد.
ویرایش‌های برچسب‌زده‌شده پیشین: بایگانی ۱، بایگانی ۲

برای برچسب‌زنی به نسخه‌های ویرایشی موجود در تغییرات اخیر، تاریخچه، فهرست پیگیری‌ها و تفاوت ویرایش به ویکی‌پدیا:واحد ضد خرابکاری/ربات/ارزشیابی/راهنما مراجعه کنید و به کمک ابزار موجود در آنجا به نسخه‌ها برچسب بزنید.

همکاری[ویرایش]

برای همکاری لطفا به ویکی‌پدیا:واحد ضد خرابکاری/ربات/ارزشیابی/راهنما مراجعه کنید.

همکاران پروژه

جستارهای وابسته[ویرایش]


منابع[ویرایش]

  1. Identifying Semantic Edit Intentions from Revisions in Wikipedia 1
  2. Automatically Classifying Edit Categories in Wikipedia Revisions 2
  3. Wikipedia Vandalism Detection Through MachineLearning: Feature Review and New Proposals
  4. Detecting Promotional Content in Wikipedia
  5. Wikipedia Vandalism Detection: CombiningNatural Language, Metadata, and ReputationFeatures
  6. Improving Wikipedia Vandalism Detection via Stylometric Analysis
  7. Using Dynamic Markov Compression to Detect Vandalism in the Wikipedia
  8. Detecting Wikipedia Vandalism with Active Learning and Statistical Language Models
  9. Wikipedia Vandalism Detection Through Machine Learning: Feature Review and New Proposals: Lab Report for PAN at CLEF 2010
  10. Automatic Vandalism Detection in Wikipedia:Towards a Machine Learning Approach
  11. Detecting Wikipedia Vandalism viaSpatio-Temporal Analysis of Revision Metadata
  12. Detecting Vandalism on Wikipediaacross Multiple Languages
  13. Potthast, Martin; Stein, Benno; Gerling, Robert (2008), Macdonald, Craig; Ounis, Iadh; Plachouras, Vassilis; Ruthven, Ian (eds.), "Automatic Vandalism Detection in Wikipedia", Advances in Information Retrieval (به انگلیسی), Springer Berlin Heidelberg, vol. 4956, pp. 663–668, doi:10.1007/978-3-540-78646-7_75, ISBN 9783540786450, retrieved 2019-06-14
  14. Adler, B. Thomas; de Alfaro, Luca; Mola-Velasco, Santiago M.; Rosso, Paolo; West, Andrew G. (2011), "Wikipedia Vandalism Detection: Combining Natural Language, Metadata, and Reputation Features", Computational Linguistics and Intelligent Text Processing, Springer Berlin Heidelberg, pp. 277–288, ISBN 9783642194368, retrieved 2019-06-14
  15. Detecting Wikipedia Vandalism via SpatioTemporal Analysis of Revision Metadata
  16. Language of vandalism: improving Wikipedia vandalism detection via stylometric analysis

پیوندهای بیرونی[ویرایش]

دادگان انگلیسی