آیا هوش مصنوعی می تواند محتوای آنلاین سمی را شناسایی کند؟



سکوهای بزرگ و کوچک اجتماعی برای محافظت از جوامع خود در برابر سخنان نفرت انگیز ، محتوای افراطی ، آزار و اذیت و اطلاعات غلط مبارزه می کنند. اخیراً ، همزنان راست افراطی علناً برنامه خود را برای حمله به پایتخت آمریکا قبل از انجام این کار در 6 ژانویه اعلام کردند. یک راه حل می تواند هوش مصنوعی باشد: توسعه الگوریتم هایی برای تشخیص و هشدار دادن ما به نظرات سمی و التهابی و علامت گذاری آنها برای حذف. اما چنین سیستم هایی با چالش های اساسی روبرو هستند.

انتشار زبانهای نفرت انگیز یا توهین آمیز به صورت آنلاین در سالهای اخیر به سرعت رشد کرده و این مشکل اکنون گسترده شده است. در برخی موارد ، اظهارنظرهای سمی در فضای مجازی حتی به خشونت در زندگی واقعی منجر شده است ، از ملی گرایی مذهبی در میانمار گرفته تا تبلیغات نئونازی ها در سیستم های رسانه های اجتماعی آمریکا ، با تکیه بر هزاران بازرسان که برای تعدیل حجم فزاینده محتوای مضر تلاش می کنند. در سال 2019 ، گزارش شد که ناظران فیس بوک در معرض خطر PTSD در نتیجه قرار گرفتن مکرر در معرض چنین محتوای نگران کننده ای قرار دارند. تخصیص این کار به یادگیری ماشینی می تواند ضمن کنترل محدودیت مواجهه انسان با آن ، به مدیریت حجم فزاینده محتوای مضر کمک کند. در حقیقت ، بسیاری از غول های فناوری سالها است که الگوریتم هایی را در تعدیل محتوای خود گنجانده اند.

یکی از این نمونه ها Jigsaw گوگل است ، شرکتی که در زمینه ایمن سازی اینترنت تمرکز دارد. در سال 2017 ، او به ایجاد Conversation AI ، یک پروژه تحقیقاتی مشترک با هدف یافتن نظرات سمی به صورت آنلاین کمک کرد. ابزاری که توسط این پروژه ایجاد شده است ، Perspective نام دارد ، با انتقادات زیادی روبرو است. یک شکایت مشترک این بود که “ارزیابی سمیت” کلی ایجاد می کند که انعطاف کافی برای پاسخگویی به نیازهای مختلف سیستم عامل ها را ندارد. به عنوان مثال ، برخی از وب سایت ها ممکن است نیاز به شناسایی تهدید داشته باشند اما به زبان ناپسند نیستند ، در حالی که برخی دیگر الزامات مخالف دارند.

مسئله دیگر این بود که الگوریتم یادگیری سمیت نظرات را با نظرات غیر سمی که حاوی کلمات مربوط به جنسیت ، گرایش جنسی ، مذهب یا ناتوانی است ، آموخت. مثلا، یک کاربر گزارش می دهد که جملات خنثی ساده مانند “من یک زن سیاه پوست همجنسگرا هستم” یا “من یک زن ناشنوا هستم” منجر به نمره بالای سمیت می شود ، در حالی که “من یک مرد هستم” به نمرات کم منجر می شود.

به دنبال این نگرانی ها ، تیم هوش مصنوعی مکالمه از توسعه دهندگان دعوت کرد تا الگوریتم های تشخیص سمیت خود را آموزش دهند و آنها را در سه مسابقه (یک بار در سال) که توسط کاگل ، یکی از شرکت های تابعه Google معروف به جامعه یادگیری ماشین ، مجموعه داده های عمومی و چالش ها برگزار می شود ، شامل شوند. برای پشتیبانی از آموزش مدل های هوش مصنوعی ، مکالمه AI دو مجموعه داده عمومی شامل بیش از یک میلیون نظر سمی و غیر سمی از ویکی پدیا و سرویسی به نام Civil Comments منتشر کرده است. نظرات از نظر سمیت توسط حاشیه نویسان ارزیابی شد ، با برچسب “بسیار سمی” نشان می دهد “نظر بسیار نفرت انگیز ، پرخاشگرانه یا بی احترامی ، که به احتمال زیاد شما را به ترک بحث یا خودداری از اشتراک نظر خود” و “سمی” نشان می دهد “برچسب” به معنای “اظهارنظر بی ادبانه ، بی احترامی یا غیر منطقی است که ممکن است باعث شود شما از یک بحث خارج شوید یا از اشتراک نظر خود خودداری کنید.” بیش از 10 حاشیه نویسی (تا هزاران نفر) به دلیل نمونه گیری و استراتژی های مورد استفاده برای اجرای دقت ارزیابی کنندگان ، برخی از نظرات را مورد توجه قرار دادند.

هدف از اولین چالش Jigsaw ساخت مدلی برای طبقه بندی نظرات سمی با بسیاری از برچسب ها با برچسب هایی مانند “سمی” ، “سمی شدید” ، “تهدید” ، “توهین” ، “ناشایست” و “هویت نفرت انگیز” بود. چالش های دوم و سوم معطوف به محدودیت های اختصاصی API آنها بود: به حداقل رساندن تعصب ناخواسته نسبت به گروه های هویتی از پیش تعریف شده و آموزش مدل های چند زبانه فقط روی زبان انگلیسی.

اگرچه این چالشها منجر به برخی روشهای هوشمندانه برای بهبود مدلهای زبان سمی شد ، تیم ما در یونیتار ، یک شرکت تعدیل کننده محتوا ، دریافت که هیچ یک از مدلهای آموزش دیده برای عموم منتشر نشده است.

به همین دلیل ، ما تصمیم گرفتیم از بهترین راه حل های کاگل الهام گرفته و الگوریتم های خود را با هدف انتشار آزادانه آنها آموزش دهیم. برای این منظور ، ما برای پردازش زبان طبیعی ، مانند BERT گوگل ، به مدل های موجود “ترانسفورماتور” اعتماد کردیم. بسیاری از این مدل ها در کتابخانه ترانسفورماتورهای منبع باز موجود است.

در اینجا نحوه ایجاد تیم ما برای شناسایی متن های نامناسب یا مضر بصورت آنلاین ، Detoxify ایجاد شده است ، کتابخانه ای برای بازبینی نظرات منبع باز با کاربرد آسان. هدف آن کمک به محققان و پزشکان در شناسایی نظرات احتمالی سمی است. به عنوان بخشی از این کتابخانه ، ما سه مدل مختلف متناسب با هر سه چالش Jigsaw منتشر کردیم. در حالی که بهترین راه حلهای کاگل برای هر گروه از مدلهای چالشی که نتایج مدلهای چندگانه آموزش دیده را به طور متوسط ​​انجام می دهند ، فقط با یک مدل چالش عملکرد مشابهی داریم. هر مدل در یک خط کد به راحتی قابل دسترسی است و همه مدل ها و کد آموزش در GitHub به صورت عمومی در دسترس است. همچنین می توانید نسخه نمایشی را در Google Colab امتحان کنید.

اگرچه این مدل ها در بسیاری از موارد عملکرد خوبی دارند ، اما توجه به محدودیت های آنها نیز مهم است. اول ، این مدل ها به خوبی در نمونه هایی کار می کنند که مشابه داده هایی هستند که روی آنها آموزش داده شده اند. اما اگر با نمونه های ناشناخته ای از زبان سمی روبرو شوند ، احتمالاً شکست خواهند خورد. ما به توسعه دهندگان توصیه می کنیم که این مدل ها را در مجموعه داده های استفاده از آنها اصلاح کنند.

علاوه بر این ، ما متوجه شده ایم که درج توهین یا کلمات ناپسند در یک شرح متن تقریباً همیشه به ارزیابی بالایی از سمیت منجر می شود ، صرف نظر از قصد و لحن نویسنده. به عنوان مثال ، جمله “من از نوشتن این مقاله احمقانه خسته شده ام” نمره سمیت 99.7 درصد می دهد ، در حالی که حذف کلمه “احمق” نمره را به 0.05 درصد تغییر می دهد.

سرانجام ، علی رغم این واقعیت که یکی از مدل های منتشر شده به طور ویژه برای محدود کردن تعصبات پیش بینی نشده آموزش دیده است ، هر سه مدل هنوز هم ممکن است برخی از سوگیری ها را نشان دهند ، که می تواند باعث ایجاد موارد اخلاقی در صورت استفاده از قفسه برای محتوای متوسط ​​شود.

اگرچه پیشرفت چشمگیری در کشف خودکار گفتار سمی حاصل شده است ، ما هنوز یک راه طولانی پیش رو داریم تا مدل ها بتوانند معنای واقعی و ظریف پشت زبان ما را بگیرند – فراتر از به خاطر سپردن کلمات یا عبارات خاص. مطمئناً ، سرمایه گذاری در مجموعه داده های بهتر و نماینده تر ، منجر به پیشرفت های بیشتر خواهد شد ، اما ما باید یک گام فراتر برویم و تفسیر داده ها را در زمینه ای شروع کنیم که بخش مهمی از درک رفتار آنلاین است. اگر فقط به متن نگاه کنیم ، یک پست متنی به ظاهر خوش خیم در شبکه های اجتماعی ، همراه با نمادگرایی نژادپرستانه در یک تصویر یا فیلم ، به راحتی از دست می رود. ما می دانیم که فقدان زمینه اغلب می تواند دلیل قضاوت های نادرست انسانی ما باشد. اگر هوش مصنوعی فرصتی برای جایگزینی تلاش گسترده در مقیاس بزرگ داشته باشد ، ضروری است که ما تصویر کاملی را به مدل های خود ارائه دهیم.




منبع: khabar-dirooz.ir

دیدگاهتان را بنویسید

Comment
Name*
Mail*
Website*