چرا هوش مصنوعی باید بتواند تمام زبان های جهان را درک کند



هنگامی که از آیساتو ، دوست جدیدمان از یک روستای روستایی در گینه ، آفریقای غربی ، خواستیم شماره تلفن های ما را به تلفن او اضافه کند تا بتوانیم ارتباط خود را حفظ کنیم ، او به سوسو پاسخ داد: “مأمومه نوما. مأمو خرانخی “من نمی توانم چون به مدرسه نرفتم.” آیساتو فاقد تحصیلات رسمی ، به زبان فرانسه نمی خواند و نمی نویسد. اما ما معتقدیم كه عدم تحصیلات آیساتو نباید مانع دسترسی وی به خدمات اولیه تلفنی شود. همانطور که می بینیم این است که تلفن Aissatou زبان محلی خود را نمی فهمد.

سیستم های رایانه ای باید با روشی که مردم – همه مردم – از زبان دارند سازگار شوند. آفریقای غربی هزاران سال با زبان خود صحبت می کنند ، سنت های غنی تاریخ شفاهی ایجاد می کنند که با آوردن داستان های اجدادی زنده و دیدگاه های تاریخی و انتقال دانش و اخلاق ، به جوامع خدمت می کنند. رایانه ها می توانند به راحتی از این سنت شفاهی حمایت کنند. در حالی که رایانه ها معمولاً برای استفاده با زبان های نوشتاری طراحی می شوند ، فناوری مبتنی بر گفتار وجود دارد. با این حال ، فن آوری گفتار به هیچ یک از 2000 زبان و گویش صحبت شده توسط آفریقایی ها “صحبت نمی کند”. Apple Siri ، دستیار Google و Alexa آمازون به طور مشترک از صفر زبان آفریقایی استفاده می کنند.

در حقیقت ، مزایای فن آوری تلفن همراه برای اکثر 700 میلیون بی سواد در جهان که جدا از استفاده های ساده مانند پاسخگویی به تماس تلفنی ، نمی توانند به ویژگی های ساده مدیریت ارتباطات یا پیام کوتاه دسترسی داشته باشند ، در دسترس نیست. از آنجا که بیسوادی با کمبود آموزش و در نتیجه ناتوانی در تکلم به یک زبان جهانی مشترک ارتباط دارد ، فناوری گفتار برای کسانی که بیشتر به آن نیاز دارند در دسترس نیست. از نظر آنها ، فن آوری تشخیص گفتار می تواند از بین سواد بی سوادی و دسترسی به اطلاعات و خدمات ارزشمند از اطلاعات کشاورزی گرفته تا مراقبت های پزشکی پر شود.

چرا محصولات فن آوری گفتار به زبان های آفریقایی و سایر زبان های محلی در دسترس نیستند؟ زبانهایی که توسط جمعیت کمتری صحبت می شوند اغلب قربانی اولویت های تجاری هستند. بعلاوه ، گروههایی که بر کالاها و خدمات تکنولوژیکی قدرت دارند تمایل دارند به همان زبانها صحبت کنند ، که در نظر گرفتن گروههای مختلف را آسان می کند. آنها سخنرانان زبانهایی مانند زبانهای زیادی هستند که در آفریقای غربی صحبت می کنند به شدت نمایش داده نمی شود در آزمایشگاه های تحقیقاتی ، شرکت ها و دانشگاه هایی که فن آوری های تشخیص گفتار تاریخی را توسعه داده اند. کاملاً مشهور است که فناوری های دیجیتالی می توانند عواقب مختلفی را برای افراد از نژادهای مختلف به همراه داشته باشند. سیستم های فناوری ممکن است کیفیت یکسانی از خدمات را در اختیار کاربران مختلف قرار ندهند ، با برخی از گروه ها به گونه ای رفتار می کنند که گویی آنها وجود ندارند.

اولویت های تجاری ، قدرت و کم کاری چالش مهم دیگری را تشدید می کند: کمبود داده. توسعه فناوری تشخیص گفتار به مجموعه داده های حاشیه ای بزرگ نیاز دارد. زبانهای صحبت شده توسط افراد بی سواد که بیشترین بهره را از فناوری تشخیص صدا می برند معمولاً در گروه “کم منابع” قرار می گیرند ، که برخلاف زبانهای با منبع بالا ، تعداد کمی از داده ها در دسترس است. روش فعلی -Art برای مقابله با شکاف داده ها “یادگیری انتقال” است ، که دانش آموخته شده از زبانهای با منبع بالا را به وظایف یادگیری ماشین به زبانهای کم منبع منتقل می کند. اما آنچه که در واقع منتقل می شود ، درک درستی نیست و باید با دقت بیشتری برای معاملات بین ارتباط ، اندازه و کیفیت مجموعه داده های مورد استفاده برای آموزش انتقال بررسی شود. از آنجا که این فناوری امروزه وجود دارد ، صدها میلیون کاربر که طی دهه آینده آنلاین می شوند ، به زبانهایی که دستگاه های آنها سرویس می دهند صحبت نمی کنند.

اگر این کاربران بتوانند به خدمات آنلاین دسترسی پیدا کنند ، مزایای تعدیل محتوای خودکار و سایر محافظات مورد استفاده توسط سخنرانان زبان های رایج در سراسر جهان را از دست می دهند. حتی در ایالات متحده که مصرف کنندگان توجه و زمینه سازی را تجربه می کنند ، امنیت آنلاین افراد برای آنها دشوار است. در میانمار و فراتر از آن ، ما دیده ایم که چگونه انتشار سریع محتوای بدون تعدیل می تواند اختلافات اجتماعی را تشدید کرده و صداهای شدید تحریک کننده خشونت را تقویت کند. سو abاستفاده های آنلاین در جنوب جهانی به شکل دیگری ظاهر می شود. و اکثر طراحان WEIRD (غربی ، تحصیل کرده ، صنعتی ، ثروتمند و دموکرات) که زبانها و فرهنگهای محلی را نمی فهمند ، آمادگی خوبی برای پیش بینی یا جلوگیری از خشونت و تبعیض خارج از بافت فرهنگی خود ندارند.

ما در حال تلاش برای حل این مسئله هستیم. ما اولین مدلهای تشخیص گفتار را برای Maninka ، Pular و Susu ، زبانهایی که در کل 10 میلیون نفر در هفت کشور با حداکثر 68 درصد بی سوادی صحبت می کنند ، توسعه داده ایم. ما به جای استفاده از مجموعه داده های زبانهای غیرمرتبط با منابع بالا ، از داده های گفتاری استفاده کردیم که حتی در زبانهای کم منبع نیز وجود دارد: بایگانی های پخش. ما دو مجموعه داده را برای جامعه تحقیق جمع آوری کردیم. اولی ، سپاه رادیویی غرب آفریقا ، شامل 142 ساعت صدا در بیش از 10 زبان با زیر مجموعه مشخص شده برای تأیید است.

گروه دوم ، سپاه دستیار شناسایی مجازی آفریقای غربی ، از 10 هزار کلیپ صوتی دارای برچسب به چهار زبان تشکیل شده است. ما wav2vec آفریقای غربی ، رمزگذار گفتاری را که در بدنه پر سر و صدا رادیو آموزش دیده است ، ایجاد کردیم و آن را با رمزگذار گفتاری اساسی در فیس بوک مقایسه کردیم ، شش برابر داده با کیفیت بالاتر آموزش دید. ما نشان داده ایم که علی رغم کم بودن صدا و سر و صدای مجموعه رادیویی غرب آفریقا ، رمزگذار گفتار ما عملکردی مشابه خط پایه یک کار تشخیص گفتار چند زبانه دارد و به طور قابل توجهی از خط پایه کار شناسایی زبان آفریقای غربی فراتر می رود. سرانجام ، ما یک دستیار مجازی هوشمند چند زبانه برای بلندگوهای بی سواد را توسط Maninka ، Pular و Susu نمونه سازی کردیم (به فیلم زیر مراجعه کنید). ما در حال آزاد کردن مجموعه داده ها ، کد ها و مدل های آموزش دیده جامعه تحقیقاتی خود هستیم به این امید که این تلاش های بیشتر در این زمینه ها را تحت تأثیر قرار دهد.

https://www.youtube.com/watch؟v=6KS1fLQUn08

محاسبات اولیه می دانستند که برای در دسترس قرار دادن برنامه نویسی در توده مردم ، مجبور به ایجاد زبان های برنامه نویسی هستند که مردم به راحتی می توانند آنها را یاد بگیرند. حتی در آن زمان ، اولین زبان های سطح بالای برنامه نویسی بسیار فنی بودند. امروزه کاربران از چندین سطح انتزاع بهره می برند: برای خواندن این مقاله در رایانه خود نیازی به درک JavaScript ندارید و محققان هوش مصنوعی برای پیشرفت در علوم کامپیوتر نیازی به تعامل با کد اسمبلی ندارند.

با این حال ، رایانه ها هنوز به اندازه کافی توسعه نیافته اند تا در برخی جوامع مفید واقع شوند. آیساتو برای کمک به تحقیقات لازم نیست زبان مشترکی بخواند و بنویسد ، چه رسد به این که فقط با تلفن هوشمند خود تعامل داشته باشد.

بله ، چالش ایجاد رایانه هایی است که پیچیدگی های ارتباط شفاهی به هزاران زبان ، غنی از ویژگی های شفاهی مانند لحن و سایر معانی سطح بالا را درک کنند. اما در جایی که محققان تمرکز دارند ، می توان پیشرفت کرد. نوآوری ، دسترسی و امنیت نیاز به فناوری دارد که به تمام زبانهای جهان صحبت کند.


منبع: khabar-dirooz.ir

دیدگاهتان را بنویسید

Comment
Name*
Mail*
Website*