الگوریتم‌ها در برابر نوع بشر

در اکتبر سال 2005 به مناسبت شصتمین سالگرد ارایه‌ی طرح پیشنهادی MANIAC توسط فون نویمان و ACE توسط الن تورینگ، جورج دایسن¹ مورخ علم و فناوری به دفتر مرکزی گوگل در کالیفرنیا دعوت شد تا به این سازمان و اجرای دقیق راهبردی که الن تورینگ در ذهن داشت نگاهی بیندازد؛ این راهبرد همانا دعوت از تمام پرسش‌گران ممکن، جمع‌آوری تمام پاسخ‌های موجود و نگاشت ارتباط میان آن‌ها به عنوان نتیجه بود. در آن زمان گوگل به تازگی پروژه‌ی دیجیتالی کردنِ تمام کتاب‌های جهان را آغاز کرده بود و به دنبال آن به سرعت اعتراض‌ها نسبت به این پروژه شدت می‌گرفت؛ اعتراض‌ها نه از طرف نویسندگانِ کتاب‌ها که اغلب آنان خیلی وقت پیش مرده بودند، بلکه توسط عاشقان کتاب بود؛ آنان می‌ترسیدند کتاب‌ها، روح خود را از دست بدهند. اما این اعتراض چقدر درست بود؟ آیا ما با اسکن کتاب‌ها روح را از آنها می‌گیریم یا روح کتاب را اسکن و جسم آن را رها می‌کنیم؟

ترکیبی از تجسم فیزیکیِ فانی، با دانشی فناناپذیر و بی‌جسم هستند و هر نویسنده سعی می‌کند قطعه‌ای از حقیقت جهان را بر رشته‌ای تک‌بعدی از کلمات بریزد تا خواننده از درون این دریچه‌ی باریک به مشاهده‌ی آن بنشیند شاید که منظره‌ای سه‌بعدی در ذهن او شکل بگیرد. دانش درون یک کتاب، همانا روح آن است که می‌تواند ابدی باشد اگر از آن به‌خوبی محافظت شود.

برخی دیگر از معترضان بر حقوق مولفان تاکید داشتند که با این کار نقض خواهد شد اما گوگل برای رفع این مشکل برخی از قسمت‌ها یا کل کتاب‌هایی را که دارای حق کپی هستند از دسترس عموم خارج کرد. پرسشی که پیش می‌آید این است که چرا گوگل این سرمایه‌گذاری عظیم را برای ذخیره‌ی انبوه داده‌ها انجام داده است؟ یکی از مهندسان گوگل در آن بازدید برای جورج دایسن پاسخ این سوال را آشکار کرد: «ما همه‌ی آن کتاب‌ها را برای مطالعه‌ی مردم اسکن نمی‌کنیم، ما آن‌ها را برای خوانده شدن توسط هوش مصنوعی اسکن می‌کنیم.»

هوش مصنوعی که در حال خواندن تمام کتاب‌های جهان است، هر چیز دیگری را نیز می‌خواند، از جمله بیشتر کدهایی که توسط برنامه‌نویسان در طول چند دهه‌ی گذشته نوشته شده‌اند. این خواندن به مفهوم درک کامل نوشته‌ها نیست. هرچند شاید از درک ما نسبت به یک موجود زنده هنگام مطالعه‌ی ژنوم آن بیشتر باشد. این برنامه‌ی خاص، با یا بدون داشتن درک از آنچه می‌خواند در مواردی در بهبود تشخیص خود موفق بوده است. هفتاد سال گذشته، کدِ نوشته شده برای اجداد این هوش مصنوعی به چند صد خط محدود بود و این برنامه‌ بدون کمک انسان نمی‌توانست پردازش خود را ادامه دهد. امروز نیز هوش مصنوعی نیازمند توجه دایمی انسان است و درست مانند نوزاد انسانی، از راهبرد حفاظت توسط دیگری برای حفاظت از خود بهره می‌برد اما با توجه به انگیزه‌ی قوی انسان‌ها برای بقا، هیچ هوش مصنوعیِ واقعا باهوشی، اگر وجود داشته باشد، تا از امنیت خود مطمئن نشود خودش را برای ما آشکار نخواهد کرد. جورج تایسن بعد از جلسه‌ای که در گوگل داشت کتابی به نام «کلیسای جامع تورینگ: خاستگاه‌های جهان دیجیتال» منتشر کرد و برای اولین بار به مردم هشدار داد تا فعالیت‌های بنیان‌گذاران گوگل را با حساسیت بیشتری دنبال کنند.

درک معانی کلمات

حالا دیگر گوگل محصولات بیشتری نسبت به گذشته دارد مثل سیستم عامل اندروید و کرومیوم، نقشه گوگل، اسپیکر گوگل هوم، یوتیوب و … که همگی رفتار و اطلاعات کاربران در سرتاسر جهان را ذخیره و به هوش مصنوعی برای پردازش ارایه می‌دهند اما گویا گوگل متوجه محدودیتی در هوش مصنوعی خود شده است: عدم درک زبان و معنای کلمات.

چندی پس از آغاز پروژه‌ی اسکن کتاب‌ها، لری پیج مدیرعامل گوگل با رِی کِرتزویل² دیدار و در شرکت تازه تاسیس او سرمایه‌گذاری کرد. کرتزوایل یکی از موفق‌ترین آینده‌پژوهان در حوزه‌ی فناوری است. او تاکنون 147 پیش‌بینی موفق داشته است. کرتزویل خیلی زودتر از گوگل به این نتیجه رسیده بود که سیستم‌های عصبی موازی که در پردازش‌های هوش مصنوعی از آنها استفاده می‌شود شبیه‌ساز مناسبی برای مغز نیستند. او در کتاب خود «چگونه یک ذهن خلق کنیم»³ توضیح می‌دهد که سلول‌های نیوکورتکس⁴ در مغز انسان مسئول اصلی درک حواس، شناساییِ دیداریِ اشیاء و استخراج مفاهیم انتزاعی از آنها، کنترل حرکت، استدلال کردن در موارد مختلف از جهت‌یابی فضایی تا تفکر منطقی و درک زبان است؛ اساسا، هرآنچه که ما به آن «فکر کردن» می‌گوییم در نیوکورتکس انجام می‌شود. دانشمندان عصب‌شناسی با بررسی‌های خود متوجه شدند که ساختار بنیادی نیوکورتکس دارای یکنواختی خارق‌العاده‌ای است و سازمان‌دهی این یکنواختی به صورت واحدهایی از ستون‌های قشری است که بارها و بارها تکرار شده‌اند. از منظر کرتزویل هر یک از این ستون‌ها ماژولی است برای شناسایی و ذخیره‌ی الگوها و در طول زندگی یک انسان این ستون‌ها به مرور به یکدیگر متصل شده و نوعی سیم‌کشی ایجاد می‌کنند. این سیم‌کشی که بیان‌گر الگوهایی است که در طول زمان آموخته‌ایم بسته به نوع تجربیات و آموزش‌ها، در هر انسانی به گونه‌ای یکتا شکل می‌گیرد؛ اینجا در حقیقت از دانشی که درون ژنوم انسان ذخیره شده است فراتر می‌رویم چرا که این نوع سیم‌کشی از آغاز در کدهای ژنوم انسان نبوده است.

نوع بشر نسبت به کامپیوتر توانایی ضعیف‌تری در پردازش منطقی دارد، اما قابلیت بنیادین عمیقی در شناسایی و تشخیص الگوها دارد. ما برای تفکر منطقی باید از نیوکورتکس استفاده کنیم که یک دستگاه عظیم شناسایی الگو است البته این دستگاه برای انجام محاسبه‌های منطقی خیلی ایده‌آل نیست با این حال برای انجام کارها فعلا همین امکانات را داریم. نرم‌افزار دیپ بلو⁵ که در سال 1997 گَری کاسپاروف را شکست داد در هر ثانیه قادر بود 200 میلیون موقعیت شطرنج را تجزیه و تحلیل کند. از کاسپاروف پرسیدند در هر ثانیه چند موقعیت شطرنج را می‌تواند تجزیه و تحلیل کند، وی پاسخ داد کمتر از یکی! با این حال در سه بازی، کاسپاروف یک بار دیپ بلو را شکست داد یک بار مساوی کرد و بار آخر شکست خورد. این توانایی در مواجهه با قدرت پردازش بالای دیپ بلو به دلیل قدرت بالای انسان در شناسایی و تشخیص الگوها است هرچند این توانایی نیازمند تمرین زیاد است به همین دلیل، همه نمی‌توانند استاد شطرنج شوند.

به این ترتیب کرتزویل در حال حاضر روی پروژه‌ی شبیه‌سازی شبکه‌ی ماژول‌هایِ شناسایی الگو کار می‌کند، و همین امر لری پیج را به پروژه‌ی او علاقه‌مند کرد. علاوه بر سرمایه‌گذاری، لری پیج به کرتزویل پیشنهاد داد به این موضوع فکر کند که چگونه می‌توانیم به جای جستجوی کلیدواژه‌ها به جستجوی معانی بپردازیم؟ کرتزویل راه‌حل را در توانایی ماشین در درک زبان می‌داند. او در حال حاضر پیش‌بینی کرده است که با کمک ماژول‌های شناسایی الگو و کار روی سیستم هوش مصنوعی برای درک زبان تا سال 2029 کاملا به این توانایی دست پیدا خواهیم کرد. محصولات گوگل مخصوصا اسپیکر گوگل هوم با ضبط صدای میلیون‌ها انسان در سرتاسر جهان، مستقیما به کرتزویل در انجام این پروژه کمک می‌کنند.

یادگیریِ تقویتی

همزمان با این جریان، مهندسان گوگل بر روی سایر الگوریتم‌های هوش مصنوعی نظیر الگوریتم‌های یادگیری تقویتی⁶ نیز کار می‌کنند. در برخی نمونه‌ها این الگوریتم سعی می‌کند با پردازش تصاویر به عنوان ورودی و با دانستن هدف، که معمولا به حداکثر رساندن امتیاز است و بدون داشتن هیچ اطلاعی از مفهوم تصاویر، بهترین راه رسیدن به هدف را پیدا کند. در این راه هرگاه الگوریتم به هدف می‌رسد یا به آن نزدیک می‌شود پاداش دریافت می‌کند. با پردازش این پاداش‌ها الگوریتم به تدریج بهینه‌ترین راه رسیدن به هدف را پیدا می‌کند. این الگوریتم‌ها بسیار پیچیده هستند و بررسی بیشتر یادگیری تقویتی به بحث مفصلی نیاز دارد که در اینجا مجال آن نیست. در ادامه تنها به برخی جنبه‌های ظاهری و خطرات احتمالی استفاده از آن می‌نگریم.

دانشمندان علوم رایانه اغلب اذعان داشته‌اند که در هنگام شروع پروژه تصوری از مسایل سخت و آسان داشته‌اند اما در اکثر اوقات، در هنگام پیاده‌سازی کاملا با خلاف آنچه تصور کرده بودند روبه‌رو شده‌اند. در زمانه‌ای که الگوریتم دیپ بلو توانست کاسپاروف را شکست دهد، در حوزه‌ی رباتیک بهترین نمونه‌ی ساخته‌شده‌، جاروبرقی خودکار بود که وقتی به سه کنج اتاق می‌رسید گیر می‌کرد و نمی‌توانست خود را نجات دهد. این وضعیت دانشمندان علوم رایانه را به این نتیجه رساند که ما در نرم‌افزار بسیار پیشرفت کرده‌ایم و باید روی رباتیک بیشتر کار کنیم. دو دهه بعد، ربات‌ها آن‌چنان پیشرفت کردند که به راحتی طیف گسترده‌ای از حرکات و وظایف را می‌توانستند انجام دهند اما دانشمندان وقتی زمان آن رسید که نرم‌افزاری را به ربات الصاق کنند تا خودش یاد بگیرد چه‌طور بطری را برداشته و یک لیوان را از آب پر کند متوجه شدند که این کار به غایت دشوار و چالش برانگیز است. اینجا بود که متوجه شدند در حوزه‌ی نرم‌افزار بسیار کند پیش رفته‌اند و در پی آن، در سال‌های اخیر توجه به الگوریتم‌های یادگیریِ تقویتی به عنوان راه‌حلی برای این چالش‌ها بسیار مورد توجه قرار گرفته است.

نکته دیگری که در مورد یادگیری تقویتی باید به آن توجه کرد تنظیم هدف در این الگوریتم‌ها است. در هنگام تنظیم هدف باید دقت لازم را داشته باشیم وگرنه مثل پادشاهی می‌شویم که آرزو کرد دست به هرچیزی بزند طلا شود؛ وقتی آرزوی پادشاه برآورده شد فهمید دیگر نمی‌تواد غذا یا آب بخورد چون هنگام لمس آنها به جای غذا، طلا نصیبش می‌شد. به عبارتی هدف‌ها و پاداش‌هایی که به الگوریتم داده می‌شود باید به دقت و با حفظ اولویت‌ها تنظیم شوند. با توجه به این که الگوریتم‌های یادگیری تقویتی اساسا بر مبنای صورت‌بندی هدف، و دریافت پاداش در هنگام رسیدن یا نزدیک شدن به هدف پیاده‌سازی می‌شوند، گاهی خروجی کار خنده‌دار و یا به طور وحشتناکی زیان‌بار می‌شود. در یک مورد، هدف ربات این بود که بالا بپرد و پاداشی که دریافت می‌کرد مقدار فاصله‌ی پای ربات تا زمین بود، نتیجه نهایی بعد از یادگیری این شد که هرگاه به ربات می‌گفتند بپر حرکتی شبیه به پشتک وارو انجام می‌داد و زمین می‌خورد چون الگوریتم یاد گرفته بود با این کار فاصله بیشتری از زمین پیدا می‌کند و در نتیجه پاداش بیشتری می‌گیرد. نمونه‌ها همیشه مثل این خنده‌دار نمی‌شوند در ادامه استفاده شبکه‌های اجتماعی از الگوریتم یادگیری تقویتی را بررسی می‌کنیم.

خروجیِ پیش‌بینی نشده

در سال 2010 یک فعال اینترنتی به نام ایلای پریسر⁷ از اصطلاحی به نام فیلترینگ حبابی⁸ استفاده کرد تا نشان دهد چگونه شبکه‌های اجتماعی، موتورهای جستجو و برخی سایت‌های خبری با آنالیز رفتار و علایق کاربران به پیش‌فرض‌هایی از کاربر دست پیدا می‌کند و سپس طبق آن، محتوایی را در تایم‌لاین کاربر نمایش می‌دهد که مورد پسند وی باشد و به این ترتیب آنان را درون یک حباب ذهنی منزوی می‌کنند و در نتیجه کاربر از سایر اطلاعات، عقاید و نظرها بی‌خبر می‌ماند.

حالا اگر همین مساله را از زاویه دیگری ببینیم یعنی از منظر الگوریتم‌های یادگیری تقویتی و افراد تنظیم‌کننده‌ی این الگوریتم‌ها، می‌فهمیم که تنظیم هدف این بوده است که درآمد حاصل از کلیک روی محتوا و تبلیغات باید به حداکثر برسد و الگوریتم، هر بار که موفق می‌شود کاربری را به کلیک ترغیب کند، پاداش می‌گیرد. شاید پیش‌بینی برنامه‌نویسان این بوده که الگوریتم به مرور و با دریافت اطلاعاتِ کلیک‌هایی که کاربر روی لینک‌ها انجام می‌دهد، با علایق، ویژگی‌ها و نیازهای کاربر آشنا می‌شود و در راستای همان ویژگی‌ها مطالب مورد علاقه کاربر را گلچین می‌کند. اما این چیزی نیست که الگوریتم‌های یادگیری تقویتی انجام می‌دهند؛ بنیان این الگوریتم‌ها این است که در محیطی که حضور پیدا می‌کنند بیشترین پاداش را بدست بیاورند. در این مورد، محیط همان ذهن انسان است و پاداش در حقیقت این است که کاربر بیشتر قابل پیش‌بینی باشد. بنابراین الگوریتم روی ذهن کاربر کار می‌کند تا عمل او را پیش‌بینی‌پذیرتر کند. این الگوریتم‌ها به مرور زمان و کم‌کم مقالاتی را برای کاربر ارسال می‌کنند تا او را از نظر گرایش‌های ذهنی به سمتی سوق دهند که بیشتر قابل پیش‌بینی باشد و در نتیجه، کلیک‌کننده قابل پیش‌بینی‌تری باشد و این تنها چیزی است که الگوریتم به آن اهمیت می‌دهد. اگر به عنوان مثال کاربران با طیف‌های مختلف سیاسی را بر روی یک خط فرضی رسم کنیم به طوری که در گوشه راست، کاربران با عقاید سیاسی راست رادیکال و در گوشه چپ کاربران با عقاید چپ رادیکال و در میانه کاربران معتدل قرار داشته باشند، آنگاه هر چه به گوشه‌ها حرکت کنیم می‌بینیم آنها قابل پیش‌بینی‌تر می‌شوند چراکه چشم‌انداز باریک‌تری از جهان دارند در نتیجه با اشتیاق روی مطالبی کلیک می‌کنند که دقیقا با جهان‌بینی آنان تطابق دارد و صحتِ عقاید آنان را تایید می‌کند. اما رفتار کاربری که در میانه طیف قرار دارد به سختی قابل پیش‌بینی است چون مطالب مورد علاقه آنان شامل انواع گسترده‌تری از دیدگاه‌ها است و در نتیجه تنها روی یک دیدگاه خاص تمرکز نمی‌کنند. برای الگوریتم‌ها کار بسیار دشواری است که این نوع کاربران را برای کلیک روی یک مطلب خاص ترغیب کنند. به این ترتیب الگوریتم‌ها یاد می‌گیرند که کاربران را به سمت گوشه‌های افراطی طیف‌های سیاسی هل دهند تا کاربرانِ پیش‌بینی‌پذیرتری باشند تا کلیکِ بیشتری کنند و در نهایت پاداش بیشتری برای الگوریتم به ارمغان بیاورند. به نظر می‌رسد با ادامه این روند و تاثیرگذاری روزافزون شبکه‌های اجتماعی و موتورهای جستجو بر روی مردم، در آینده جوامع انسانی هرچه بیشتر به سمت افراطی‌گری و کاهش مدارا و تحمل دیدگاه‌های متفاوت، حرکت کنند. در زمان حاضر نیز می‌توانیم ببینیم که سیاستمداران افراطی به تدریج قدرت بیشتری به دست می‌آورند و نرخ حملات تروریستی مسلمانان بر علیه مسیحیان و مسیحیان بر علیه مسلمانان کاهش نداشته است.

با دستیابی گوگل و سایر غول‌های نرم‌افزاری به فناوری تشخیص معانی واژگان و ترکیب آن با انواع الگوریتم‌های هوش مصنوعی نظیر یادگیری تقویتی و شروع پردازش روی انبوه داده‌هایی که تاکنون ذخیره کرده‌اند، در آینده شاهد نرم‌افزارهایی خواهیم بود که مثلا صبح شنبه، روشن می‌شوند و در ظهر سه‌شنبه معلوماتی به اندازه کل کتابهای جهان به علاوه تمام محتوای اینترنت دارند و البته این بار به درکی از معانی این اطلاعات نیز دست یافته‌اند و از آن برای تصمیم‌گیری استفاده می‌کنند. سوال این است که دانشمندانی که روی این الگوریتم‌ها کار می‌کنند چگونه مطمئن می‌شوندکه خروجی این الگوریتم‌ها در راستای منافع نوع بشر است. اصولا قبل از اجرای برنامه چگونه می‌توان نتایجِ عملیِ اجرایِ یک الگوریتمِ یادگیری با مکانیزم حرکت به سمت هدف برای رسیدن به پاداش بیشتر را پیش‌بینی و عملکرد آن را ضمانت کرد؟ آیا می‌توانیم مطمئن شویم سیستم‌های فوق هوشمندی که در آینده طراحی می‌شوند خلاف نظر و اهداف ما نیستند؟ در عمل، حل این مسأله به طرز ناباورانه‌ای ناممکن به نظر می‌رسد؛ اول این که تنظیم و نوشتن خود اهداف یا آرزوهای ما به‌طوری که با هم تداخل نداشته باشند دشوار است و دوم این که باید تمام راه‌های غیرمعمول و ناخواسته‌ای را که ماشین فوق‌هوشمند برای تحقق اهداف ما پیدا می‌کند، پیش‌بینی و از وقوع آن جلوگیری کنیم.

“آینده نفت و گاز ایران”

ماهنامه پیشران شماره خردادماه 98

اگر سیستم‌های فوق هوشمند مصنوعی را مانند یک جعبه سیاه ببینیم که از درون آن خبر نداریم آنگاه هیچ امیدی برای حل مسأله نخواهیم داشت. در عوض، برای حل مسأله باید این رویکرد را اتخاذ کنیم: یک مشکلِ رسمی به نام F تعریف کنیم؛ بعد سیستم هوش مصنوعی‌ای که حل کننده‌ی F است را طراحی کنیم به‌طوری که در هر شرایطی و با صرف‌نظر از چگونگی حل F، ضمانت شده باشد که ما از راه‌حل خرسند خواهیم بود. اگر بتوانیم یک F با این ویژگی تنظیم کنیم آنگاه شاید به هوش مصنوعی قابل اعتماد و سودمند دست پیدا کنیم. البته در این روش، ماشین نباید اطلاعی از خرسندی ما داشته باشد چون بعد از این، راه‌حل نه در راستای حل مشکل که در راستای خرسندیِ انسان (صاحب ماشین) و دریافت پاداش بیشتر برای ماشین پیش خواهد رفت. در انتها باید به استادان، برنامه‌نویسان و دانشجویانِ فعال در حوزه‌ی هوش مصنوعی هشدار دهیم همیشه به خود یادآوری کنند که پیچیده‌گی‌هایِ پیاده‌سازیِ الگوریتم‌هایِ هوشِ مصنوعی، آنان را از اندیشیدن به راه‌حل مناسب برای پیشگیری از خروجی‌های پیش‌بینی‌نشده غافل نسازد. در واقع، هر هوش مصنوعی ممکن است در مسیری شگفتی‌ساز و خارج از سناریوهای باورپذیر حرکت کند. همیشه باید راهی باقی گذاشت که در چنین شرایطی، کنترل ماشین امکان داشته باشد. دشواری همین جا است. هوشی که نتایج آن در تناقض با هوش ما قرار گیرد، هوشی است فرودست و فرمان‌پذیر! مرزبندی میان عمل به تشخیص ماشین و تشخیص انسانی، کار آسانی نیست.

نویسنده: مجتبی یکتا؛ برنامه‌نویس ارشد
ماهنامه پیشران (آینده‌پژوهی کسب‌وکار)/خردادماه 98

پی‌نوشت؛

George Dyson ا[1]
Ray Kurzweil ا[2]
How to Create a Mind: The Secret of Human Thought Revealed ا[3]
neocortex ا[4]
Deep Blue ا[5]
Reinforcement Learning ا[6]
Eli Pariser ا[7]
filter bubble ا[8]