ابزارها در هوش مصنوعی

0 28 خواندن این مطلب 13 دقیقه زمان میبرد

ابزارها در هوش مصنوعی

در قسمت‌های پیشین از مجموعه مطالب «هوش مصنوعی چیست؟» به تاریخچه و مبانی، مسائل و رویکردهای این حوزه پرداخته شد. توجه به این نکته لازم است که این علم، موجب توسعه گستره وسیعی از ابزارها برای حل پیچیده‌ترین مسائل علوم کامپیوتر شده است. در این بخش، برخی از عمومی‌ترین ابزارهای این زمینه تشریح شده‌اند.

جست‌و‌جو و بهینه‌سازی

بسیاری از مسائل هوش مصنوعی، به صورت تئوری با جست‌و‌جوی هوشمند در میان راهکارهای متعدد موجود قابل حل هستند. به بیان دیگر، فرآیند استدلال کردن می‌تواند به جست‌و‌جو تقلیل یابد. برای مثال، اثبات منطقی را می‌توان به صورت جست‌و‌جوی مسیری دید که در آن پیش‌فرض‌ها به نتیجه ختم می‌شوند و هر گامی، یک کاربرد از قاعده استنتاج است. الگوریتم‌های برنامه‌ریزی به جست‌و‌جو در درخت‌های اهداف و زیر اهداف می‌پردازند و برای پیدا کردن مسیری جهت رسیدن به هدف تلاش می‌کنند. به این فرآیند، تحلیل‌های «به معنای پایان» (means-ends analysis) گفته می‌شود.

الگوریتم‌های رباتیک برای درک اشیا و حرکات اندام‌ها از «جست‌و‌جوی محلی» (local searches) در «فضای پیکربندی» (configuration space) استفاده می‌کنند. در عین حال، بسیاری از الگوریتم‌های یادگیری از الگوریتم‌های جست‌و‌جو بر پایه بهینه‌سازی بهره می‌برند. جست‌و‌جوهای جامع ساده به شکل نادری برای مسائل جهان واقعی مناسب هستند، زیرا فضای جست‌و‌جوی آن‌ها (تعداد محل‌هایی که جست‌و‌جو باید در آن انجام شود) به سرعت به ارقام نجومی رشد می‌کنند. نتیجه، جست‌و‌جویی است که به دلیل کندی زیاد هرگز به اتمام نخواهد رسید.

در این شرایط، راهکار بسیاری از مسائل استفاده از «اکتشاف» (heuristics) یا «قواعد سر انگشتی» (rules of thumb) است که انتخاب‌ها را به نفع مواردی که احتمال رسیدن به هدف در آن‌ها بیشتر محسوب می‌شود و همچنین طی گام‌های کمتری می‌توان به آن‌ها رسید، اولویت‌بندی می‌کنند. در برخی از روش‌های جست‌و‌جو، اکتشاف می‌تواند منجر به حذف کامل برخی از انتخاب‌هایی شود که احتمال رسیدن به هدف را ندارند (به این کار هرس کردن درخت جست‌و‌جو گفته می‌شود). اکتشاف، برنامه‌ای را با بهترین حدس برای مسیری که راهکارها قرار دارند تامین و جست‌و‌جو را برای راهکارهایی در سایز نمونه کوچک‌تر محدود می‌کند.

گونه‌ای متفاوت از جست‌و‌جو در سال ۱۹۹۰ مطرح شد که بر پایه نظریه ریاضیات بهینه‌سازی کار می‌کرد. برای بسیاری از مسائل، این احتمال وجود داشت که جست‌و‌جو با برخی از اَشکال حدس آغاز شود و سپس حدس‌ها به تدریج و تا زمانی‌که امکان پالایش بیشتر وجود نداشته باشد، پالایش شوند. این الگوریتم‌ها را می‌توان به صورت تپه‌نوردی (hill climbing)، بصری‌سازی کرد. در این الگوریتم‌ها، جست‌و‌جو در یک نقطه تصادفی در محیط آغاز شده و سپس طی پرش‌ها یا گام‌هایی، حدس‌ها تا رسیدن به قله بالا می‌روند.

از دیگر الگوریتم‌های بهینه‌سازی می‌توان به الگوریتم «تبرید شبیه‌سازی شده» (simulated annealing)، الگوریتم «جستجوی پرتو محلی» (beam search)، و «بهینه‌سازی تصادفی» (random optimization) اشاره کرد. «محاسبات تکاملی» (Evolutionary computation) نیز از گونه‌ای بهینه‌سازی استفاده می‌کند. برای مثال، ممکن است کار با جمعیت ارگانیزم‌ها (حدس‌ها) آغاز و سپس به آن‌ها اجازه جهش و بازترکیب با انتخاب بهترین موارد برای بقا در هر نسل داده شود (پالودن حدس‌ها).

الگوریتم‌های تکاملی کلاسیک، شامل ژنتیک، برنامه‌نویسی بیان ژن و برنامه‌نویسی ژنتیک می‌شوند. از سوی دیگر، فرآیندهای جست‌و‌جوی توزیع شده با «الگوریتم‌های هوش ازدحامی» (swarm intelligence algorithm) قابل هماهنگی هستند. دو الگوریتم محبوب هوش ازدحامی در جست‌و‌جو عبارتند از بهینه‌سازی ازدحام ذرات (particle swarm optimization) که از پرواز گروهی پرندگان و بهینه‌سازی کلونی مورچگان که از مسیر حرکت مورچگان الهام گرفته شده است.

منطق

«منطق» برای ارائه دانش و حل مساله استفاده می‌شود، اما روی دیگر مسائل نیز قابل اعمال هست. برای مثال، الگوریتم «صدق‌پذیری» (satplan algorithm) از منطق برای برنامه‌ریزی استفاده می‌کند و «برنامه‌نویسی منطقی القائی» (inductive logic programming) روشی برای یادگیری محسوب می‌شود.

چندین شکل مختلف از منطق در پژوهش‌های هوش مصنوعی استفاده می‌شود. «منطق گزاره‌ای» (Propositional logic) شامل توابع حقیقی مانند «or» یا «not» است. منطق مرتبه اول، سور (Quantifier) و محمول (Predicate) را می‌افزاید و حقایق را درباره اشیا، ویژگی‌ها و رابطه آن‌ها با یکدیگر شرح می‌دهد. نظریه مجموعه‌های فازی، درجه‌ای از صحت (بین ۰ و ۱) را به عبارت مبهمی مانند «Alice is old» (یا rich، یا tall یا hungry) تخصیص می‌دهد که به لحاظ زبانی به اندازه کافی درست یا غلط است.

منطق فازی به‌طور موفقی در سیستم‌های کنترل استفاده می‌شود تا برای کارشناسان امکان مشارکت در قوانین مبهم مانند «اگر تو به ایستگاه قطار نزدیکی و با سرعت حرکت می‌کنی، فشار ترمز قطار را افزایش بده» را فراهم کنند؛ این قوانین مبهم، می‌توانند به صورت عددی درون سیستم پالوده شوند. منطق فازی در مقیاس‌پذیری در پایگاه داده شکست می‌خورد؛ بسیاری از پژوهشگران هوش مصنوعی، اعتبار زنجیره استنتاج‌های منطق فازی را مورد سوال قرار می‌دهند.

«منطق پیش‌فرض» (Default logic)، «منطق غیر یکنواخت» (non-monotonic logic) و محدودیت (Circumscription) اشکالی از منطق طراحی شده برای کمک به استدلال پیش‌فرض و مسائل کیفی‌سازی (Qualification problem) هستند. چندین افزونه از منطق برای مدیریت دامنه‌های خاصی از دانش وجود دارند که از آن جمله می‌توان به «منطق توصیفی» (Description logic)، «محاسبات موقعیت» (Situation calculus)، «محاسبات رویداد» (Event calculus)، «محاسبات جاری» (Fluent calculus)، «محاسبات سببی» (causal calculus)، «محاسبات عقیده» (belief calculus) و «منطق موجهات» (Modal logic) اشاره کرد. به‌طور کلی، «منطق نمادین کیفی» شکننده است و در غیاب نویز یا عدم قطعیت مقیاس‌پذیری ضعیفی دارد. استثنائات در قوانین متعدد هستند و برای یک سیستم، منطقی کار کردن در غیاب قواعد متناقض دشوار است.

روش‌های احتمالاتی برای استدلال غیر قطعی

بسیاری از مسائل هوش مصنوعی (در استدلال، برنامه‌ریزی، یادگیری، ادراک و رباتیک) نیازمند عامل‌هایی برای کار کردن با اطلاعات غیر کامل یا ناقص هستند. پژوهشگران هوش مصنوعی، برای حل این مساله ابزارهای قدرتمندی طراحی کرده‌اند که از روش‌های نظریه احتمالات و اقتصاد استفاده می‌کند.

«شبکه‌های بیزی» (Bayesian network)، ابزاری عمومی و قابل استفاده برای حل گستره وسیعی از مسائل محسوب می‌شود. استدلال (با استفاده از الگوریتم استنباط بیزی)، یادگیری (با استفاده از الگوریتم امید ریاضی بیشینه کردن)، برنامه‌ریزی (با استفاده از شبکه‌های تصمیم) و ادراک (با استفاده از شبکه‌های بیزی پویا) از جمله این شبکه‌ها هستند. الگوریتم‌های احتمالاتی قابل استفاده برای فیلتر کردن، شامل پیش‌بینی، روان‌سازی و پیدا کردن توضیحات برای جریان‌های داده، کمک به سیستم‌های ادراکی برای تحلیل فرآیندهایی که در طول زمان به وقوع می‌پیوندند (برای مثال مدل پنهان مارکوف یا فیلترهای کالمان) هستند.

در مقایسه با منطق نمادین، استنباط رسمی بیزی از نظر محاسباتی گران است. برای آنکه استدلال‌ها قابل پیگیری شوند، اغلب مشاهدات باید دارای استقلال مشروط نسبت به دیگر موارد باشند. گراف‌های پیچیده دارای لوزی یا دیگر انواع حلقه‌ها (دایره‌های غیر مستقیم)، نیازمند روش‌های پیچیده‌ای مانند زنجیره مارکوف-مونت کارلو هستند که مجموعه‌ای از وِلگشت‌ها (Random walk) را از طریق شبکه‌های بیزی گسترش داده و تلاش می‌کند تا به یک ارزیابی از احتمالات شرطی همگرا شود.

شبکه‌های بیزی در ایکس‌باکس لایو (Xbox Live) برای امتیاز دهی و تطابق بازیکنان مورد استفاده قرار گرفته؛ در این سیستم امتیازدهی، پیروزی‌ها و شکست‌ها شواهدی هستند مبنی بر اینکه یک بازیکن چقدر خوب است. گوگل اَدسِنس (AdSense) از شبکه‌های بیزی با بیش از ۳۰۰ میلیون یال برای یادگیری اینکه کدام تبلیغ باید نمایش داده شود بهره می‌برند.

یک مفهوم کلیدی از دانش اقتصاد «مطلوبیت» (Utility) است. مطلوبیت، سنجه‌ای است که تعیین می‌کند یک چیز چقدر برای یک عامل هوشمند ارزشمند محسوب می‌شود. ابزارهای دقیق ریاضی توسعه یافته‌اند تا چگونگی انتخاب گزینه و برنامه‌ریزی عامل‌ها را با استفاده از نظریه تصمیم، تحلیل تصمیم و نظریه ارزش اطلاعات تحلیل کنند. این ابزارها شامل مدل‌هایی مانند فرآیندهای تصمیم‌گیری مارکوف، شبکه‌های تصمیم‌گیری پویا، نظریه بازی و طراحی مکانیزم می‌شوند.

دسته‌بندها و روش‌های یادگیری آماری

ساده‌ترین کاربردهای هوش مصنوعی را می‌توان به دو نوع تقسیم کرد: دسته‌بندی (اگر چیزی درخشان است پس الماس محسوب می‌شود) و کنترل‌گرها (اگر چیزی درخشان است پس آن را بردار). کنترل‌گرها، شرایط را پیش از استنباط اقدامات دسته‌بندی می‌کنند و بنابراین دسته‌بندی بخش مرکزی بسیاری از سیستم‌های هوش مصنوعی را تشکیل می‌دهد. دسته‌بندها توابعی هستند که از تطبیق الگو برای تشخیص نزدیک‌ترین مطابقت استفاده می‌کنند. آن‌ها را می‌توان مطابق مثال‌ها تنظیم و برای استفاده در مسائل هوش مصنوعی بسیار جذاب کرد.

این مثال‌ها به‌عنوان مشاهدات یا الگوها شناخته شده‌اند. در یادگیری نظارت شده، هر الگو متعلق به یک کلاس از پیش تعریف شده است. یک کلاس را می‌توان به عنوان تصمیمی دید که باید اتخاذ شود. کلیه مشاهداتی که دارای برچسب کلاس هستند جزئی از مجموعه داده محسوب می‌شوند. از همین رو در یک فرآیند دسته‌بندی، هنگامی که یک مشاهده جدید دریافت شد، بر اساس تجربیات پیشین مدل دسته‌بندی می‌شود.

یک دسته‌بند را می‌توان به روش‌های گوناگونی آموزش داد. رویکردهای آماری و یادگیری ماشین متعددی برای این کار وجود دارند. درخت تصمیم، احتمالا پر استفاده‌ترین الگوریتم یادگیری ماشین است. از دیگر دسته‌بندهایی که به‌طور گسترده استفاده می‌شوند می‌توان به شبکه‌های عصبی، الگوریتم نزدیک‌ترین همسایگی، روش‌های کرنل مانند ماشین بردار پشتیبان (support vector machine | SVM)، مدل ترکیبی گاوسی (Gaussian mixture model)، دسته‌بندهای بسیار محبوب نایو بیز و نسخه بهبود یافته درخت تصمیم-جریان تصمیم اشاره کرد. کارایی دسته‌بندها به شدت بستگی به مشخصات داده‌هایی که باید دسته‌بندی شوند، مانند اندازه مجموعه داده، ابعاد و میزان نویز دارد.

دسته‌بندهای مبتنی بر مدل، در صورتی عملکرد خوبی دارند که مدل مفروض برای داده‌ها مناسب باشد. در غیر این‌صورت، اگر هیچ مدل مطابقت‌داری یافت نشد، و در شرایطی که صحت (به جای سرعت یا مقیاس‌پذیری) تنها نگرانی باشد، خرد متعارف (conventional wisdom) یک دسته‌بند متمایز کننده است (به ویژه ماشین بردار پشتیبان) که به صحت بیشتری نسبت به دسته‌بندهایی مانند نایو بیز یا دیگر مجموعه داده‌های کاربردی گرایش دارد.

شبکه‌های عصبی مصنوعی

شبکه‌های عصبی (Neural networks یا Neural nets) از معماری نورون‌های مغز انسان الهام گرفته‌اند. یک نورون ساده N، ورودی را از دیگر نورون‌های چندگانه‌ای می‌پذیرد که هر یک از آن‌ها، هنگام فعال (یا اخراج) شدن، یک «رای» وزن‌گذاری شده را له یا علیه اینکه آیا نورون N فعال شود دریافت می‌کنند. یادگیری، نیازمند الگوریتمی برای تنظیم این وزن‌ها برپایه داده‌های آموزش است. یک الگوریتم ساده (fire together, wire together) برای افزایش وزن‌ها بین دو نورون متصل در شرایطی قابل استفاده است که فعال‌سازی یکی منجر به فعال‌سازی موفقیت‌آمیز دیگری می‌شود.

شبکه، مفاهیمی را شکل می‌دهد که در میان زیر شبکه‌هایی از نورون‌های به اشتراک‌گذاشته شده توزیع شده‌اند و گرایش به فعال شدن همزمان دارند. مفهومی که معنای «پا» می‌دهد، ممکن است با زیرشبکه‌ای که معنای «انگشت» می‌دهد جفت شود. نورون‌ها، طیف ممتدی از فعال‌سازی‌ها را دارند؛ به علاوه، نورون‌ها می‌توانند ورودی‌ها را به روش غیر خطی به جای وزن‌دهی رای‌های ساده پردازش کنند.

شبکه‌های عصبی مدرن، می‌توانند هم توابع ممتد و هم به‌طور قابل توجهی عملیات منطقی دیجیتال را بیاموزند. برخی از موفقیت‌های شبکه‌های عصبی شامل پیش‌بینی بازار سهام و خودروهای خودران (در ۱۹۹۵) می‌شود. در سال ۲۰۱۰، پیشرفت‌های به وقوع پیوسته در شبکه‌های عصبی با استفاده از یادگیری عمیق، هوش مصنوعی را به سمت آگاهی عمومی گسترده سوق داد و باعث افزایش سرمایه‌گذاری شرکت‌ها در حوزه هوش مصنوعی شد. برای مثال، ادغام‌های مرتبط با هوش مصنوعی در سال ۲۰۱۷، بیش از ۲۵ برابر بزرگ‌تر از سال ۲۰۱۵ بود.

مطالعه شبکه‌های عصبی مصنوعی، یک دهه پیش از آغاز پژوهش‌های هوش مصنوعی با تلاش‌هایی از «والتر پیتز» (Walter Pitts) و «وارن مک‌کلوچ» (Warren McCullouch) شروع شد. «فرنک روزنبلت» (Frank Rosenblatt)، پرسپترون را اختراع کرد که یک شبکه یادگیری با یک لایه مجرد شبیه به مفهوم قدیمی رگرسیون خطی است.

از پیشگامان این حوزه می‌توان به «الکسی گریگورویچ ایوکنینکو» (Alexey Grigorevich Ivakhnenko)، «تئوو کوهنن» (Teuvo Kohonen)، «استفان گروسبرگ» (Stephen Grossberg)، «کونیهکو فوکوشیما» (Kunihiko Fukushima)، «کریستف فان در مالزبرگ» (Christoph von der Malsburg)، «دیوید ویلشاو» (David Willshaw)، «شونکو دوهایچی دالالاماری» (Shun’ichi Amari)، «برنارد ویدرو» (Bernard Widrow)، «جان هاپفیلد» (John Hopfield)، «ادرواردو ار کاینیلو» (Eduardo R. Caianiello) اشاره کرد.

دسته‌های اصلی شبکه، شبکه‌های غیر مدور (آسیکلیک) یا شبکه‌های عصبی پیشخور (که در آن‌ها سیگنال تنها در یک جهت عبور می‌کند) و شبکه‌های عصبی بازگشتی (که دارای امکان بازخورد و حافظه کوتاه مدت برای رویدادهای ورودی هستند) است. شبکه‌های عصبی پیش‌خور، پرسپترون، پرسپترون چند لایه و شبکه‌های مبتنی بر شعاع از جمله محبوب‌ترین شبکه‌های عصبی هستند.

شبکه عصبی، قابل اعمال بر مساله کنترل هوشمند (برای رباتیک) یا یادگیری با استفاده از روش‌هایی مانند یادگیری هبین (Hebbian learning)، روش گروهی مدیریت داده (Group method of data handling | GMDH) و یادگیری رقابتی محسوب می‌شوند. امروزه، شبکه‌های عصبی اغلب به‌وسیله الگوریتم بازگشت به عقبی (backpropagation algorithm) آموزش می‌بینند که در سال‌های ۱۹۷۰ به عنوان حالت معکوس «مشتق خودکار» (Automatic differentiation) توسط «سپو لینما» (Seppo Linnainmaa) معرفی و به‌وسیله پائول وربوس وارد شبکه‌های عصبی شد.

حافظه زمانی سلسله‌مراتبی از برخی اشکال گرادیان نزولی در توپولوژی شبکه دست‌ساز استفاده می‌کند. اگرچه، برخی گروه‌های پژوهشی مانند اوبر (Uber)، چنین استدلال می‌کنند که تکامل عصبی (neuroevolution) ساده برای جهش توپولوژی‌های شبکه عصبی و وزن‌ها ممکن است با رویکرد گرادیان نزولی پیچیده در رقابت باشد. یکی از مزایای تکامل عصبی این است که این شبکه‌ها ممکن است گرایش کمتری به گیر افتادن در بن‌بست‌ها داشته باشند.

شبکه‌های عصبی پیش‌خور عمیق

«یادگیری عمیق» (Deep learning) یک شبکه عصبی مصنوعی است که می‌تواند زنجیره طویلی از پیوندهای سببی را بیاموزد. برای مثال، یک شبکه عصبی پیش‌خور با شش لایه پنهان می‌تواند یک زنجیره سببی هفت-لینکی را بیاموزد (شش لایه پنهان+لایه خروجی) و دارای یک مسیر تخصیص اعتبار (CAP) با عمق ده است.

بسیاری از سیستم‌های یادگیرنده باید قادر به یادگیری زنجیره‌هایی با طول ده یا تعداد بیشتری لینک سببی باشند. یادگیری عمیق زیر زمینه‌های مهمی از هوش مصنوعی را متحول کرد که از این جمله می‌توان به بینایی ماشین، بازشناسی گفتار، پردازش زبان طبیعی و دیگر موارد اشاره کرد.

براساس یک بررسی مروری، اصطلاح یادگیری عمیق در سال ۱۹۸۶ توسط ریانا دِکتر (Rina Dechter) در جامعه یادگیری ماشین مطرح و پس از آنکه به‌وسیله «ایگور آیزنبرگ» (Igor Aizenberg) و همکاران در سال ۲۰۰۰ به شبکه عصبی وارد شد، توجهات زیادی را به خود جلب کرد.

اولین شبکه‌های یادگیری عمیق تابعی توسط الکسی گریگورویچ ایواکننکو و وی جی لاپه (V. G. Lapa) در سال ۱۹۶۵ معرفی شدند. در این شبکه‌ها هر بار یک لایه آموزش می‌بیند. مقاله ایواکننکو در سال ۱۹۷۱ یادگیری پرسپترون چند لایه پیش‌خور عمیق با هشت لایه را تشریح می‌کند که در آن زمان از بسیاری شبکه‌های عصبی موجود عمیق‌تر بود.

در سال ۲۰۰۶، در اثر منتشر شده توسط «جئوفری هینتون» (Geoffrey Hinton) و «راسلان سالاخودینو»، روش دیگری از شبکه‌های عصبی پیش‌خور از پیش آموزش دیده (FNN) یک لایه در هر زمان معرفی شد که در آن با هر لایه به نوبه خود به عنوان یک ماشین بولتزمن محدود نظارت نشده رفتار، و سپس بازگشت به عقب نظارت شده برای تنظیم دقیق‌تر مورد استفاده قرار می‌گرفت.

مشابه با شبکه‌های عصبی مصنوعی کم عمق، شبکه‌های عصبی عمیق نیز می‌توانند روابط غیر خطی پیچیده را مدل کنند. طی سال‌های گذشته، پیشرفت‌های به وقوع پیوسته هم در الگوریتم‌های یادگیری ماشین و هم سخت‌افزارهای کامپیوتری، منجر به روش‌های کارآمدتری برای آموزش شبکه‌های عصبی عمیقی شد که دارای لایه‌های زیادی از واحدهای پنهان غیر خطی و لایه خروجی بسیار بزرگ هستند.

یادگیری عمیق اغلب از «شبکه‌های عصبی پیچشی» (convolutional neural networks) بهره می‌برد که ریشه آن‌ها به Neocognitron باز گشته و توسط کانیکو فوکوشیما در سال ۱۹۸۰ معرفی شدند. در سال ۱۹۸۹، «یان لکان» (Yann LeCun) و همکاران بازگشت به عقب را روی چنین معماری پیاده کردند. در اوایل سال ۲۰۰۰، در یک کاربرد صنعتی از CNN برای پردازش ۱۰٪ الی ۲۰٪ چک‌های نوشته شده در ایالات متحده آمریکا استفاده می‌شد. از سال ۲۰۱۱، پیاده‌سازی سریع CNN روی GPU منجر به پیروزی آن در بسیاری از رقابت‌های تشخیص الگوی بصری شد. با استفاده از CNN دارای ۱۲ لایه پیچشی در پیوستگی با یادگیری تقویتی در برنامه «آلفاوگو» (AlphaGo) که توسط ذهن عمیق گوگل (Deepmind) ایجاد شده، این برنامه توانست قهرمان جهان بازی GO را در سال ۲۰۱۶ شکست دهد.

شبکه‌های عصبی بازگشتی عمیق

یادگیری عمیق خیلی زود در یادگیری دنباله‌ای با شبکه‌های عصبی بازگشتی (RNN) اعمال شد. این شبکه‌ها که به صورت نظری تورینگ کامل محسوب می‌شوند، می‌توانند به‌طور خودسر برنامه‌هایی را برای پرداززش توالی‌های دلخواه از ورودی‌ها اجرا کنند. عمق یک RNN نامحدود است و بستگی به طول دنباله ورودی‌ها دارد؛ بنابراین، RNN مثالی از یادگیری عمیق محسوب می‌شود.

RNN را می‌توان از طریق گرادیان نزولی آموزش داد اما این رویکرد دارای مساله «از بین رفتن گرادیان» (vanishing gradient problem) است. در سال ۱۹۹۲، نشان داده شد که یک پشته نظارت نشده از پیش آموزش دیده از شبکه‌های عصبی بازگشتی می‌تواند یادگیری نظارت شده خلفی از مسائل توالی عمیق را سرعت ببخشد.

در حال حاضر پژوهشگران گوناگون از گستره متنوعی از شبکه‌های عصبی بازگشتی یادگیری عیمق استفاده می‌کنند که به آن‌ها «حافظه بلند-کوتاه مدت» ( long short-term memory | LSTM) گفته می‌شود و توسط «هوکریتور» (Hochreiter ) و «شمیدبر» (Schmidhuber) در سال ۱۹۹۷ مطرح شد. LSTM اغلب توسط دسته‌بندی موقتی اتصالی (CTC) آموزش داده می‌شود.

این رویکرد در گوگل، مایکروسافت و بیدو، بازشناسی گفتار را دچار تحولی انقلابی کرد. برای مثال، در سال ۲۰۱۵، بازشناسی گفتار گوگل شاهد یک جهش کارایی دراماتیک ۴۹٪ در LSTM‌های آموزش دیده با CTC بود که اکنون از طریق گوگل وُیس (Google Voice) روی گوشی میلیاردها کاربر گوشی‌های هوشمند نصب است و در دسترس عموم قرار دارد. گوگل همچنین از LSTM برای بهبود ترجمه ماشینی، مدل‌سازی زبانی، پردازش زبان چندزبانه بهره برده است. LSTM ترکیب شده با CNN، عنوان‌گذاری خودکار تصاویر و بسیاری از دیگر کاربردها رانیز بهبود بخشیده.

ارزیابی پیشرفت

هوش مصنوعی، مانند الکتریسیته یا موتور بخار، یک فناوری با هدف عمومی است. هیچ اجماعی بر چگونگی مشخصه‌سازی وظایف هوش مصنوعی که گرایش به بهتر بودن دارند وجود ندارد. در حالیکه پروژه‌هایی مانند AlphaZero در تولید دانش خود از پایه موفق شدند، بسیاری از دیگر پروژه‌های یادگیری ماشین نیازمند مجموعه داده‌های بزرگ هستند.

«اندرو وو» (Andrew Ng) دانشمند علوم رایانه و هوش مصنوعی در این رابطه می‌گوید: «به عنوان یک قاعده سرانگشتی بسیار ناکارآمد، هر چیزی از تفکرات ذهنی که یک انسان بتواند در کمتر از یک ثانیه انجام بدهد را در حال حاضر یا طی سال‌های آینده و نزدیک می‌توان با هوش مصنوعی خودکارسازی کرد». تناقض موراوک «Moravec’s paradox» اذعان می‌کند که هوش مصنوعی از انسان همچنان در بسیاری از مواردی که مغز انسان تکامل یافته تا در آن زمینه‌ها خوب عمل کند عقب مانده.

بازی‌های گوناگون، بنچ‌مارک‌های به خوبی عمومی شده‌ای را برای ارزیابی نرخ پیشرفت ارائه می‌کنند. آلفاگو در حدود سال ۲۰۱۶ عصر جدیدی از بنچ مارک‌ها را به عصر بازی‌های کامپیوتری وارد کرد. بازی‌های دانش ناقص منجر به چالش‌های جدیدی برای هوش مصنوعی در حوزه نظریه بازی شدند. رقابت‌های الکترونیکی (E-sports) مانند StarCraft به فراهم کردن بنچ مارک‌های جدید ادامه دادند. رقابت‌ها و جوایز متعددی مانند چالش ایمیج‌نت (Imagenet Challenge) وجود دارند که پژوهش‌ها در حوزه هوش مصنوعی را ارتقا می‌دهند. زمینه اصلی رقابت‌ها شامل هوش ماشین عمومی، رفتار محاوره‌ای، داده‌کاوی، ماشین‌های رباتیک و فوتبال رباتی و دیگر بازی‌های رایج می‌شود.

«بازی تقلید» (تفسیری از آزمون تورینگ سال ۱۹۵۰ که ارزیابی می‌کند یک کامپیوتر میتواند انسان را تقلید کند)، امروزه بیش از اندازه قابل بهره‌برداری است که بتواند بنچ‌مارک معناداری باشد. «آزمون تورینگ عمومی به‌طور کامل خودکار» (CAPTCHA | Completely Automated Public Turing test) یک اشتقاق از آزمون تورینگ است که انسان را از ماشین تفکیک می‌کند.

همانطور که از اسم این آزمون بر میاید، از آن استفاده می‌شود برای شناسایی اینکه کاربر یک انسان واقعی است یا کامپیوتری که تظاهر به انسان بودن می‌کند. در این آزمون (و بر خلاف آزمون تورینگ استاندارد) داور یک ماشین است که بر اساس ورودی ارائه شده توسط کاربر تشخیص می‌دهد که فرد ربات است یا انسان. طی این آزمون، کامپیوتر از کاربر می‌خواهد که آزمون کوچکی را پر کند که برای درجات آن مورد استفاده قرار می‌گیرند.

کامپیوترها قادر به حل مساله CAPTCHA نیستند، بنابراین در صورت ارائه ورودی صحیح، شخصی که کپچا را وارد کرده انسان تلقی می‌شود. یک نوع متداول از CAPTCHA آزمونی است که نیازمند نوشتن کلمات، اعداد یا نمادهای کج و کوله موجود در تصویر غیر قابل تشخیص برای کامپیوتر (شاید هم قابل تشخیص) محسوب می‌شود.

هدف آزمون «هوش جهانی» این است که مقایسه کند عملکرد ماشین‌ها، انسان‌ها و حتی حیواناتی غیر از انسان در یک مجموعه مساله که تا حد امکان عمومی هستند چقدر خوب است. به علاوه، مجموعه آزمون می‌تواند شامل هر مساله ممکنی باشد که به‌وسیله پیچیدگی کولموگروف (Kolmogorov complexity) وزن‌دهی شده؛ متاسفانه، این مجموعه‌های مساله تحت سلطه تمرینات تطبیق الگوی بی‌خاصیتی هستند که در آن‌ها یک هوش مصنوعی تنظیم شده می‌تواند به سادگی از سطح کارایی انسان تجاوز کند.

گردآوری توسط: تحقیقستان