زبان و بیوشیمی: شواهدی برای طراحی هوشمند

آیا تا به حال بر روی تلفن هوشمند خود پیام متنی ارسال کرده اید و ببینید برنامه کاربردی گوشی کلمه بعدی را پیشنهاد کرده باشد؟ این شگفت انگیز است که در بسیاری از اوقات پیشنهادات برنامه درست هستند. این اپلیکیشن چگونه کار می کند، شانس محض؟ یا با خواندن ذهن شما؟

این واقعیت که فناوری در اغلب اوقات می تواند کلمه بعدی را که قرار است تایپ کنید پیش بینی کند، تنها به این دلیل امکان پذیر است که پیام متنی شما از ذهن شما می آید. جمله ای که تایپ می کنید آموزنده و معنادار است زیرا هوشمندانه طراحی شده و بنابراین قابل پیش بینی است.

دانشمندان اخیراً قابلیت پیش بینی مشابهی را در سیستم های بیوشیمیایی یافته اند. آیا این شباهت به این معناست که بیوشیمی نیز هوشمندانه طراحی شده است؟ قبل از پاسخ به این سوال، اجازه دهید به یکی از روش هایی که بر آن اساس ریاضیدانان اطلاعات را در جملاتی که تایپ می کنیم مشخص می کنند، نگاهی کنیم.

مدل سازی زبان N-Gram

زبان یک فرآیند شناختی پیچیده انسانی است و مدل‌سازی N-gram تنها یکی از تکنیک‌های مدل‌سازی زبان است که به طور گسترده در انواع کاربردهای هوش مصنوعی مانند تصحیح خودکار و تشخیص گفتار به کار می‌رود.
ما سه نوع اصلی مدل‌سازی N-gram را در نظر خواهیم گرفت: unigrams، bigrams و trigrams .

Unigrams: می دانیم که برخی از کلمات انگلیسی بیشتر از بقیه استفاده می شوند. انتشارات دانشگاه آکسفورد با تجزیه و تحلیل میلیون‌ها جمله گزارش می‌دهد که 10 اسم موصوف پرکاربرد عبارتند از: «زمان»، «شخص»، «سال»، «راه»، «روز»… همچنین فهرستی از 100 و 10000 کلمه برتر پرکاربرد وجود دارد.1 این فهرست‌ها با شهود انسان مطابقت دارند و با غیر معمول‌ترین کلمات، مانند futhorc و chaulmoogra در تضاد هستند. Unigram ها از این لیست و از بسامدهای کلمه برای پیش بینی کلمه بعدی در یک جمله بدون تکیه بر کلمات نوشته شده قبلی استفاده می کنند.

Bigrams و Trigrams : اجازه دهید به این جمله جزئی نگاه کنیم: «روباه قهوه‌ای سریع…» احتمالاً می‌توانیم حدس‌های خوبی در مورد اینکه کلمه بعدی ممکن است چه باشد بزنیم: با توجه به اینکه «است»، «می‌خورد» و «پرش» جزو احتمالات هستند. به همین ترتیب، بیگرام ها و تریگرام ها به ترتیب از یک یا دو کلمه قبلی برای پیش بینی احتمال کلمه بعدی استفاده می کنند، در حالی که تک گرام ها (unigrams) تنها از بسامد کلمه بعدی استفاده می کنند. بنابراین در جمله کوتاه ما، بیگرام ها و تریگرام ها به ترتیب از کلمات “روباه” و “روباه قهوه ای” استفاده می کنند. به طور کلی، هرچه N بزرگتر باشد، قدرت پیش بینی بهتر می شود.

پیچیدگی کلمه

پیچیدگی، یک اندازه گیری ریاضی است که نشان می دهد یک مدل چقدر میتواند نتیجه را به خوبی پیش بینی کند. محققان از یک معیار تئوری اطلاعاتی به نام سرگشتگی (پیچیدگی) کلمات برای تعیین کمیت عامل انشعاب زبان استفاده می‌کنند که میانگین تعداد کلمات محتملی است که می‌توانند پس از هر کلمه‌ تکرار شوند، این یک معیار عدم قطعیت است. به عنوان مثال، مطالعات نشان می دهد که وال استریت ژورنال (WSJ) از واژگانی متشکل از 19979 کلمه منحصر به فرد انگلیسی استفاده می کند 2و اگر نویسنده‌ای که چیزی درباره انگلیسی نمی‌داند، «غیر هوشمندانه» جمله‌ای بسازد، کلمات تصادفی را از بین این واژگان انتخاب می‌کنند. در این مورد، همانطور که در جدول 1 نشان داده شده است، کلمه پیچیدگی همیشه 19979 خواهد بود، که منعکس کننده یک سناریوی شانسی برای زمانی است که نویسنده از هوشمندی برای طراحی جمله استفاده نمی کند.

 Vocabulary
سایز واژگان
یونیگرام
پیچیدگی
بیگرام
پیچیدگی
Trigram پیچیدگی
Perplexity
کلمات تصادفی WSJ19,97919,97919,97919,979
WSJ19,979962170109

جدول 1: استفاده از N-gram نشان می دهد که پیچیدگی در WSJ دو مرتبه کمتر از پیچیدگی در جملات کلمات تصادفی WSJ است.3

در واقعیت، نویسندگان از هوش و آگاهی برای طراحی جملات استفاده می کنند. با تجزیه و تحلیل یک پیکره WSJ از 38 میلیون کلمه، می‌توانیم پیچیدگی N-gram را محاسبه کنیم که به ترتیب 962، 170 و 109 برای یونیگرام‌ها، بی‌گرام‌ها و تریگرام‌ها است.4 استفاده از بیگرام ها و تریگرام ها نشان می دهد که پیچیدگی کلمه جملات واقعی در متون WSJ دو مرتبه کمتر از پیچیدگی کلمه جملات کلمات تصادفی (19979) است. این کاهش قابل توجه نشان می دهد که نویسندگان به جای تکیه بر کلمات شانسی و تصادفی، جملات را برای انتقال اطلاعات و معنا، هوشمندانه طراحی می کنند. آیا کاهش پیچیدگی مشابهی در طبیعت نیز وجود دارد؟

مثال زیر را از بیوشیمی در نظر بگیرید که شباهت بین زبان هوشمند انسان و پروتئین ها را نشان می دهد.

دامنه های پروتئینی

پروتئین ها از توالی زنجیره هایی از پُلی پِپتیدها تشکیل شده اند. این مولکول‌های زیستی زمانی تشکیل می‌شوند که ماشین‌های سلولی، آمینو اسیدها را به هم پیوند می‌دهند.5 بیوشیمیست ها در ساختار پروتئین ها، مناطقی چین خورده، فشرده و مستقل
به نام دامنه های پروتئینی را کشف کرده اند که هر یک عملکرد بیوشیمیایی منحصر به فردی دارند. بنابراین، هر پروتئین از ترکیبی از دامنه ها تشکیل شده است.6

شباهت به زبان های انسانی

پژوهشگران شباهت قابل توجهی بین ساختار اطلاعات موجود در پروتئین ها و زبان های انسانی، همانطور که در جدول 2 خلاصه شده است، کشف کرده اند.

انگلیسیبیوشیمی
حروفآمینو اسید
کلماتدامنه های پروتئینی
جملاتپروتئین ها

جدول 2: مقایسه بیوشیمی و زبان های انسانی.

اخیراً تیمی از دانشمندان به رهبری Yu از مدل سازی N-gram برای مطالعه معماری پروتئین ها استفاده کرده اند.7 آنها مجموعه داده هایی از 23 میلیون دامنه پروتئینی را در 4794 گونه مورد بررسی قرار داده اند. از آنجایی که بیشتر ارگانیسم‌ها، به‌ویژه باکتری‌ها و ریزجانداران باستانی، پروتئین‌هایی متشکل از یک یا دو دامنه دارند، آنها فقط از یونی‌گرام و بیگرام در این پژوهش استفاده کردند. این دانشمندان دریافتند که 1: بیش از 95٪ از همه بیگرام های ممکن وجود ندارند، که نشان می دهد توالی های پروتئین ها تصادفی نیستند و2: یک “گرامر شبه جهانی” بر حوزه های پروتئینی تحمیل شده که تشابه بین پروتئین ها و زبان ها را نشان می داد. برای خلقت گرایان، این نتیجه به شدت با این ایده که زندگی توسط خدایی هوشمند آفریده شده است، طنین انداز می شود.8

پیچیدگی دامنه پروتئینی

این نویسنده با تجزیه و تحلیل مجموعه داده استفاده شده توسط تیم Yu ، پیچیدگی در حوزه پروتئین را بررسی کرده است. جدول 3 نشان می دهد که میانگین تعداد دامنه های پروتئینی برای آرکئا، باکتری ها و یوکاریا (سه دامنه حیات) به ترتیب 671، 917 و 2434 است. اگر پروتئین‌ها توسط فرآیندهای طبیعی تشکیل می‌شدند که دامنه‌های پروتئینی را به‌طور تصادفی به هم مرتبط می‌کنند، پیچیدگی برای آرکئا ، باکتری‌ها و یوکاریا همیشه به ترتیب 671، 917 و 2434 بود. این مشابه پیچیدگی 19979 برای متون WSJ در صورتی که جملات به طور غیر هوشمندانه با کلمات تصادفی نوشته شده باشند است.

اگر توالی پروتئین ها
تصادفی بودند
میانگین
اندازه دامنه
یونیگرام
پیچیدگی
بیگرام
پیچیدگی
Archaea671671671
Bacteria917917917
Eukarya2,4342,4342,434

جدول 3: پیچیدگی در صورتی که پروتئین ها با پیوند تصادفی دامنه های پروتئینی تشکیل شوند.

با این حال، همانطور که در جدول 4 نشان داده شده است، پیچیدگی یونیگرام و بیگرام در یوکاریا به ترتیب 42 و 16 است که دو برابر کمتر از پیچیدگی در توالی های تصادفی حوزه های پروتئین یوکاریوتی است (2434). کاهش مشابهی برای آرکئا و باکتری‌ها نیزمشاهده می‌شود. شبیه به متون WSJ، مدل‌سازی N-gram نشان می‌دهد که توالی‌های دامنه پروتئین از تصادفی بودن دور هستند. در عوض، درست مانند مقالات روزنامه یا پیام های متنی، حاوی اطلاعات و معنا هستند.

دامنه های پروتئینیمیانگین
اندازه دامنه
یونیگرام
پیچیدگی
بیگرام
پیچیدگی
Archaea6712813
Bacteria9173213
Eukarya2,4344216

جدول 4: پیچیدگی در پروتئین های واقعی (همانطور که توسط یونیگرام و بیگرام نشان داده شده است) دو برابر کمتر از پیچیدگی در پروتئین های “تصادفی” است. پیچیدگی ها مستقیماً از مجموعه داده ها محاسبه می شوند.9

طراحان هوشمند

جملات تابعی از کلمات تصادفی نیستند. من و شما جملاتی را با پیچیدگی به میزان قابل توجهی کمتر از پیچیدگی جملات نامفهوم می نویسیم. این ویژگی بارز طراحی هوشمند است. به طور مشابه، پیچیدگی در پروتئین ها بسیار کمتر از پیچیدگی در توالی های تصادفی دامنه های پروتئینی است. من حداقل به همان اندازه که در نوشته هایم طراحی هوشمندانه میبینم در پروتئین ها نیزمی بینم. کاهش پیچیدگی به تنهایی این دیدگاه مثبت را ایجاد می کند که پروتئین ها اطلاعات را در خود جای داده اند و بنابراین به صورت هوشمندانه ای طراحی شده اند. پروتئین ها مانند نوشتن، در واقع سرشار از اطلاعات هستند. قیاس بین پروتئین ها و ساختار نوشتاری که هر دو دارای ویژگی های بارز طراحی هوشمند هستند، به لزوم وجود یک خالق اشاره دارد.

پینوشت
  1. Oxford Wordlists, Oxford University Press, https://languages.oup.com/products/oxford-wordlists/.
  2. Daniel Jurafsky and James H. Martin, Speech and Language Processing, 2nd ed. (Upper Saddle River, NJ: Prentice Hall, 2008).
  3. Jurafsky and Martin, Speech and Language Processing.
  4. Jurafsky and Martin, Speech and Language Processing.
  5. Fazale Rana, The Cell’s Design, How Chemistry Reveals the Creator’s Artistry, (Grand Rapids, MI: Baker, 2008), 43.
  6. Rana, The Cell’s Design, 43.
  7. Lijia Yu et al., “Grammar of Protein Domain Architectures,” Proceedings of the National Academy of Sciences, USA 116, no. 9 (February 26, 2019): 3636–45, doi:10.1073/pnas.1814684116.
  8. Fazale Rana, “Biochemical Grammar Communicates the Case for Creation,” The Cell’s Design (blog), May 29, 2019, /the-cells-design/read/the-cells-design/2019/05/29/biochemical-grammar-communicates-the-case-for-creation.
  9. Lijia Yu et al., “Grammar of Protein Domain Architecture,” Supporting Information, Proceedings of the National Academy of Sciences, USA 116, no. 9 (February 26, 2019): 3636-45, https://www.pnas.org/content/suppl/2019/02/06/1814684116.DCSupplemental.