زبان و بیوشیمی: شواهدی برای طراحی هوشمند
آیا تا به حال بر روی تلفن هوشمند خود پیام متنی ارسال کرده اید و ببینید برنامه کاربردی گوشی کلمه بعدی را پیشنهاد کرده باشد؟ این شگفت انگیز است که در بسیاری از اوقات پیشنهادات برنامه درست هستند. این اپلیکیشن چگونه کار می کند، شانس محض؟ یا با خواندن ذهن شما؟
این واقعیت که فناوری در اغلب اوقات می تواند کلمه بعدی را که قرار است تایپ کنید پیش بینی کند، تنها به این دلیل امکان پذیر است که پیام متنی شما از ذهن شما می آید. جمله ای که تایپ می کنید آموزنده و معنادار است زیرا هوشمندانه طراحی شده و بنابراین قابل پیش بینی است.
دانشمندان اخیراً قابلیت پیش بینی مشابهی را در سیستم های بیوشیمیایی یافته اند. آیا این شباهت به این معناست که بیوشیمی نیز هوشمندانه طراحی شده است؟ قبل از پاسخ به این سوال، اجازه دهید به یکی از روش هایی که بر آن اساس ریاضیدانان اطلاعات را در جملاتی که تایپ می کنیم مشخص می کنند، نگاهی کنیم.
مدل سازی زبان N-Gram
زبان یک فرآیند شناختی پیچیده انسانی است و مدلسازی N-gram تنها یکی از تکنیکهای مدلسازی زبان است که به طور گسترده در انواع کاربردهای هوش مصنوعی مانند تصحیح خودکار و تشخیص گفتار به کار میرود.
ما سه نوع اصلی مدلسازی N-gram را در نظر خواهیم گرفت: unigrams، bigrams و trigrams .
Unigrams: می دانیم که برخی از کلمات انگلیسی بیشتر از بقیه استفاده می شوند. انتشارات دانشگاه آکسفورد با تجزیه و تحلیل میلیونها جمله گزارش میدهد که 10 اسم موصوف پرکاربرد عبارتند از: «زمان»، «شخص»، «سال»، «راه»، «روز»… همچنین فهرستی از 100 و 10000 کلمه برتر پرکاربرد وجود دارد.1 این فهرستها با شهود انسان مطابقت دارند و با غیر معمولترین کلمات، مانند futhorc و chaulmoogra در تضاد هستند. Unigram ها از این لیست و از بسامدهای کلمه برای پیش بینی کلمه بعدی در یک جمله بدون تکیه بر کلمات نوشته شده قبلی استفاده می کنند.
Bigrams و Trigrams : اجازه دهید به این جمله جزئی نگاه کنیم: «روباه قهوهای سریع…» احتمالاً میتوانیم حدسهای خوبی در مورد اینکه کلمه بعدی ممکن است چه باشد بزنیم: با توجه به اینکه «است»، «میخورد» و «پرش» جزو احتمالات هستند. به همین ترتیب، بیگرام ها و تریگرام ها به ترتیب از یک یا دو کلمه قبلی برای پیش بینی احتمال کلمه بعدی استفاده می کنند، در حالی که تک گرام ها (unigrams) تنها از بسامد کلمه بعدی استفاده می کنند. بنابراین در جمله کوتاه ما، بیگرام ها و تریگرام ها به ترتیب از کلمات “روباه” و “روباه قهوه ای” استفاده می کنند. به طور کلی، هرچه N بزرگتر باشد، قدرت پیش بینی بهتر می شود.
پیچیدگی کلمه
پیچیدگی، یک اندازه گیری ریاضی است که نشان می دهد یک مدل چقدر میتواند نتیجه را به خوبی پیش بینی کند. محققان از یک معیار تئوری اطلاعاتی به نام سرگشتگی (پیچیدگی) کلمات برای تعیین کمیت عامل انشعاب زبان استفاده میکنند که میانگین تعداد کلمات محتملی است که میتوانند پس از هر کلمه تکرار شوند، این یک معیار عدم قطعیت است. به عنوان مثال، مطالعات نشان می دهد که وال استریت ژورنال (WSJ) از واژگانی متشکل از 19979 کلمه منحصر به فرد انگلیسی استفاده می کند 2و اگر نویسندهای که چیزی درباره انگلیسی نمیداند، «غیر هوشمندانه» جملهای بسازد، کلمات تصادفی را از بین این واژگان انتخاب میکنند. در این مورد، همانطور که در جدول 1 نشان داده شده است، کلمه پیچیدگی همیشه 19979 خواهد بود، که منعکس کننده یک سناریوی شانسی برای زمانی است که نویسنده از هوشمندی برای طراحی جمله استفاده نمی کند.
Vocabulary سایز واژگان | یونیگرام پیچیدگی | بیگرام پیچیدگی | Trigram پیچیدگی Perplexity | |
کلمات تصادفی WSJ | 19,979 | 19,979 | 19,979 | 19,979 |
WSJ | 19,979 | 962 | 170 | 109 |
جدول 1: استفاده از N-gram نشان می دهد که پیچیدگی در WSJ دو مرتبه کمتر از پیچیدگی در جملات کلمات تصادفی WSJ است.3
در واقعیت، نویسندگان از هوش و آگاهی برای طراحی جملات استفاده می کنند. با تجزیه و تحلیل یک پیکره WSJ از 38 میلیون کلمه، میتوانیم پیچیدگی N-gram را محاسبه کنیم که به ترتیب 962، 170 و 109 برای یونیگرامها، بیگرامها و تریگرامها است.4 استفاده از بیگرام ها و تریگرام ها نشان می دهد که پیچیدگی کلمه جملات واقعی در متون WSJ دو مرتبه کمتر از پیچیدگی کلمه جملات کلمات تصادفی (19979) است. این کاهش قابل توجه نشان می دهد که نویسندگان به جای تکیه بر کلمات شانسی و تصادفی، جملات را برای انتقال اطلاعات و معنا، هوشمندانه طراحی می کنند. آیا کاهش پیچیدگی مشابهی در طبیعت نیز وجود دارد؟
مثال زیر را از بیوشیمی در نظر بگیرید که شباهت بین زبان هوشمند انسان و پروتئین ها را نشان می دهد.
دامنه های پروتئینی
پروتئین ها از توالی زنجیره هایی از پُلی پِپتیدها تشکیل شده اند. این مولکولهای زیستی زمانی تشکیل میشوند که ماشینهای سلولی، آمینو اسیدها را به هم پیوند میدهند.5 بیوشیمیست ها در ساختار پروتئین ها، مناطقی چین خورده، فشرده و مستقل
به نام دامنه های پروتئینی را کشف کرده اند که هر یک عملکرد بیوشیمیایی منحصر به فردی دارند. بنابراین، هر پروتئین از ترکیبی از دامنه ها تشکیل شده است.6
شباهت به زبان های انسانی
پژوهشگران شباهت قابل توجهی بین ساختار اطلاعات موجود در پروتئین ها و زبان های انسانی، همانطور که در جدول 2 خلاصه شده است، کشف کرده اند.
انگلیسی | بیوشیمی |
حروف | آمینو اسید |
کلمات | دامنه های پروتئینی |
جملات | پروتئین ها |
جدول 2: مقایسه بیوشیمی و زبان های انسانی.
اخیراً تیمی از دانشمندان به رهبری Yu از مدل سازی N-gram برای مطالعه معماری پروتئین ها استفاده کرده اند.7 آنها مجموعه داده هایی از 23 میلیون دامنه پروتئینی را در 4794 گونه مورد بررسی قرار داده اند. از آنجایی که بیشتر ارگانیسمها، بهویژه باکتریها و ریزجانداران باستانی، پروتئینهایی متشکل از یک یا دو دامنه دارند، آنها فقط از یونیگرام و بیگرام در این پژوهش استفاده کردند. این دانشمندان دریافتند که 1: بیش از 95٪ از همه بیگرام های ممکن وجود ندارند، که نشان می دهد توالی های پروتئین ها تصادفی نیستند و2: یک “گرامر شبه جهانی” بر حوزه های پروتئینی تحمیل شده که تشابه بین پروتئین ها و زبان ها را نشان می داد. برای خلقت گرایان، این نتیجه به شدت با این ایده که زندگی توسط خدایی هوشمند آفریده شده است، طنین انداز می شود.8
پیچیدگی دامنه پروتئینی
این نویسنده با تجزیه و تحلیل مجموعه داده استفاده شده توسط تیم Yu ، پیچیدگی در حوزه پروتئین را بررسی کرده است. جدول 3 نشان می دهد که میانگین تعداد دامنه های پروتئینی برای آرکئا، باکتری ها و یوکاریا (سه دامنه حیات) به ترتیب 671، 917 و 2434 است. اگر پروتئینها توسط فرآیندهای طبیعی تشکیل میشدند که دامنههای پروتئینی را بهطور تصادفی به هم مرتبط میکنند، پیچیدگی برای آرکئا ، باکتریها و یوکاریا همیشه به ترتیب 671، 917 و 2434 بود. این مشابه پیچیدگی 19979 برای متون WSJ در صورتی که جملات به طور غیر هوشمندانه با کلمات تصادفی نوشته شده باشند است.
اگر توالی پروتئین ها تصادفی بودند | میانگین اندازه دامنه | یونیگرام پیچیدگی | بیگرام پیچیدگی |
Archaea | 671 | 671 | 671 |
Bacteria | 917 | 917 | 917 |
Eukarya | 2,434 | 2,434 | 2,434 |
جدول 3: پیچیدگی در صورتی که پروتئین ها با پیوند تصادفی دامنه های پروتئینی تشکیل شوند.
با این حال، همانطور که در جدول 4 نشان داده شده است، پیچیدگی یونیگرام و بیگرام در یوکاریا به ترتیب 42 و 16 است که دو برابر کمتر از پیچیدگی در توالی های تصادفی حوزه های پروتئین یوکاریوتی است (2434). کاهش مشابهی برای آرکئا و باکتریها نیزمشاهده میشود. شبیه به متون WSJ، مدلسازی N-gram نشان میدهد که توالیهای دامنه پروتئین از تصادفی بودن دور هستند. در عوض، درست مانند مقالات روزنامه یا پیام های متنی، حاوی اطلاعات و معنا هستند.
دامنه های پروتئینی | میانگین اندازه دامنه | یونیگرام پیچیدگی | بیگرام پیچیدگی |
Archaea | 671 | 28 | 13 |
Bacteria | 917 | 32 | 13 |
Eukarya | 2,434 | 42 | 16 |
جدول 4: پیچیدگی در پروتئین های واقعی (همانطور که توسط یونیگرام و بیگرام نشان داده شده است) دو برابر کمتر از پیچیدگی در پروتئین های “تصادفی” است. پیچیدگی ها مستقیماً از مجموعه داده ها محاسبه می شوند.9
طراحان هوشمند
جملات تابعی از کلمات تصادفی نیستند. من و شما جملاتی را با پیچیدگی به میزان قابل توجهی کمتر از پیچیدگی جملات نامفهوم می نویسیم. این ویژگی بارز طراحی هوشمند است. به طور مشابه، پیچیدگی در پروتئین ها بسیار کمتر از پیچیدگی در توالی های تصادفی دامنه های پروتئینی است. من حداقل به همان اندازه که در نوشته هایم طراحی هوشمندانه میبینم در پروتئین ها نیزمی بینم. کاهش پیچیدگی به تنهایی این دیدگاه مثبت را ایجاد می کند که پروتئین ها اطلاعات را در خود جای داده اند و بنابراین به صورت هوشمندانه ای طراحی شده اند. پروتئین ها مانند نوشتن، در واقع سرشار از اطلاعات هستند. قیاس بین پروتئین ها و ساختار نوشتاری که هر دو دارای ویژگی های بارز طراحی هوشمند هستند، به لزوم وجود یک خالق اشاره دارد.
پینوشت
- Oxford Wordlists, Oxford University Press, https://languages.oup.com/products/oxford-wordlists/.
- Daniel Jurafsky and James H. Martin, Speech and Language Processing, 2nd ed. (Upper Saddle River, NJ: Prentice Hall, 2008).
- Jurafsky and Martin, Speech and Language Processing.
- Jurafsky and Martin, Speech and Language Processing.
- Fazale Rana, The Cell’s Design, How Chemistry Reveals the Creator’s Artistry, (Grand Rapids, MI: Baker, 2008), 43.
- Rana, The Cell’s Design, 43.
- Lijia Yu et al., “Grammar of Protein Domain Architectures,” Proceedings of the National Academy of Sciences, USA 116, no. 9 (February 26, 2019): 3636–45, doi:10.1073/pnas.1814684116.
- Fazale Rana, “Biochemical Grammar Communicates the Case for Creation,” The Cell’s Design (blog), May 29, 2019, /the-cells-design/read/the-cells-design/2019/05/29/biochemical-grammar-communicates-the-case-for-creation.
- Lijia Yu et al., “Grammar of Protein Domain Architecture,” Supporting Information, Proceedings of the National Academy of Sciences, USA 116, no. 9 (February 26, 2019): 3636-45, https://www.pnas.org/content/suppl/2019/02/06/1814684116.DCSupplemental.