ابرپارامتر (یادگیری ماشین)

در یادگیری ماشینی، ابرپارامتر یا فراپارامتر یا هایپرپارامتر پارامتری است که از آن برای کنترل فرایند یادگیری استفاده می‌شود. در مقابل، مقادیر سایر پارامترها (معمولاً وزن گره‌ها) از طریق آموزش به دست می‌آیند.

ابرپارامترها را می‌توان به عنوان ابرپارامترهای مدل در نظر گرفت، که نمی‌توان آنها را در حین اتصال ماشین به مجموعه آموزشی تخمین زد، زیرا به انتخاب مدل یا ابرپارامترهای الگوریتم اشاره دارد. ابرپارامترها در اصل تأثیری بر عملکرد مدل ندارند بلکه باعث افزایش سرعت و کیفیت فرایند یادگیری می‌شوند. نمونه‌ای از ابرپارامتر مدل، توپولوژی و اندازه یک شبکه عصبی است. سرعت یادگیری و اندازهٔ دسته و همچنین اندازهٔ کوچک دسته (اندازهٔ دسته می‌تواند به همهٔ نمونهٔ داده‌ها اشاره داشته باشد و اندازهٔ کوچک دسته به مجموعهٔ نمونهٔ کوچکتری اشاره دارد) نمونه‌هایی از ابرپارامترهای الگوریتم هستند.

مدل‌های مختلف الگوریتم‌های آموزش به ابرپارامترهای متفاوتی نیاز دارند، برخی از الگوریتم‌های ساده (مانند کمترین مربعات معمولی در مدل رگرسیون) نیازی به هیچ ابرپارامتری ندارند. با توجه به این ابرپارامترها، الگوریتم آموزش پارامترهای دیگر مدل را از طریق داده‌های پارامترها یادمی‌گیرد. برای مثال، لسو الگوریتمی است که یک ابرپارامتر منظم‌سازی را به کمترین مربعات معمولی رگرسیون اضافه می‌کند، که باید قبل از تخمین پارامترها از طریق الگوریتم آموزشی تنظیم شود.^[۱]

ملاحظات[ویرایش]

زمان مورد نیاز برای آموزش و آزمایش یک مدل می‌تواند به انتخاب ابرپارامترهای آن بستگی داشته باشد.^[۲] یک ابرپارامتر به‌طور معمول از نوع پیوسته یا عدد صحیح است که منجر به مسئله بهینه‌سازی ترکیبی می‌شود.^[۲] وجود برخی ابرپارامترها وابسته به مقدار سایرین است، به عنوان مثال اندازه هر لایه پنهان در یک شبکه عصبی می‌تواند وابسته به تعداد لایه‌ها باشد.^[۲]

پارامترهای قابل‌یادگیری دشوار[ویرایش]

ابرپارامترها را معمولاً نمی‌توان با استفاده از روش‌های شناخته شده مبتنی بر گرادیان (مانند شیب نزولی، LBFGS) که معمولاً برای یادگیری پارامترها استفاده می‌شود، یادگرفت. این ابرپارامترها آن دسته از پارامترهایی هستند که یک نمایش مدل را توصیف می‌کنند که با روش‌های بهینه‌سازی رایج قابل یادگیری نیستند، اما با این وجود بر تابع ضرر تأثیر می‌گذارند. هایپر پارامتر تحمل برای خطاها در ماشین‌های بردار پشتیبان می‌تواند یک مثال از این قضیه باشد.

پارامترهای غیرقابل‌یادگیری[ویرایش]

گاهی اوقات، ابرپارامترها نمی‌توانند از داده‌های آموزشی یادگرفته بشوند، زیرا آنها به شدت ظرفیت یک مدل را افزایش می‌دهند (مدل پیچیده می‌شود) و برخلاف نقشه‌برداری صحیح از غنای داده‌ها می‌توانند تابع تلفات را به حداقل برسانند (مانند تطبیق بیش از حد و دریافت نویز در داده‌ها). برای مثال، اگر درجه یک معادله چند جمله‌ای برازش مدل رگرسیونی را به‌عنوان یک پارامتر قابل آموزش در نظر بگیریم، این درجه تا زمانی افزایش می‌یابد که مدل کاملاً با داده‌ها مطابقت داشته باشد که در پی آن خطای آموزشی کم، اما عملکرد تعمیم ضعیفی را به همراه دارد.

تنظیم‌پذیری[ویرایش]

بیشتر تغییرات در عملکرد را می‌توان تنها به چند ابرپارامتر نسبت داد.^[۳]^[۲]^[۴] تنظیم پذیری یک الگوریتم، ابرپارامتر یا ابرپارامترهای متقابل، معیاری است که نشان می‌دهد با تنظیم آنچه میزان عملکرد می‌توان به دست آورد.^[۵] برای یک LSTM، در حالی که نرخ یادگیری و اندازه شبکه مهم‌ترین ابرپارامترهای آن هستند،^[۶] دسته‌بندی و تکانه تأثیر قابل‌توجهی بر عملکرد آن ندارند.^[۷]

اگرچه برخی از تحقیقات استفاده از اندازه‌های دسته ای کوچک را در هزاران مورد، حمایت کردند، اما کارهای دیگر بهترین عملکرد را با اندازه‌های دسته ای کوچک بین ۲ تا ۳۲ پیدا کرده‌اند.^[۸]

استوارمندی[ویرایش]

یک تصادف ذاتی در یادگیری به‌طور مستقیم نشان می‌دهد که عملکرد تجربی ابرپارامتر، لزوماً عملکرد واقعی آن نیست.^[۲] روش‌هایی که نسبت به تغییرات ساده در ابرپارامترها، دانه‌های تصادفی، یا حتی پیاده‌سازی‌های مختلف یک الگوریتم استوار نیستند، بدون ساده‌سازی و استوارسازی قابل توجه نمی‌توانند در سامانه‌های کنترل با عامل حیاتی ادغام شوند.^[۹]

الگوریتم‌های یادگیری تقویتی، به صورت خاص، احتیاج دارند که کارایی آنها روی تعداد زیادی از دانه‌های تصادفی ارزیابی بشود و همچنین حساسیت‌شان نسبت به انتخاب ابرپارامترها اندازه‌گیری شود.^[۹] ارزیابی آنها با تعداد کمی از دانه‌های تصادفی به دلیل واریانس بالا عملکرد مناسبی را نشان نمی‌دهد.^[۹] برخی از روش‌های یادگیری تقویتی، به عنوان مثال DDPG (گرادیان ترفند تعینی عمیق) نسبت به انتخاب‌های ابرپارامتر حساس تر از سایرین است.^[۹]

بهینه‌سازی[ویرایش]

بهینه‌سازی ابرپارامترها چندین ابرپارامتر را پیدا می‌کند که حاصل آن، یک مدل بهینه می‌شود تا یک تابع تلفات از پیش تعریف‌شده را در داده‌های آزمایشی به حداقل برساند.^[۲] تابع هدف، چندین ابرپارامتر را می‌گیرد و ضرر مربوطه را برمی‌گرداند.^[۲]

بازتولیدپذیری[ویرایش]

جدا از تنظیم ابرپارامترها، یادگیری ماشینی شامل ذخیره و سازماندهی پارامترها و نتایج، و اطمینان از بازتولیدپذیری آنها است.^[۱۰] در نبود زیرساخت قوی برای این منظور، کد تحقیق اغلب به سرعت تکامل می‌یابد و جنبه‌های ضروری مانند حسابداری و تکرارپذیری را به خطر می‌اندازد.^[۱۱] پلتفرم‌های همکاری آنلاین برای یادگیری ماشین با اجازه دادن به دانشمندان برای اشتراک‌گذاری خودکار، سازماندهی و بحث در مورد آزمایش‌ها، داده‌ها و الگوریتم‌ها، باعث پیشرفت و بهبود الگوریتم یادگیری ماشین می‌شود.^[۱۲] تکرارپذیری می‌تواند به ویژه برای مدل‌های یادگیری عمیق دشوار باشد.^[۱۳]

تعدادی سرویس مرتبط و نرم‌افزار منبع باز وجود دارد:

خدمات[ویرایش]

نام	رابط‌ها
Comet.ml^[۱۴]	Pyhton^[۱۵]
OpenML^[۱۲]^[۱۶]^[۱۷]	REST, Python, Java, R^[۱۸]
وزن‌ها و سوگیری‌ها^[۱۹]	Python^[۲۰]

نرم‌افزار[ویرایش]

نام	اینترفیس‌ها	فروشگاه
Determined	REST, Python	پستگرس‌کیوال
OpenML Docker^[۱۲]^[۱۶]^[۱۷]	REST, Python, Java, R^[۱۸]	MySQL
sacred^[۱۰]^[۱۱]	Python^[۲۱]	file، مانگودی‌بی , TinyDB, SQL

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ Yang, Li; Shami, Abdallah (2020-11-20). "On hyperparameter optimization of machine learning algorithms: Theory and practice". Neurocomputing (به انگلیسی). 415: 295–316. doi:10.1016/j.neucom.2020.07.061. ISSN 0925-2312.
↑ ^۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ ^۲٫۴ ^۲٫۵ ^۲٫۶ "Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015)". arXiv:1502.02127. Bibcode:2015arXiv150202127C.
↑ Leyton-Brown, Kevin; Hoos, Holger; Hutter, Frank (January 27, 2014). "An Efficient Approach for Assessing Hyperparameter Importance": 754–762 – via proceedings.mlr.press. {{cite journal}}: Cite journal requires |journal= (help)
↑ "van Rijn, Jan N. , and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017)". arXiv:1710.04725. Bibcode:2017arXiv171004725V.
↑ "Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018)". arXiv:1802.09596. Bibcode:2018arXiv180209596P.
↑ Greff, K.; Srivastava, R. K.; Koutník, J.; Steunebrink, B. R.; Schmidhuber, J. (October 23, 2017). "LSTM: A Search Space Odyssey". IEEE Transactions on Neural Networks and Learning Systems. 28 (10): 2222–2232. arXiv:1503.04069. doi:10.1109/TNNLS.2016.2582924. PMID 27411231.
↑ "Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015)". arXiv:1508.02774. Bibcode:2015arXiv150802774B.
↑ "Revisiting Small Batch Training for Deep Neural Networks (2018)". arXiv:1804.07612. Bibcode:2018arXiv180407612M.
↑ ^۹٫۰ ^۹٫۱ ^۹٫۲ ^۹٫۳ "Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018)". arXiv:1803.07055. Bibcode:2018arXiv180307055M.
↑ ^۱۰٫۰ ^۱۰٫۱ "Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research."" (PDF). 2015.
↑ ^۱۱٫۰ ^۱۱٫۱ "Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research."" (PDF). 2017. Archived from the original (PDF) on 29 September 2020. Retrieved 24 May 2022.
↑ ^۱۲٫۰ ^۱۲٫۱ ^۱۲٫۲ "Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014)". arXiv:1407.7722. Bibcode:2014arXiv1407.7722V.
↑ Villa, Jennifer; Zimmerman, Yoav (25 May 2018). "Reproducibility in ML: why it matters and how to achieve it". Determined AI Blog. Retrieved 31 August 2020.
↑ "Comet.ml – Machine Learning Experiment Management".
↑ Inc, Comet ML. "comet-ml: Supercharging Machine Learning".
↑ ^۱۶٫۰ ^۱۶٫۱ "Vanschoren, Joaquin, Jan N. van Rijn, and Bernd Bischl. "Taking machine learning research online with OpenML." Proceedings of the 4th International Conference on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications-Volume 41. JMLR. org, 2015" (PDF).^{^{[پیوند مرده]}}
↑ ^۱۷٫۰ ^۱۷٫۱ "van Rijn, J. N. Massively collaborative machine learning. Diss. 2016". 2016-12-19.
↑ ^۱۸٫۰ ^۱۸٫۱ "OpenML". GitHub.
↑ "Weights & Biases for Experiment Tracking and Collaboration".
↑ "Monitor your Machine Learning models with PyEnv".
↑ Greff, Klaus (2020-01-03). "sacred: Facilitates automated and reproducible experimental research".

[1] Yang, Li; Shami, Abdallah (2020-11-20). "On hyperparameter optimization of machine learning algorithms: Theory and practice". Neurocomputing (به انگلیسی). 415: 295–316. doi:10.1016/j.neucom.2020.07.061. ISSN 0925-2312.

[abs1502.02127-2] ۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ ^۲٫۴ ^۲٫۵ ^۲٫۶ "Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015)". arXiv:1502.02127. Bibcode:2015arXiv150202127C.

[hutter14-3] Leyton-Brown, Kevin; Hoos, Holger; Hutter, Frank (January 27, 2014). "An Efficient Approach for Assessing Hyperparameter Importance": 754–762 – via proceedings.mlr.press. {{cite journal}}: Cite journal requires |journal= (help)

[abs1710.04725-4] "van Rijn, Jan N. , and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017)". arXiv:1710.04725. Bibcode:2017arXiv171004725V.

[arXiv:1802.09596-5] "Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018)". arXiv:1802.09596. Bibcode:2018arXiv180209596P.

[pmid_27411231-6] Greff, K.; Srivastava, R. K.; Koutník, J.; Steunebrink, B. R.; Schmidhuber, J. (October 23, 2017). "LSTM: A Search Space Odyssey". IEEE Transactions on Neural Networks and Learning Systems. 28 (10): 2222–2232. arXiv:1503.04069. doi:10.1109/TNNLS.2016.2582924. PMID 27411231.

[abs1508.02774-7] "Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015)". arXiv:1508.02774. Bibcode:2015arXiv150802774B.

[arXiv:1804.07612-8] "Revisiting Small Batch Training for Deep Neural Networks (2018)". arXiv:1804.07612. Bibcode:2018arXiv180407612M.

[arXiv:1803.07055-9] ۹٫۰ ^۹٫۱ ^۹٫۲ ^۹٫۳ "Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018)". arXiv:1803.07055. Bibcode:2018arXiv180307055M.

[sacred2015-10] ۱۰٫۰ ^۱۰٫۱ "Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research."" (PDF). 2015.

[sacred2017-11] ۱۱٫۰ ^۱۱٫۱ "Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research."" (PDF). 2017. Archived from the original (PDF) on 29 September 2020. Retrieved 24 May 2022.

[arXiv:1407.7722-12] ۱۲٫۰ ^۱۲٫۱ ^۱۲٫۲ "Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014)". arXiv:1407.7722. Bibcode:2014arXiv1407.7722V.

[13] Villa, Jennifer; Zimmerman, Yoav (25 May 2018). "Reproducibility in ML: why it matters and how to achieve it". Determined AI Blog. Retrieved 31 August 2020.

[kdn-cometml-14] "Comet.ml – Machine Learning Experiment Management".

[pypi_cometml-15] Inc, Comet ML. "comet-ml: Supercharging Machine Learning".

[openml2015-16] ۱۶٫۰ ^۱۶٫۱ "Vanschoren, Joaquin, Jan N. van Rijn, and Bernd Bischl. "Taking machine learning research online with OpenML." Proceedings of the 4th International Conference on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications-Volume 41. JMLR. org, 2015" (PDF).^{^{[پیوند مرده]}}

[openml2016-17] ۱۷٫۰ ^۱۷٫۱ "van Rijn, J. N. Massively collaborative machine learning. Diss. 2016". 2016-12-19.

[gh_openml-18] ۱۸٫۰ ^۱۸٫۱ "OpenML". GitHub.

[19] "Weights & Biases for Experiment Tracking and Collaboration".

[20] "Monitor your Machine Learning models with PyEnv".

[pypi_sacred-21] Greff, Klaus (2020-01-03). "sacred: Facilitates automated and reproducible experimental research".

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]