نقش‎‎‎ اندازه نمونه در تفسیر نتیجه پژوهش‎های کاربردی: مطالعه‌ای بر مدل‎های رگرسیونی

نوع مقاله : علمی - پژوهشی

نویسنده

گروه آمار، دانشکده علوم پایه، دانشگاه پیام نور، تهران ، ایران

چکیده

امروزه بیشتر پژوهشگران تحقیقات کاربردی صرفاً با نگاه به مقدار−احتمال، فرضیه پژوهش را رد یا قبول می‎کنند؛ همچنین با توجه‎ به‎ رابطه‎ای که بین مقدار−احتمال و اندازه نمونه وجود دارد، معمولاً در نمونه‎های بزرگ، با وجود کوچک بودن اندازه اثر با یک اطمینان بسیار بالا فرضیه ادعا پذیرفته می‎شود و محقق با تکیه صرف به مقدار−احتمال به‎سمت حمایت از نتایج بی‎اهمیت عملی سوق داده می‎شود؛ بدین ترتیب بسیاری از مطالعات پژوهش می‎توانند در زمره تحقیقاتی قرار گیرند که دارای تعدادی آزمون‎ فرض معنادار شده،‎‎ اما فاقد وجاهت کاربردی و اهمیت علمی است.
نخست این مقاله با توجه به موضوع کلان‎داده، مسئله حجم داده و تنوع داده‎ها در کلان‎داده از نظر آمار پرداخته، سپس مقدار−احتمال، اندازه اثر و فاصله اطمینان به‎عنوان سه معیار تصمیم در آزمون‎های فرض روی نمونه‎های مختلف در بازه (19361−173) بررسی و ‎به‎طور خاص به تأثیر کلان‎داده روی این سه شاخص توجه کرده است.
نتایج نشان داد کلان‎داده به‎عنوان یک نمونه بزرگ، نه‌تنها مزیتی برای افزایش اطمینان در آزمون‎های فرض ندارند، بلکه می‎توانند موجب معنادار شدن ادعاهایی شوند که از نظر عملی اهمیت چندانی ندارند و در نمونه‎های نه‌چندان بزرگ در زمره اثرهای تصادفی و خطای نمونه‎گیری قرار می‎گیرند؛ همچنین اندازه اثر تحت‌تأثیر اندازه نمونه قرار نگرفته، با افزایش اندازه نمونه به‎سمت یک مقدار ثابت همگرایی دارد. درنهایت داده‎ها نشان دادند که فاصله‎ اطمینان از نظر بصری بهتر از شاخص‎های دیگر عمل می‎کند

کلیدواژه‌ها


  1. اسماعیلی، حمید؛ مینا توحیدی؛ سید روح‌اله روزگار و مهدی امیری (1389)، «P−value اصلاح شده، معیاری بهتر از P−value معمولی در فضای پارامتری محدودشده»، دهمین کنفرانس آمار ایران.
  2. ‏اسماعیلی، حمید؛ مینا توحیدی؛ سید روح‌اله روزگار و مهدی امیری (1390)، «−P مقدار معمولی و اصلاح شده، چگونه بهتر قضاوت کنیم؟». مجله علوم آماری، س5، ش۱، ص1−
  3. بازرگان‎ لاری، عبدالرضا (۱۳۸۴)‏، رگرسیون خطی کاربردی، شیراز: مرکز نشر دانشگاه شیراز.
  4. ‏‫برومیده، علی‌اکبر و حسن شاهقلیان (1383)، «با برخی از اشتباهات رایج در تحلیل‎های آماری آشنا شویم»، مجله اندیشه آماری، س9، ش1، ص23−
  5. پاک‌گوهر، علیرضا (1395)، «مقایسه کارایی روش‎های رده‌بندی کننده رگرسیون لجستیک و رگرسیون درختی برای متغیر وابسته باینری»، نشریه گستره علوم آماری، س1، ش2، ص7−
  6. سنمی علمداری، یعقوب (1395)، «مروری بر کلان داده‎ها BIG DATA». اولین همایش ملی نگرشی نوین در مهندسی برق و کامپیوتر.
  7. عارفی‌اصل، سولماز (1397)، «کلان داده، چالش و فرصتی بزرگ پیش روی حرفه حسابداری و حسابرسی». شانزدهمین همایش ملی حسابداری ایران.
  8. ‏‫شریفیان، نسترن و امید خزاعی (۱۳۹۱)‏، «توزیع p−مقدار تحت درست بودن فرض مقابل»، مقاله ارائه شده در چهل و سومین کنفرانس ریاضی کشور. دانشگاه تبریز.
  9. Andrade, C. (2019), The P value and statistical significance: misunderstandings, explanations, challenges, and alternatives, Indian journal of psychological medicine, 41(3), 210−
  10. Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E. J., Berk, R. & Johnson, V. E. (2018), Redefine statistical significance. Nature human behaviour, 2(1), 6-10.
  11. Betensky, R. A. (2019), The p-value requires context, not a threshold, The American Statistician, 73(sup1), 115-117.
  12. Cannon, Edmund Stuart & Cipriani, Giam Pietro (2006), Euro-illusion: A natural experiment, Journal of Money, Credit, and Banking, 38(5), 1391-1403.
  13. Chandler, Brian E; Myers, Matthew; Atkinson, Jennifer E; Bryer, Tom; Retting, Richard; Smithline, Jeff. Venglar, Steven P. (2013), Signalized Intersections Informational Guide. United States. Federal Highway Administration, Office of Safety.
  14. Chatfield, C. (1995), Problem Solving: A Statistician’s Guide, Chapman & Hall/CRC.
  15. Coenders, Germa & Pawlowsky-Glahn, Vera (2020), On interpretations of tests and effect sizes in regression models with a compositional predictor, SORT-Statistics and Operations Research Transactions, 201-220.
  16. Cohen, Jacob (1992), Things I have learned (so far), Presented at the Annual Convention of the American Psychological Association, 98th, Aug, 1990, Boston, MA, US; Presented at the aforementioned conference, American Psychological Association.
  17. Disdier, Anne−Célia; & Head, Keith (2008), The puzzling persistence of the distance effect on bilateral trade, The Review of Economics and statistics, 90(1), 37−
  18. Ghose, Anindya & Yao, Yuliang (2011), Using transaction prices to re-examine price dispersion in electronic markets, Information Systems Research, 22(2), 269-288.
  19. Goolsbee, Austan & Guryan, Jonathan (2006), The impact of Internet subsidies in public schools, The Review of Economics and Statistics, 88(2), 336-347.
  20. Greene, WH. (2003), Econometric analysis, 4th edn Prentice-Hall, Upper Saddle River, NJ.
  21. Hubbard, Raymond & Armstrong, J. Scott. (2006), Why we don’t really know what statistical significance means: Implications for educators, Journal of Marketing Education, 28(2), 114−
  22. Kafadar, K. (2021), Statistical significance, p−values and replicability, The Annals of Applied Statistics, 15(3), 1081−
  23. Kaisler, S. (2013), "Big data: Issues and challenges moving forward," 46th Hawaii International Conference on System Sciences (HICSS), IEEE.
  24. Kiarash Tanha; Neda Mohammadi & Leila Janani (2017), P−value: What is and what is not, Medical Journal Of the Islamic Republic of Iran, (1).
  25. Overby, Eric & Jap, Sandy. (2009), Electronic and physical market channels: A multiyear investigation in a market for products of uncertain quality, Management Science, 55(6), 940-957.
  26. Pakgohar, Alireza; Tabrizi, Reza Sigari; Khalili, Mohadeseh & Esmaeili, Alireza (2011), The role of human factor in incidence and severity of road crashes based on the CART and LR regression: a data mining approach, Procedia Computer Science, 3, 764-769.
  27. Rory, Icompliment (2020), Effect Size Is Just as Important as P-Value. Emergency Medicine News, 9.
  28. Tukey, John W. (1991), The philosophy of multiple comparisons, Statistical science, 100-116.
  29. Vittinghoff, Eric; Glidden, David V; Shiboski, Stephen, C. & McCulloch, Charles, E. (2011), Regression methods in biostatistics: linear, logistic, survival and repeated measures models, Springer Science & Business Media.
  30. Windmeijer, F., Liang, X., Hartwig, F. P. & Bowden, J. (2021), The confidence interval method for selecting valid instrumental variables, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 83(4), 752-776.
  31. Zikopoulos, C. Eaton, D. Deroos, T. Deutsch and G. Lapis (2012), Undrestanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, United State of America: Mc Graw Hill Companies.