شماره تلفن : 09307584802

خانه ژورنال دانشجویان ایران

Iranian Students Article House

ارزیابی کارایی تکنیک های طبقه بندی داده کاوی برای پیش بینی بیماری قلبی

Performance Evaluation of Data Mining Classification Techniques for Heart Disease Prediction

 American Journal of Engineering Research (AJER)-2018

 

ABSTRACT: Heart disease might be one of the foremost causes to death. Because of the lack of skilled knowledge or experiences of real-life practitioners about heart failure symptoms for an early prediction, it is not an easy task to detect the disease. Consequently, computer-based prediction of heart disease may play a significant role as a pre-stage detection to take proper actions with a view to recovering from it. However, the choice of the proper data mining classification method can effectively predict the early stage of the disease for being recurred from it. In this paper, the three mostly used classification techniques such as support vector machine (SVM), k-nearest neighbor (KNN) and artificial neural network (ANN) have been studied with a view to evaluating them for heart disease prediction using Cleveland standard heart disease dataset. The experimental result shows that the classification accuracy using SVM (85.1852%) outperforms that of using KNN (82.963%) and ANN (73.3333%).
KEYWORDS-Data Mining, SVM, KNN, ANN, Heart Disease Prediction, Classification Techniques

 

I. INTRODUCTION
In recent years, the volume of computerized medical data is increasing rapidly [1]. However still, it is a complex task to manipulate the bulky amount of the data for extracting knowledge from it. However, data mining technique, an important filed of machine learning, can be used to explore the meaningful information from such kind of medical data repository. Furthermore, the data mining technique can broadly be applied for versatile applications such as classification, clustering, regression, prediction etc. [2]. Nevertheless, the heart disease is a vital issue to be fixed for sound human life. Though, real-life consultants can be able to predict the disease with an enormous number of tests and requiring a huge processing time, sometimes, their prediction may be incorrect because of lack of skilled knowledge and proper experiencesregarding this [1]. Consequently, it is obvious that computer-based prediction of heart disease can be more effective and time saving way for the better humanity. Consequently, data mining classification techniques are broadly applied to discover the early stage of the heart disease prediction. Since the development of the efficient classification technique is growing rapidly for various types of classification tasks, it is important to choose the appropriate classification approach for effective heart disease prediction [3]. From this motivation, in this paper, the mostly used classification techniques e.g., support vector machine (SVM), k-nearest neighbor (KNN), and artificial neural network (ANN) have been studied and compared for heart disease prediction using Cleveland heart disease dataset

 

II. BACKGROUND REVIEW
There are several works on the heart disease predictions performed by different researchers. The authors in [3] presented heart disease prediction using several classification techniques in which Bayes classifier shows an accuracy of 86.12% while ANN shows an accuracy of 85.68% and decision tree learning shows an accuracy of 80.4%. On the other hand, in [4] the performances of decision tree learning (79.3%), logistic regression (77.7%) and ANN (80.2%) have been compared for predicting a patient of the heart disease. The authors in [5] performed an analysis of the performances of K-Star (75.1852%), J48 (76.6667%), SMO (84.0741%), Bayes Net (81.1111%) and MLP (77.4074%) for predicting the heart disease patients. In [6] the performances of Random Forest (91.6%), C4.5 (89.6%), SVM (89.2%), Bayes classifier (85.2%), AdaBoost (82.8%) have been compared for predicting the cardiovascular heart disease patients. The authors in [1] have compared the performances of decision tree learning (77.55%), Naïve Bayes classifier (83.49%), KNN (k=1: 76.23%, k=3: 81.18%, k=9: 83.16%, k=15: 83.16%), MLP (82.83%), RBF (83.82%), Single Conjunctive Rule Learner (69.96%) and SVM (84.15%). In [7] it has been analyzed that the conventional logistic regression approach can provide better result than regression trees. The author in [8] has equated the performances of logistic regression and random forest approach for predicting the risk level of the heart disease patients in which the logistic regression (89%) technique can provide better performance than the random forest (88%). Also, the authors in [9] have considered different feature selection approaches and measured the performance of the Naïve Bayes for the diagnosis of heart disease patients. However, in this paper, the prediction performance of the widely used classifiers such as SVM, KNN and ANN has been analyzed and compared using standard Cleveland heart disease dataset.

III. INVESTIGATED CLASSIFICATION TECHNIQUES
Support Vector Machine (SVM)
Support Vector Machine (SVM) is a supervised learning model that is defined as the finite dimensional vector spaces where each dimension characterizes a feature of a particular object. In this way, SVM has been proved as an effective method in high-dimensional space problems. Due to its computational competence on huge datasets SVM is typically used in document classification, sentiment analysis and prediction-based tasks [1], [6], [10]
 K-Nearest Neighbors (KNN)
K-Nearest Neighbor (KNN), a supervised learning model as well, is used to classify the test data using the training samples directly. In KNN, an object is classified by the majority voting of its closest neighbors. Alternatively, the class of a new sample is predicted based on some distance metrics where the distance metric can be a simple Euclidean distance. In the working steps, KNN first calculates k (No. of the nearest neighbors). After that, it finds the distance between the training data and then sorts the distance. Subsequently, a class label will be assigned to the test data based on the majority voting [1]
 Artificial Neural Network (ANN)
The Artificial Neural Network (ANN), also a supervised learning strategy, contains three layers: input, hidden and output. The connection between the input units and the hidden and the output units are based on relevance of the assigned weight of that specific input unit. Usually, if the weight is higher, then it is considered more important. ANN may use linear and sigmoid transfer (activation) functions. Also, the ANNs are suitable for the training of large amounts of data with limited inputs. For multi-layer feed forward ANN, the mostly used learning algorithm is the Backpropagation learning tool [4], [5]. In ANN, the input data records should be separated into three sub-datasets for the purpose of training, validation and testing

IV. EXPERIMENTAL RESULT ANALYSIS
Working Procedure
The working procedure of the proposed evaluation scheme of the studied classification techniques for heart disease prediction is illustrated in Fig. 1

 Dataset Description
In this paper, the Cleveland standard heart disease dataset is gathered from the UCI machine learning repository [11]. Although there are total 270 records of 76 different attributes along with the true sample label in the dataset, most of the published experiments has referred to using a subset of 13 attributes. The used 13 attributes with respective explanation is shown in Table 1. In this experiment, approximately half of the data are used for training and the rest is for the testing.
 Experiment Setup and Result Analysis
For the classification of the heart disease dataset using support vector machine (SVM) with RBF kernel, the commonly used MATLAB LibSVM package [13] has been setup. The well-known 10-fold cross validation procedure has been used to select the best C and gamma (g) parameters for the efficient training and testing [12]. Table 2 shows the classification performance using SVM with the best C and g values. On the other hand, the MATLAB KNN has been applied where Euclidean distance is measured to specify the distance metric between the character vectors. Table 3 shows the classification result for different values of number of neighbors (k). Finally, the MATLAB multilayered feed-forward Backpropagation ANN has been applied on the dataset where the hidden layer takes the input from the input data and the output layer forms the outputs. The number of the hidden neurons in the proposed network structure is experimentally set to 3 that results the size of the network as 13×۳×۱٫ In this network, the 10-fold cross validation process is also used for efficient learning. For this ANN, the total number of the training data is further divided into three subgroup datasets as 45% for training, 5% for validation and the rest for testing purposes. After that, the main testing dataset is used for the testing operation using the trained network. The summarized classification result is shown in Table 4

Table 5 shows the confusion matrices produced from each of the classifiers. Now, the graphical representation of the classification result is illustrated in the graph of Fig. 2. From the above performance comparison tables and graph, it can be observed that the classification accuracy using SVM is much effective than that of the KNN and ANN. The reason behind that is that the SVM can tremendously fix the nonlinearity in the dataset for producing better classification performance than KNN and ANN. Also, the KNN has performed better than ANN as it separates the vector splendidly with k=4.

V. CONCLUSION
As heart disease is one of the vital causes to death, it should be correctly detected at very early stage to get recovery from it. Sometimes, real-life practitioner may not be able to detect the disease due to some lack of skilled knowledge and proper experiences. Thus, computer-based competently accurate prediction system may be an alternative to detect the heart disease for fixing it immediately. Hence, in this paper, three mostly used data mining classification techniques such as SVM, KNN and ANN have been studied and evaluated using standard Cleveland heart disease dataset. It has been analyzed that RBF kernel based SVM can outperform KNN and ANN on the basis of the classification rate while KNN is also offering better performance than ANN. This comparative study also recommends that the significantly evaluated classifier can be used for real-time prediction of heart disease patients and for predicting the risk factor of heart failure with a view to ensuring additional care so that early-stage heart failure can be avoided. However, more training data whether from hospitals or from domain-experts can be added for increasing the prediction performance of the classifiers. Moreover, diverse feature reduction strategies may also be applied on the dataset for getting improved performance

 

دانلود مقاله انگلیسی

ارزیابی کارایی تکنیک های طبقه بندی داده کاوی برای پیش بینی بیماری قلبی

چکیده
بیماری قلبی ممکن است یکی از دلایل اصلی مرگ باشد. به علت فقدان دانش و تجربیات متخصصان درمورد علائم نارسایی قلب برای پیش بینی اولیه این بیماری، کار آسان برای تشخیص بیماری نیست. در نتیجه، پیش بینی مبتنی بر رایانه؛ مبتلایان به بیماری قلبی می تواند نقش مهمی را در تشخیص پیش از مرحله برای انجام اقدامات مناسب با توجه به بهبودی بیماران بازی کند. با این حال، انتخاب روش طبقه بندی مناسب داده کاوی می تواند به طور موثر پیش بینی مرحله اولیه بیماری را برای بازگشت از آن به همراه داشته باشد. در این مقاله، سه تکنیک طبقه بندی استفاده شده غالب از قبیل ماشین بردار پشتیبانی (SVM)، نزدیکترین همسایۀ k (KNN) و شبکه عصبی مصنوعی (ANN) را مورد بررسی قرار می دهیم، با توجه به ارزیابی آنها برای پیش بینی بیماری های قلبی با استفاده از مجموعه داده های بیماری کلیوی استاندارد مورد مطالعه قرار گرفته است.. نتایج تجربی نشان می دهد که دقت طبقه بندی با استفاده از SVM (85.1852٪) بهتر از استفاده از KNN (82663٪) و ANN (73.3333٪) است.
لغات کلیدی: داده کاوی ، ماشین بردار پشتیبانی ، نزدیکترین همسایۀ k ، شبکه عصبی مصنوعی ، پیش بینی بیماری قلبی ، تکنیک های طبقه بندی

I مقدمه
در سال های اخیر حجم اطلاعات کامپیوتری پزشکی به سرعت در حال افزایش است [۱]. با وجود این هنوز؛ انطور که فکر می کنیم استخراج دانش کار پیچیده ای است و نیاز به میزان زیادی دستکاری دارد. با این حال، تکنیک داده کاوی، زمینه مهمی از اموزش ماشینی است که ، می تواند برای بررسی اطلاعات معنی دار از این نوع مخزن اطلاعات پزشکی استفاده شود. علاوه بر این، روش های داده کاوی طور گسترده می تواند برای برنامه های کاربردی متنوع مانند طبقه بندی، خوشه بندی، رگرسیون، پیش بینی و غیره استفاده شود [۲]. با این وجود، تعیین صحیح بیماری قلبی برای زندگی انسان یک مسئله حیاتی است. هر چند، مشاوران واقعی قادر به پیش بینی بیماری همراه یک شمار بزرگی از تست ها هستند و نیاز به یک زمان پردازش زیاد برای داده ها هستند اما گاهی اوقات؛ به دلیل عدم اگاهی و دانش و ماهرت و ازمایشهای نادرست پیش بینی نادرستی انجام می دهند[۱].
در نتیجه، واضح است که پیش بینی مبتنی بر رایانه برای مبتلایان به بیماری قلبی می تواند موثرتر باشد و زمان را برای بشریت به صورت بهتری صرفه جویی نماید. در نتیجه، تکنیک های طبقه بندی داده کاوی به طور گسترده ای برای کشف مراحل اولیه پیشگیری از بیماری های قلبی استفاده می شود. از آنجا که روش طبقه بندی کارآمد به سرعت در حال رشد و توسعه است. انواع مختلفی از وظایف طبقه بندی وجود دارد، مهم این است که انتخاب روش طبقه بندی برای پیش بینی بیماری های قلبی موثر است [۳]. از این انگیزه، در این مقاله، تکنیک های طبقه بندی بیشتر مورد استفاده قرار گرفته مانند ماشین بردار پشتیبانی (SVM)، نزدیک ترین همسایه (KNN) و شبکه عصبی مصنوعی (ANN) مورد بررسی و مقایسه قرار گرفته است و پیش بینی بیماری های قلبی با استفاده از مجموعه داده بیماری قلبی کلیوی امکان پذیر است.
II بررسی پیشین
چندین اثر در مورد پیش بینی بیماری های قلبی که توسط محققین مختلف انجام شده است؛ وجود دارد. نویسندگان در [۳] پیش بینی بیماری های قلبی را با استفاده از تکنیک های طبقه بندی چندگانه ارائه دادند که در آن طبقه بندی Bayes دقت ۸۶٫۱۲٪ را نشان می دهد در حالی که ANN نشان دهنده دقت ۸۵٫۶۸٪ و یادگیری درخت تصمیم گیری دقت ۴/۸۰٪ را نشان می دهد. از سوی دیگر، در پیش بینی بیماری قلبی، در عملکرد یادگیری درخت تصمیم گیری (۷۹٫۳٪)، رگرسیون لجستیک (۷۷٫۷٪) و ANN (80.2٪) مقایسه شده است. نویسندگان در [۵] تجزیه و تحلیل عملکرد K-Star (۷۵.۱۸۵۲)، J48 (۷۶.۶۶۶۷٪)، SMO ( ۸۴.۰۷۴۹٪) Bayes Net (81.1111٪) و MLP (77.4074٪) برای پیش بینی این نوع بیماری مشاهده شده است. در پیش بینی بیماری قلبی و عروقی در بیماران مبتلا به این بیماری (۹۱.۶٪)، C4.5 (۸۹.۶٪) SVM (89.2٪)، (۸۵.۲٪)Bayes ، AdaBoost (82.8٪)، طبقه بندی شده است. نویسندگان در مقایسه با عملکرد یادگیری در درخت تصمیم گیری (۷۷٫۵۵٪)، Bayes Naïve (۴۹.۴۳٪)، KNN (K=۱. ۷۶.۲۳٪؛ K=۳. ۸۱.۱۸٪؛ K= ۹. ۸۳.۱۶٪؛ K=۱۵. ۸۳.۱۶٪)، MLP (۸۲.۸۳٪)، RBF (83.82٪)، دانش آموز تک محاوره ای (۶۹٫۹۶٪) و SVM (84.15٪) موجود است. در [۷] تجزیه و تحلیل انجام شده که در رویکرد رگرسیون لجستیک معمول است می تواند نتایج بهتری را نسبت به درخت های رگرسیون ارائه دهند. نویسنده در [۸] عملکرد رگرسیون لجستیک و روش جنگل تصادفی را برای پیش بینی میزان خطر بیماری های قلبی به عنوان معیار قرار داده اند که در آن روش رگرسیون لجستیک (۸۹٪) می تواند عملکرد بهتر را نسبت به جنگل تصادفی (۸۸٪) فراهم آورد. همچنین، نویسندگان در [۹] روش های انتخابی مختلفی را در نظر گرفته اند و عملکرد Bayes نائو را برای تشخیص بیماری های قلبی اندازه گیری کرده اند. با این حال، در این مقاله، پیش بینی عملکرد طبقه بندی های به طور گسترده استفاده شده است؛ مانند SVM، KNN و ANN مورد تجزیه و تحلیل قرار گرفته است و مقایسه با استفاده از استاندارد مجموعه ای از بیماری های قلبی کلیولند صورت پذیرفته است.

III روشهای طبقه بندی شده مورد تحقیق
۳٫۱ ماشین بردار پشتیبانی (SVM)
ماشین پشتیبانی (SVM) یک مدل یادگیری تحت نظارت است که به عنوان فضاهای مجاز ابعاد چند بعدی تعریف می شود که هر ابعاد ویژگی یک شی خاص را مشخص می کند. به این ترتیب، SVM به عنوان یک روش موثر در مشکلات فضای ابعادی ثابت شده است. با توجه به توانایی محاسباتی در مجموعه داده های بزرگ، SVM به طور معمول در طبقه بندی سند، تحلیل احساسات و وظایف مبتنی بر پیش بینی استفاده می شود [۱]، [۶]، [۱۰].
۳٫۲ نزدیک ترین همسایگان (KNN) K
K-نزدیکترین همسایه (KNN)، یک مدل یادگیری نظارت شده برای طبقه بندی داده های آزمون به طور مستقیم برای نمونه های آموزشی استفاده می شود. در KNN، یک شی توسط رای اکثریت از نزدیک ترین همسایگانش طبقه بندی می شود. به طور متناوب، کلاس نمونه جدید براساس معیارهایی از راه دور پیش بینی می شود که فاصله متریک ساده می تواند ایجاد فاصله ای اقلیدسی ساده باشد. در مراحل کاری، KNN ابتدا k (تعداد نزدیکترین همسایگان) را محاسبه می کند. پس از آن، فاصله بین داده های آموزشی را پیدا می کند و سپس فاصله را مرتب می کند. در ادامه، یک برچسب کلاس به داده های آزمون بر اساس رای اکثریت تعیین می شود [۱].

۳٫۳٫ شبکه عصبی مصنوعی (ANN)
شبکه عصبی مصنوعی (ANN)، همچنین یک استراتژی یادگیری تحت نظارت، شامل سه لایه است: ورودی، پنهان و خروجی. اتصال بین واحدهای ورودی و واحدهای پنهان و خروجی براساس ارتباط وزن تعیین شده آن واحد ورودی خاص است. معمولا، اگر وزن بالاتر باشد، مهم تر است. ANN ممکن است از تابع انتقال (فعال سازی) خطی و سیگمویید استفاده کند. همچنین، ANN ها برای آموزش مقادیر زیاد داده ها با ورودی محدود مناسب هستند. الگوریتم یادگیری اغلب استفاده شده برای ابزارهای یادگیری بازگشتی [۴]، [۵] برای چندین لایه feed ANN فرستاده شده است. در ANN، سوابق داده ورودی باید به منظور سهولت آموزش، اعتبارسنجی و تست به سه زیر مجموعه داده تقسیم شوند.
IV تجزیه و تحلیل نتایج آزمایش
۴٫۱ روش کار
روش کار طرح ارزیابی تکنیک های طبقه بندی مورد بررسی برای پیش بینی بیماری های قلبی در شکل ۱ نشان داده شده است.

۴٫۲ توضیحات مجموعه داده
در این مقاله، مجموعه داده های بیماری های قلبی استاندارد از مخزن یادگیری ماشین UCI جمع آوری شده است [۱۱]. اگر چه ۲۷۰ پرونده از ۷۶ ویژگی مختلف همراه با برچسب نمونه واقعی در مجموعه داده وجود دارد، بیشتر آزمایشات منتشر شده با استفاده از یک زیر مجموعه از ۱۳ ویژگی اشاره شده است. ۱۳ ویژگی استفاده شده با توضیح مربوطه در جدول ۱ نشان داده شده است. در این آزمایش تقریبا نیمی از داده ها برای آموزش استفاده می شود و بقیه برای آزمایش است.

۴٫۳ مراحل آزمایشی و تجزیه و تحلیل نتایج
برای طبقه بندی مجموعه داده های بیماری های قلبی با استفاده از ماشین بردار پشتیبانی (SVM) با هسته RBF، بسته های LibSVM متداول استفاده شده از MATLAB [13] تنظیم شده است. برای انتخاب بهترین پارامترهای C و گاما (g) برای آموزش و آزمایش کارآمد، روش شناخته شده ۱۰ برابر روش اعتبارسنجی استفاده شده است [۱۲]. جدول ۲ عملکرد طبقه بندی با استفاده از SVM با بهترین مقادیر C و G را نشان می دهد.

از سوی دیگر، MATLAB KNN برای اموزش فاصله اقلیدس برای اندازه گیری فاصله متری خاص وکتورهای شخصیتی بکار برده می شود. جدول ۳ نتایج طبقه بندی برای مقادیر مختلف تعداد همسایگان (k) را نشان می دهد.

در نهایت، نرم افزار مطلب چندگانه با تبلیغات قبلی ANN در مجموعه ای از داده ها پنهان شده در لایه ورودی را می گیرد و از داده های ورودی و خروجی را که به شكل لايه ای وارد نشده است؛ بکار برده می شود. تعداد نورون های پنهان در ساختار شبکه پیشنهاد شده به صورت آزمایشی به ۳ تنظیم می شود که به اندازه شبکه برابر با ۱۳ × ۳ × ۱ بر می گردد. در این شبکه، روند تأیید اعتبار ۱۰ برابر نیز برای یادگیری کارآمد مورد استفاده قرار می گیرد. برای این ANN، تعداد کل داده های آموزشی به سه مجموعه داده های زیر گروه تقسیم شده است: ۴۵٪ برای آموزش، ۵٪ برای اعتبار سنجی و بقیه برای اهداف تستی است. پس از آن، مجموعه داده تست اصلی برای عملیات تست با استفاده از شبکه آموزش دیده مورد استفاده قرار می گیرد. نتایج طبقه بندی خلاصه در جدول ۴ نشان داده شده است.

در حال حاضر، نمایش گرافیکی نتایج طبقه بندی در نمودار شکل ۲ نشان داده شده است.

از جدول مقایسه عملکرد در بالا و نمودار، می توان مشاهده کرد که دقت طبقه بندی با استفاده از SVM بسیار موثر از KNN و ANN است. دلیل آن این است که SVM می تواند نتایج غیر خطی را در مجموعه داده ها برای تولید عملکرد طبقه بندی بهتر از KNN و ANN اصلاح کند. همچنين KNN بهتر از ANN عمل مي کند زيرا بردار را به شکلي با k = 4 جدا مي کند.
V نتیجه گیری
همانطور که بیماری قلبی یکی از علل حیاتی مرگ است، باید آن را در مرحله بسیار زودهنگام شناسایی کرد تا این بیماری بهبود یابد. گاهی اوقات، ممکن است به علت کمبود دانش و تجربیات مناسب نتواند به تشخیص بیماری برسد. بنابراین، سیستم پیش بینی دقیق مبتنی بر کامپیوتر ممکن است جایگزین مناسب برای تشخیص بیماری قلبی برای تثبیت زودهنگام ان باشد. بنابراين، در اين مقاله، سه روش عمدتا از روشهاي طبقه بندي داده اي مانند SVM، KNN و ANN مورد استفاده قرار گرفته است و با استفاده از داده هاي استاندارد بيماري قلبي كليولند مورد ارزيابي قرار گرفته است. تجزیه و تحلیل نشان می دهد که SVM مبتنی بر هسته RBF می تواند KNN و ANN را براساس نرخ طبقه بندی در مقایسه با ANN افزایش دهد، در حالی که KNN همچنین عملکرد بهترتری نسبت به ANN ارائه می دهد. این مطالعه مقایسه ای همچنین توصیه می کند که طبقه بندی قابل توجهی ارزیابی می تواند برای پیش بینی واقعی در بیماران مبتلا به بیماری قلبی بکار برده شود و پیش بینی عوامل خطر نارسایی قلبی با توجه به اطمینان از مراقبت های اضافی به منظور جلوگیری از نارسایی قلب در مرحله اولیه استفاده شود. با این حال، اطلاعات بیشتر آموزش از دامنه بیمارستان ها و یا متخصصان می تواند برای افزایش عملکرد پیش بینی شده طبقه بندی ها افزوده شود. علاوه بر این، استراتژی های کاهش قابلیت های متنوع نیز ممکن است در مجموعه داده ها برای بهبود عملکرد استفاده شود.

من سامان نصیری نویسنده این مقاله هستم.

تاریخ انتشار: 1 سپتامبر 2020
56 بازدید

مطالب مرتبط

دیدگاه ها

مجوزها و نمادها


logo-samandehi

پل های ارتباطی با ما …

تبریز ، بخش مقصودیه ، خیابان ارتش جنوبی، کوچه شهید شهابی ، بن بست باغچه ، پلاک ۸۷ ، طبقه 4
تلفن تماس : 04135421108-09307584802
ایمیل : entofa@gmail.com


Unit4,No87,Baghcheh Alley,South Artesh ST,Azadi ave,MAGHSUDIYEH, Tabriz, Iran
کلیه حقوق این وب سایت محفوظ می باشد . طراحی و توسعه آلسن وب    All rights reserved © 2020 Entofa