머신러닝은 인공지능의 한 분야로 데이터, 경험을 기반으로 학습하여 성능향상을 기대할 수 있는 시스템을 구축하는데 초점이 맞춰진 기술입니다.
머신 러닝 알고리즘은 AI 시스템이 작업을 수행하기 위해 사용하는 일련의 규칙 또는 프로세스로, 주로 새로운 데이터와 패턴을 발견하거나 주어진 입력 변수 세트에서 출력 값을 예측하기 위해 사용됩니다.
대부분의 경우 머신 러닝 알고리즘을 더 많은 데이터로 훈련하는 것이 더 적은 데이터로 훈련하는 것보다 더 정확한 답을 산출합니다. 알고리즘은 통계적 방법을 사용하여 분류를 결정하거나 예측하고 데이터 마이닝 프로젝트에서 주요 인사이트를 발견하도록 훈련됩니다. 이러한 인사이트는 이후 의사 결정을 개선하여 주요 성장 메트릭을 향상시킬 수 있습니다.
딥러닝
의사 결정 프로세스 : 일반적으로 머신 러닝 알고리즘은 예측이나 분류를 수행하기 위해 사용됩니다. 레이블이 지정되거나 지정되지 않은 일부 입력 데이터를 기반으로 알고리즘은 데이터의 패턴에 대한 추정치를 생성합니다.
오차 함수 : 오차 함수는 모델의 예측을 평가합니다. 알려진 예가 있는 경우 오차 함수를 비교를 통해 모델의 정확도를 평가할 수 있습니다.
모델 최적화 프로세스 : 모델이 훈련 세트의 데이터 포인트에 더 잘 맞으면 가중치를 조정하여 알려진 예와 모델 추정치 간의 불일치를 줄입니다. 알고리즘은 '평가 및 최적화' 프로세스를 반복하여 정확도 임계값이 충족될 때까지 가중치를 자동으로 업데이트합니다.
머신 러닝 알고리즘에는 지도 학습, 비지도 학습, 준지도 학습 및 강화 학습과 같은 네 가지 유형이 있습니다. 예산, 필요한 속도 및 정밀도 요구 사항에 따라 각 유형과 변형에는 고유한 이점이 있습니다.
다양한 알고리즘과 계산 기술이 지도형 머신러닝 프로세스에 사용되며, 종종 Python과 같은 프로그램을 사용하여 계산됩니다. 지도 학습 알고리즘에는 다음이 포함됩니다.
에이다부스트 or 그래디언트 부스팅 : 적응형 부스팅이라고도 하는 이 기법은 성능이 떨어지는 회귀 알고리즘을 더 약한 알고리즘과 결합하여 오류가 적은 더 강력한 알고리즘을 구축합니다. 부스팅은 여러 기본 추정기의 예측 능력을 결합합니다.
인공 신경망 : ANN, 신경망 또는 시뮬레이션 신경망(SNN)이라고도 알려진 인공 신경망은 머신 러닝 기술의 하위 집합으로 딥 러닝 알고리즘의 핵심입니다. 학습자 알고리즘은 뉴런이라는 빌딩 블록을 사용하여 입력 데이터의 패턴을 인식하고, 지속해서 훈련되고 수정되는 인간 뇌의 뉴런을 근사화합니다.
K-최근접 이웃 : KNN이라고도 하는 이 비모수 알고리즘은 사용 가능한 다른 데이터와의 근접성 및 연관성을 기준으로 데이터 포인트를 분류합니다. 유사한 데이터 포인트가 서로 근처에서 발견될 수 있다고 가정합니다. 그 결과, 일반적으로 유클리드 거리를 사용해 데이터 포인트 간의 거리를 계산한 다음 가장 빈도가 높은 카테고리 또는 평균을 기준으로 카테고리를 할당합니다.
지도 학습과 달리 비지도 학습은 레이블이 지정되지 않은 데이터를 사용합니다. 알고리즘은 이 데이터로부터 클러스터링 또는 연관 문제를 해결하는 데 도움이 되는 패턴을 발견합니다. 이는 주제별 전문가가 데이터 세트 내의 공통 속성을 잘 모를 때 특히 유용합니다. 일반적인 클러스터링 알고리즘은 계층적, K-평균, 가우스 혼합 모델 및 PCA 및 t-SNE와 같은 차원 감소 방법입니다.
클러스터링 : 이 알고리즘은 데이터의 패턴을 식별하여 그룹화할 수 있습니다. 클러스터링 알고리즘은 인간이 간과한 데이터 항목 간의 차이점을 식별하여 데이터 과학자를 도울 수 있습니다.
계층적 클러스터링 : 데이터를 클러스터 트리로 그룹화합니다. 계층적 클러스터링은 모든 데이터 포인트를 별도의 클러스터로 처리하는 것으로 시작됩니다. 그런 다음, 이러한 단계를 1) 서로 가장 가까운 두 개의 클러스터를 식별하는 단계, 2) 최대 비교 가능한 두 개의 클러스터를 병합하는 단계의 순서로 반복적으로 실행합니다. 이 단계는 모든 클러스터가 병합될 때까지 계속됩니다.
K-평균 클러스터링 : 레이블이 없는 데이터 내 그룹을 서로 유사한 데이터 그룹을 찾아 다른 클러스터로 식별합니다. 'K-평균'이라는 이름은 클러스터를 정의하는 데 사용하는 구심점에서 유래했습니다. 특정 클러스터의 중심에 있는 포인트가 다른 중심에 있는 포인트보다 더 가까우면 특정 클러스터에 할당됩니다.
이 경우 학습은 주어진 입력 데이터의 일부에만 레이블이 지정되었을 때 발생하므로 알고리즘에 약간의 '유리한 출발점'을 제공합니다. 이 접근 방식은 지도 머신러닝과 관련된 정확도 향상과 비지도 머신러닝의 경우와 같이 비용 효율적인 레이블이 없는 데이터를 사용할 수 있는 능력이라는 두 가지 장점을 결합합니다.
이 경우 알고리즘은 인간이 학습하는 것처럼 보상과 페널티를 통해 훈련됩니다. 강화 학습 에이전트는 점수를 올리는 데 성공할 확률과 낮출 확률에 대한 일반적인 이해를 가진 강화 학습 에이전트에 의해 측정되고 추적됩니다. 시행착오를 통해 에이전트는 지속적으로 가장 유리한 결과를 이끌어내는 조치를 취하는 법을 배웁니다. 강화 학습은 자원 관리, 로봇 공학 및 비디오 게임에서 자주 사용됩니다.