방사신경망

방사신경망(Radial Basis Function Network, RBFN)은 방사 함수를 활성화 함수로 사용하는 인공신경망이다. 네트워크의 출력은 입력과 뉴런 매개 변수의 방사 함수의 선형 결합이다. 방사신경망은 함수 근사치, 시계열 예측, 분류 및 시스템 제어를 포함하여 많은 용도에 쓰인다.

개요[편집]

방사신경망은 왕립신호 및 레이더 연구소의 연구원인 브룸헤드(Broomhead)와 로우(Lowe)에 의해 1988년 논문에서 처음 공식화되었다.^[1] 방사신경망은 다차원 공간의 보간법에 강력한 능력을 가지고 있는 신경망으로 방사형 구조를 기본으로 하는 네트워크를 가지고 있다.^[2] 1개의 은닉층에는 확률 가우시안이 적용되어 있다. 방사신경망은 은닉층이 1개이며, 유클리디안 거리를 사용한다. 또한 역전파 알고리즘을 사용하고, 안정성 판별이 가능하다는 네 가지의 특징이 있다.^[3] 방사신경망은 보편적인 근사 및 빠른 학습 속도로 인해 다른 신경망과 구별된다. 방사신경망은 입력 계층, 숨겨진 계층 및 출력 계층의 세 계층으로 구성된 피드 포워드 신경망의 한 유형이다. 이러한 각 계층에는 서로 다른 작업이 존재한다. 계산된 오류가 원하는 값 또는 학습 반복 횟수에 도달하면 방사신경망 모델의 학습이 종료된다. 그리고 히든 레이어에 특정 수의 노드가 있는 방사신경망이 선택된다. 이는 가우스 함수 계산 단위의 전달 함수로 사용된다. 경우에 따라 일반적으로 방사신경망이 다층퍼셉트론에 비해 훈련 종료에 도달하는 데 더 적은 시간이 필요하다는 것이 관찰된다. 선택된 다층퍼셉트론 및 방사신경망은 나중에 새로운 테스트 조건에서 검토된다. 그리고 모델 예측과 실험적 관찰 사이의 일치를 조사하고 두 모델의 결과를 비교한다. 그런 다음 최소 계산 오류를 기반으로 최종 모델이 선택된다.^[4]

구조[편집]

방사신경망은 일반적으로 입력 계층, 비선형 방사 기저 함수 활성화 기능이 있는 숨겨진 계층, 선형 출력 계층의 세 가지 계층을 가진다. 입력은 실수 $\mathbf {x} \in \mathbb {R} ^{n}$ 의 벡터로 모델링할 수 있다. 그러면 네트워크의 출력은 입력 벡터 $\varphi :\mathbb {R} ^{n}\to \mathbb {R}$ 의 스칼라 함수가 되며, $\varphi (\mathbf {x} )=\sum _{i=1}^{N}a_{i}\rho (||\mathbf {x} -\mathbf {c} _{i}||)$ 로 주어진다.

여기에서 $N$ 은 숨겨진 층에 있는 뉴런의 수, $\mathbf {c} _{i}$ 는 뉴런 $i$ 의 중심 벡터, $a_{i}$ 는 선형 출력 뉴런에 있는 뉴런 $i$ 의 무게다. 중심 벡터로부터의 거리에만 의존하는 함수는 그 벡터에 대해 방사적으로 대칭되므로, 명칭은 방사상 기준 함수다. 기본적인 형태에서 모든 입력은 각각의 숨겨진 뉴런과 연결된다. 규범은 마할라노비스 거리가 패턴 인식으로 더 잘 수행되는 것처럼 보이지만 전형적으로 유클리드 거리로 취하며 방사상 기준 함수는 일반적으로 가우스 함수로 취해진다.

  $\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta \left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]$

가우스 기본 함수는 다음 식을 의미하는 중앙 벡터에 국부적이다.

  $\lim _{||x||\to \infty }\rho (\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert )=0$

즉, 하나의 뉴런의 매개변수 변경은 그 뉴런의 중심에서 멀리 떨어져 있는 입력 값에 작은 영향만 미친다. 활성화 함수의 형태에 대한 특정한 가벼운 조건을 고려할 때, 방사신경망은 $\mathbb {R} ^{n}$ 의 컴팩트 부분 집합에 있는 범용 근사치들이다. 이것은 충분한 숨겨진 뉴런을 가진 방사신경망이 임의의 정밀도로 폐쇄되고 경계된 집합의 어떤 연속적인 기능도 대략적으로 맞출 수 있다는 것을 의미한다.

매개변수 $a_{i}$ , $\mathbf {c} _{i}$ 및 $\beta _{i}$ 는 $\varphi$ 와 데이터 사이의 적합성을 최적화하는 방법으로 결정된다.^[1]

정규화[편집]

정규화 구조

위의 비정형 아키텍처 외에도 방사신경망을 표준화할 수 있다.

  $\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}a_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}$

정규화는 위의 식으로 매핑된다.

 $u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{j=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{j}\right\Vert {\big )}}}$

위의 식은 '정규화된 방사형 기저 함수'라고 한다.

정규화를 위한 이론적 동기

확률적 데이터 흐름의 경우 이 구조에 대한 이론적 정당성이 있다. 먼저 결합 확률 밀도에 대한 확률적 커널 근사치를 가정한다.

  $P\left(\mathbf {x} \land y\right)={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,\sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}$

위 식에서 가중치 $\mathbf {c} _{i}$ 및 $e_{i}$ 는 데이터의 예시이며, 커널이 정규화된

  $\int \rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,d^{n}\mathbf {x} =1$ 
  $\int \sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}\,dy=1$

위의 두 식을 필요로 한다.

입력 및 출력 공간의 확률 밀도는 $P\left(\mathbf {x} \right)=\int P\left(\mathbf {x} \land y\right)\,dy={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}$ 이고

입력 $x$ 에 대한 $y$ 의 기대치는 $\varphi \left(\mathbf {x} \right)\ {\stackrel {\mathrm {def} }{=}}\ E\left(y\mid \mathbf {x} \right)=\int y\,P\left(y\mid \mathbf {x} \right)dy$ 이다.

위 식에서 $P\left(y\mid \mathbf {x} \right)$ 는 $y$ 의 주어진 $x$ 의 조건부 확률이다.

조건부 확률은 $\varphi \left(\mathbf {x} \right)=\int y\,{\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}\,dy$ 를 산출하는 베이즈 정리 $P\left(y\mid \mathbf {x} \right)={\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}$ 을 통한 접합 확률과 관련이 있다.

  $\varphi \left(\mathbf {x} \right)={\frac {\sum _{i=1}^{N}e_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}e_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}$

통합이 수행되면 위 식이 된다.^[1]

로컬 선형 모형[편집]

때때로 로컬 선형성 모델을 포함하도록 구조를 확장하는 것이 편리하다. 이 경우 구조는 비정상화 및 정규화 사례에서 각각 아래의 두 식이 된다.

  $\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}$ 
  $\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}$

$\mathbf {b} _{i}$ 는 결정해야 할 가중치들이다. 더 높은 차수의 선형 항도 가능하다.

  $e_{ij}={\begin{cases}a_{i},&{\mbox{if }}i\in [1,N]\\b_{ij},&{\mbox{if }}i\in [N+1,2N]\end{cases}}$ 
  $v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}$

위 식이 비정규화되었다는 조건과

  $v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}$

위의 식이 정규화되었다는 조건 하에 아래의 결과가 나온다.

  $\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{2N}\sum _{j=1}^{n}e_{ij}v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}$

$\delta _{ij}$ 은 아래의 식으로 정의된 크론커 델타 함수다.

  $\delta _{ij}={\begin{cases}1,&{\mbox{if }}i=j\\0,&{\mbox{if }}i\neq j\end{cases}}$

훈련[편집]

방사신경망은 일반적으로 2단계 알고리즘에 의해 입력값과 목표값의 쌍 $\mathbf {x} (t),y(t)$ , $t=1,\dots ,T$ 에서 훈련된다. 첫 번째 단계에서는 숨겨진 계층의 방사 함수의 중심 벡터 $\mathbf {c} _{i}$ 를 선택한다. 이 단계는 여러 가지 방법으로 수행할 수 있다. 중심은 일부 예제에서 무작위로 추출하거나 k-평균 군집화를 사용하여 결정할 수 있다. 이 단계는 감독되지 않는다는 점에 유의해야 한다. 두 번째 단계는 단순히 어떤 객관적 기능에 대한 계수가 $w_{i}$ 인 선형 모델을 숨겨진 층의 출력에 적합시킨다. 회귀 분석, 함수 추정의 공통 목표 함수는 최소 제곱 함수 $K(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}K_{t}(\mathbf {w} )$ 에서 $K_{t}(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}^{2}$ 이다.

가중치에 대한 의존성을 명시적으로 포함시켰다. 최적의 무게 선택으로 최소 제곱 목적 함수를 최소화하면 적합 정확도가 최적화된다.

  $H(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ K(\mathbf {w} )+\lambda S(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}H_{t}(\mathbf {w} )$

이 경우 위 식과 같이 정규화된 객관적 기능을 최적화하는 것이 유용하다. 위의 식에서 $S(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}S_{t}(\mathbf {w} )$ 와 $H_{t}(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ K_{t}(\mathbf {w} )+\lambda S_{t}(\mathbf {w} )$ 은 S의 최적화가 부드러움을 최대화하고 $\lambda$ 는 정규화 매개변수로 알려져 있다. 마지막으로 세 번째 옵션 백프로포메이션(backpropagation) 단계를 수행하여 모든 방사신경망의 파라미터를 미세 조정 할 수 있다.^[1]

보간법[편집]

방사신경망은 제한된 수의 점 $y(\mathbf {x} _{i})=b_{i},i=1,\ldots ,N$ 에서 해당 함수의 값이 알려져 있을 때 함수 $y:\mathbb {R} ^{n}\to \mathbb {R}$ 를 보간하는 데 사용될 수 있다. 알려진 지점 $\mathbf {x} _{i}$ 를 방사상 기본 함수의 중심으로 삼고 동일한 지점 $g_{ij}=\rho (||\mathbf {x} _{j}-\mathbf {x} _{i}||)$ 에서 기본 함수의 값을 평가하면 아래의 등식에서 가중치를 해결할 수 있다.

\left[{\begin{matrix}g_{11}&g_{12}&\cdots &g_{1N}\\g_{21}&g_{22}&\cdots &g_{2N}\\\vdots &&\ddots &\vdots \\g_{N1}&g_{N2}&\cdots &g_{NN}\end{matrix}}\right]\left[{\begin{matrix}w_{1}\\w_{2}\\\vdots \\w_{N}\end{matrix}}\right]=\left[{\begin{matrix}b_{1}\\b_{2}\\\vdots \\b_{N}\end{matrix}}\right]

위 방정식의 보간행렬은 점 $\mathbf {x} _{i}$ 이 구별되는 경우 비성격임을 알 수 있으며, 따라서 $w$ 가중치는 단순 선형대수 $\mathbf {w} =\mathbf {G} ^{-1}\mathbf {b}$ 에서 $G=(g_{ij})$ 으로 해결할 수 있다.^[1]

기능 근사[편집]

엄격한 보간이 아니라 보다 일반적인 기능 근사 또는 통계 분류를 수행하는 것이 목적이라면, 센터에 대한 명확한 선택이 없기 때문에 최적화는 다소 복잡하다. 훈련은 일반적으로 너비와 중심을 먼저 고친 다음 웨이트를 고정하는 두 단계로 이루어진다. 이는 비선형 숨겨진 뉴런 대 선형 출력 뉴런의 다른 성질을 고려함으로써 정당화될 수 있다.

기본함수센터 양성

기본 함수 센터는 입력 인스턴스 사이에서 무작위로 샘플링하거나 직교 최소 제곱 학습 알고리즘을 통해 얻거나 데이터 클러스터링 샘플링과 클러스터 평균을 센터로 선택함으로써 찾을 수 있다. 방사 함수 너비는 대개 모두 선택한 중심 사이의 최대 거리에 비례하는 동일한 값에 고정된다.^[1]

선형 가중치에 대한 의사역 솔루션

센터 $c_{i}$ 이 고정된 후, 출력에서 오차를 최소화하는 가중치는 선형 의사역할 솔루션 $\mathbf {w} =\mathbf {G} ^{+}\mathbf {b}$ 로 계산할 수 있다. 여기서 'G'의 항목은 $x_{i}$ : $g_{ji}=\rho (||x_{j}-c_{i}||)$ 지점에서 평가된 방사상 기준 함수의 값이다.

이 선형 솔루션의 존재는 다중 계층 수용체(MLP) 네트워크와 달리 방사신경망에는 명시적 미니마이저, 중심점이 고정된 경우가 있다는 것을 의미한다.

선형 가중치의 경사 하강법 훈련

또 다른 훈련 알고리즘은 경사 하강법이다. 경사 하강법 훈련에서 가중치는 목표 함수의 경사와 반대 방향으로 이동하여 매 단계마다 조정된다. 따라서 목적 함수의 최소값을 찾을 수 있다.

  $\mathbf {w} (t+1)=\mathbf {w} (t)-\nu {\frac {d}{d\mathbf {w} }}H_{t}(\mathbf {w} )$

위의 식에서 $\nu$ 는 학습 매개변수이다.

$a_{i}$ 선형 가중치를 훈련하는 경우 알고리즘은 다음과 같이 된다.

비정규화된 경우

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}

정규화된 경우

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}

로컬 선형 구조의 경우 경사-욕구 훈련은 $e_{ij}(t+1)=e_{ij}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}v_{ij}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}$ 이다.

선형 가중치에 대한 투영 연산자 교육

선형 가중치인 $a_{i}$ 과 $e_{ij}$ 를 훈련하는 경우 알고리즘은 다음과 같다.

비정규화된 경우

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho ^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

정규화된 경우

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}u^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

국소선형인 경우

e_{ij}(t+1)=e_{ij}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {v_{ij}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}}{\sum _{i=1}^{N}\sum _{j=1}^{n}v_{ij}^{2}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}}}

하나의 기본 함수에 대해 투영 연산자 교육은 뉴턴의 방법으로 축소된다.^[1]

예시[편집]

로지스틱 맵[편집]

방사상 기준 함수의 기본 속성은 단위 간격을 자체로 매핑하는 간단한 수학 지도인 로지스틱 맵으로 설명할 수 있다. 이는 편리한 프로토타입 데이터 스트림을 생성하는 데 사용할 수 있다. 로지스틱 맵을 사용하여 함수 근사, 시계열 예측, 제어 이론을 탐색할 수 있다. 이 맵은 인구 역학의 분야에서 출발하여 인구론 시계열의 원형이 되었다. 혼란스러운 체제에서 맵은 t가 시간 지수인 $x(t+1)\ {\stackrel {\mathrm {def} }{=}}\ f\left[x(t)\right]=4x(t)\left[1-x(t)\right]$ 로 주어진다. 시간 t+1에서 x 값은 시간 t에서 x의 포물선 함수다. 이 방정식은 로지스틱 맵에 의해 생성되는 혼돈 시계열의 기본 기하학을 나타낸다. 또한 이 방정식의 시계열 생성은 전방 문제이다. 이는 시계열의 예로부터 로지스틱 맵의 기초적인 역학 또는 기본 방정식의 식별인 역대 문제를 예시한다. f에 대한 추정치 $x(t+1)=f\left[x(t)\right]\approx \varphi (t)=\varphi \left[x(t)\right]$ 을 찾는 것이 목표이다.

함수 근사[편집]

비정규화된 방사형 기저 함수

비정규화된 방사형 기저 함수의 구조는 다음과 같다.

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta _{i}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]=\exp \left[-\beta _{i}\left(x(t)-c_{i}\right)^{2}\right]

입력은 벡터가 아닌 스칼라이기 때문에 입력 치수는 한 개이다.

기본 함수의 개수를 N=5로 하고, 훈련 세트의 크기를 혼돈된 시계열에서 생성된 100개의 예시로 선택한다. 무게 $\beta$ 는 5와 같은 상수로 간주된다. $c_{i}$ 가중치는 시계열에서 나온 다섯 가지 예다. $a_{i}$ 가중치는 [[학습률]이 있는 경우 투영 연산자 훈련 $a_{i}(t+1)=a_{i}(t)+\nu {\big [}x(t+1)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho ^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}$ 로 훈련한다. $\nu$ 는 0.3으로 간주된다. 훈련은 100점의 훈련 포인트를 1회 통과하여 실시한다. 평균 제곱 오차는 0.15이다.

정규화된 방사형 기저 함수

정규화된 방사형 기저 함수는 다음과 같다.

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}a_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta \left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]=\exp \left[-\beta \left(x(t)-c_{i}\right)^{2}\right]

기본 함수의 수를 5로 설정하고 훈련 세트의 크기를 혼란스러운 시계열로 인해 생성된 100개의 예시로 선택한다. 가중치 $\beta$ 은 6과 같은 상수로 간주된다. $c_{i}$ 번 가중치는 그 시계열에서 나온 다섯 가지 예시이다. 가중치 $a_{i}$ 은 투영 조작자 훈련으로 훈련된다.

  $a_{i}(t+1)=a_{i}(t)+\nu {\big [}x(t+1)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}u^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}$

여기에서 학습률 $\nu$ 은 다시 0.3이 된다. 훈련은 100점의 훈련 포인트를 1회 통과하여 실시한다. 100개의 예시로 구성된 테스트 세트의 평균 제곱 오차는 0.084로, 정규화되지 않은 오차보다 작다. 정상화하면 정확도가 향상된다. 일반적으로 표준화된 기본 함수의 정확도는 입력 치수성이 증가함에 따라 정규화되지 않은 함수보다 훨씬 더 증가한다.^[1]

시계열 예측[편집]

시계열 예측

이전 예시에서와 같이 시계열의 기본 형상이 추정되면 반복을 통해 시계열에 대한 예측을 수행할 수 있다.

\varphi (0)=x(1)

{x}(t)\approx \varphi (t-1)

{x}(t+1)\approx \varphi (t)=\varphi [\varphi (t-1)]

실제 시계열과 추정 시계열의 비교가 그림에 표시된다. 추정된 시계열은 x(0)를 정확히 알고 0시에 시작한다. 그런 다음 동적 추정치를 사용하여 몇 가지 시간 단계에 대한 시계열 추정치를 업데이트한다. 추정치는 몇 가지 시간 단계에서만 정확하다는 점에 유의해야 한다. 이것은 혼란스러운 시계열의 일반적인 특징이며 혼란스러운 시계열에 공통적으로 나타나는 초기 조건에 대한 민감한 의존성의 속성이다. 작은 초기 오류는 시간이 지남에 따라 증폭된다. 초기 조건이 거의 동일한 시계열의 차이를 랴푸노프(Lyapunov) 지수라고 한다.

혼란스러운 시계열 제어[편집]

혼란스러운 시계열 제어

로지스틱 지도의 출력이 제어 매개변수 $c[x(t),t]$ 을 통해 조작될 수 있다고 가정한다.

{x}_{}^{}(t+1)=4x(t)[1-x(t)]+c[x(t),t]

목표는 시계열을 원하는 출력 $d(t)$ 로 유도하는 방식으로 제어 파라미터를 선택하는 것이다.

c_{}^{}[x(t),t]\ {\stackrel {\mathrm {def} }{=}}\ -\varphi [x(t)]+d(t+1)

제어 매개변수를 위 식으로 선택한 경우이다.

y[x(t)]\approx f[x(t)]=x(t+1)-c[x(t),t]

위 식은 시스템의 기본 자연 역학에 대한 근사치인 경우 수행될 수 있다.

학습 알고리즘은 아래의 식 순으로 주어진다.

a_{i}(t+1)=a_{i}(t)+\nu \varepsilon {\frac {u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}u^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

\varepsilon \ {\stackrel {\mathrm {def} }{=}}\ f[x(t)]-\varphi [x(t)]=x(t+1)-c[x(t),t]-\varphi [x(t)]=x(t+1)-d(t+1)

각주[편집]

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 ^1.7 Radial basis function network Wikipedia - https://en.wikipedia.org/wiki/Radial_basis_function_network
↑ jmkang, 〈인공신경망〉, 《인코돔》, 2018-05-09
↑ 임시블로그, 〈RBF(Radial Basis Function) 신경망〉, 《티스토리》, 2014-10-27
↑ Radial Basis Function Network ScienceDirect - https://www.sciencedirect.com/topics/engineering/radial-basis-function-network

참고자료[편집]

Radial basis function network Wikipedia - https://en.wikipedia.org/wiki/Radial_basis_function_network
Radial Basis Function Network ScienceDirect - https://www.sciencedirect.com/topics/engineering/radial-basis-function-network
임시블로그, 〈RBF(Radial Basis Function) 신경망〉, 《티스토리》, 2014-10-27
jmkang, 〈인공신경망〉, 《인코돔》, 2018-05-09

같이 보기[편집]

이 방사신경망 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 기술^□^■^⊕, 인공지능 활용, 인공지능 개발업체, 인공지능 인물

인간적 행위	로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지식표현 • 컴퓨터 비전 • 튜링 테스트

합리적 사고	결정이론 • 논리학 • 논리주의자 • 삼단논법 • 선호도 • 최대기대효용 • 효용이론

강화학습	ADP • DDPG • DQN • SARSA • 결정이론적 메타추론 • 계통적 강화학습 • 동적 계획법 • 모델 기반 강화학습 • 모델 프리 강화학습 • 반영식 아키텍처 • 수시 알고리즘 • 심층믿음망 • 어니 • 에이전트 • 확률적 경사하강법

인공지능 프로그램	A2I • 어니 • 알파고 • 왓슨 • 카페 • 텐서플로 • 토치 • 한돌

인공지능 알고리즘	AGI • 관계형 네트워크(RN) • 다층퍼셉트론 • 데이터마이닝 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 방사신경망 • 분산 샌드박스 • 비지도학습 • 생성대립신경망(GAN) • 생성형 AI • 수퍼 얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그노이드 함수 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 지도학습 • 코헨 자기조직 신경망 • 텍스트마이닝 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

문자인식	ICR • OCR • OMR • 문자인식

인공지능 특징	계산상의 합리성 • 분산성 • 불확실성 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 할루시네이션

계산 복잡도	NP • NP-완전 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 기술	BCI • 멀티모달 • 모달 • 모달리티 • 모달창 • 텔레파시

인공지능 법적 지위	권리주체성 • 전자대리인 • 전자적 인간 • 책임법 • 코파일럿

인공지능 업무	데이터라벨러 • 데이터라벨링 • 크라우드워커

위키 : 자동차, 교통, 지역, 산업, 기업, 단체, 업무, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반