Neuroncity

neuroncity

건축전공 대학원생. 일본어, 교양 수준의 수학과 과학, 미드, 복잡계, 일본 버라이어티, 발레 관람 등에 관심 있고 돈 모아서 갈라파고스에 가보는게 꿈입니다.

Tensorflow

범죄위험도평가. Crawling/scraping. 깃허브모음. Coursera. Free Images. D3. GIT. 3D Printing. GIS. Data Visualization & Infographics. MOOC. Physical Computing. PerceptionCV. Complexity. Tips+utility. Architecture & City. First Contact with TensorFlow – infractal. NYT VR: Virtual Reality by The New York Times. RNN Tutorial Part 3 - BPTT와 Vanishing Gradient 문제 – Team AI Korea – We do Artificial Intelligence. WildML의 세 번째 RNN 튜토리얼입니다.

RNN Tutorial Part 3 - BPTT와 Vanishing Gradient 문제 – Team AI Korea – We do Artificial Intelligence

RNN 모델을 학습하는데 사용되는 핵심 알고리즘은 Backpropagation Through Time (BPTT)와, 기본 RNN 모델에서 발생하는 vanishing gradient 문제에 대해 조금 더 심도있게 다뤘습니다. 이전 번역 포스트들과 마찬가지로 영문 버전을 거의 그대로 옮겨왔고, 번역에 이상한 점을 발견하셨거나 질문이 있으시다면 댓글로 달아주세요! Recurrent Neural Network 튜토리얼의 세 번째 파트입니다. 이전 파트에서는 RNN을 아예 처음부터 구현해 보았지만, BPTT 알고리즘이 어떻게 gradient를 계산하는지에 대해 깊숙히 들어가지는 않았었다. 이번 파트에서는 BPTT가 무엇인지, 기존의 backpropagation 알고리즘과의 차이점이 어떤게 있는지 살펴볼 것이다.

이번 파트를 제대로 이해하기 위해서는 편미분과 기본 backpropagation 알고리즘의 동작에 대한 이해가 필요한데, 이 부분에 대해서는 여기와 여기와 여기를 순서대로 읽어본다면 큰 도움이 될 것이다. Backpropagation Through Time (BPTT) RNN의 기본 계산 수식을 다시 적어보자. St=tanh(Uxt+Wst−1)^yt=softmax(Vst) Loss (에러)도 이전에 cross entropy로 정의했었고, 그 식은 아래와 같다.

ML/DL

‘데이터’를 똑똑하게 만드는 오픈소스 기술 12종. 데이터 분석이나 머신러닝 같은 기술이 관심을 모으면서 데이터와 관련된 오픈소스 기술들이 점점 늘어나고 있다.

활용 분야도 실시간 데이터 분석, 데이터 시각화, 데이터 모니터링 등 다양하다. 다음은 최근 몇 년 사이 등장한 오픈소스 중 데이터와 관련된 기술들이다. ■ 추천 알고리즘 ① 셀던. Software Carpentry: 정보 민주화. Nolboo's Blog. SPACE NO WAVE. 최적화 기법의 직관적 이해. 일전에 최적화 기법에 대해 정리하는 글(기계학습 - 함수 최적화 기법 정리)을 썼었는데, 지금에 와서 보니 너무 수식만 가득한 글이었던 것 같습니다.

그래서 수식보다는 좀더 직관적으로 이해할 수 있으면 좋겠다 싶어서 다시 글을 적어 봅니다. 최적화 문제하면 언뜻 수학 문제로만 보이지만 영상처리를 비롯하여 다양한 분야에서 조금만 이론적으로 깊게 들어가도 최적화 문제로 귀결되는 경우가 많습니다. 한번쯤 알아두면 어딘가에는 도움이 되리라 생각합니다 ^^ 1. 최적화 문제 먼저, 최적화(optimization) 문제란 어떤 목적함수(objective function)의 함수값을 최적화(최대화 또는 최소화)시키는 파라미터(변수) 조합을 찾는 문제를 말합니다. 예를 들어 카메라 캘리브레이션에서 카메라의 파라미터(초점거리 등)를 찾는 문제, 서로 다른 시점에서 찍은 두 카메라 영상에서 3D 정보를 복원하는 문제, 비디오 영상에서 비디오를 촬영할 당시의 카메라의 궤적을 복원하는 문제, 사람에 대한 비디오 영상에서 사람의 관절의 움직임을 스켈레톤(skeleton)으로 모델링하는 문제, 고저가 있는 지형에서 목적지까지의 차량의 에너지(연료) 소모를 최소화하는 이동 경로를 찾는 문제 등이 모두 최적화 문제에 해당됩니다. 이 때, 만일 목적함수가 f(x) = 2x + 1 등과 같이 하나의 파라미터(변수)로 되어 있다면 일변수 함수에 대한 최적화 문제가 되며 f(x,y) = xy - x + 5 등과 같이 여러 개의 파라미터(변수)로 되어 있다면 다변수 함수에 대한 최적화 문제가 됩니다.

또한 목적함수가 f(x1,x2,... 그리고 목적함수 외에 파라미터가 만족해야 할 별도의 제약조건이 있는 경우를 constrained optimization 문제, 별도의 제약조건이 없는 경우를 unconstrained optimization 문제라 부릅니다. 2. 최적화 문제를 푸는 가장 기본적인 원리는 비교적 단순합니다. <그림 1> 그림출처: 3. <그림 2> 일차미분을 이용한 최적화 원리 4. 5. 6. 7. 딥러닝 강의 1주차 + VirtualBox에 Ubuntu + Anaconda. HeavyM. Machine-Learning-Tutorials/README.md at master · ujjwalkarn/Machine-Learning-Tutorials. Deep Learning Tutorial. 위 링크의 요약번역.

딥러닝의 키 컨셉과 알고리즘에 대해 살펴본다. 여기선 다 뺐지만, 본문에서는 자바 코드도 소개하고 있다. 내가 잘 모르는 부분일수록 본문 그대로 번역하기 때문에 앞부분이 요약이 많고 뒤로 갈수록 본문 내용을 다 포함한다. Perceptrons: 초기 딥러닝 알고리즘 퍼셉트론이란 두뇌의 인지 능력을 모방하도록 만들어진 인위적인 네트워크를 의미한다 single perceptron은 하나의 linear classifier와 같다. Feedforward Neural Networks for Deep Learning Feedforward NN. Beyond Linearity 그러나 이것만으론 부족한 것이, 결국 linear들의 집합이기 때문에 activation function은 linear하다.

Training Perceptrons 일반적인 딥러닝의 supervised learning 알고리즘은 backpropagation이다. 에러는 다양하게 계산할 수 있으나 MSE(mean square error)가 일반적이고, 이 에러를 최소화하도록 가중치를 조정하는데 이 때 쓰이는 방법이 stochastic gradient descent다. stochastic gradient descent, 즉 SGD는 그냥 번역하자면 확률적인 gradient descent로 매 이동시마다 전체 데이터셋을 다 사용하는 것이 아니라 일부만 뽑아서 사용한다. 이 gradient descent를 수행할 때, error의 미분을 구해야 하는데 이를 구하기 위해서는 output node부터 시작해서 거꾸로 진행해야 한다.

Hidden layer universal approximation theorem에 따르면, 하나의 히든 레이어로 모든 펑션을 표현할 수 있다. The Problem with Large Networks 2개 이상의 히든 레이어를 사용할 때, 더 높은 레이어는 그 전 레이어에 한단계 더 높은 추상화를 더한다고 볼 수 있다.