미카 프로젝트

C++ 상에서 발생하는 name mangling 에 관한 내용 본문

개발 Note/it 이야기

C++ 상에서 발생하는 name mangling 에 관한 내용

karzia 2009.01.04 09:10

C++상에서 발생하는 name mangling에 관한 내용

1. name mangling 이란?
간단히 말하면 compiler 가 임의로 함수나 변수의 이름을 변경하는 것을 의미합니다.
그렇다면 왜 함수나 변수의 이름을 변경하는 것인가?
이를 설명하기 위해서는  C++언어의 성격상 function overloading을 먼저 설명해야 하는데요.

function overloading이란 개발자가 소스코드를 작성할때 같은 이름으로 다른 기능들을 수행하는 함수를 만들수 있도록 하는 기능을 예기합니다..
예를 들면,


int Add( int a,int b){return a+b;}
float Add( float a,float b){return a+b;}
float Add( float a,float b, float c){return a+b+c;}

위와 같이 Add라는 함수를 int형을 더하는 함수, float 형을 더하는 함수, 세개의 변수를 더하는 함수등등 여러개의 함수를 작성하고, 개발자가 이를 임의로 아무거나 불러 쓸 수 있습니다.


이런것이 가능하도록 해주는 기능이 바로 함수 overloading이라는 개념입니다..

그럼 compiler는 소스 코드에서 Add를 호출 했을때 어떻게 각각의 Add를 알아서 찾는가 하는 의문이 생길수 있을것인데,  이를 가능하게 해주는것이 name mangling 입니다.

compiler는 symbol을 생성할때 함수 이름과 함수 parameter를 고려 하여 symbol을 만듭니다..
즉,
int Add( int a,int b)  -> Add + int+ int --> Addii 와 같은 형식으로 만든다는 것입니다..
물론, compiler 마다 다른 mangling 규칙을 가지고 있습니다..

인터넷에 떠도는 문서들을 찾다보니 아주 한눈에 잘 들어오도록 정리된 표가 있어서 샤샥!! 퍼옴...


Compilervoid h(int)void h(int, char)void h(void)
Intel C++ 8.0 for Linux_Z1hi_Z1hic_Z1hv
HP aC++ A.05.55 IA-64_Z1hi_Z1hic_Z1hv
GNU GCC 3.x and 4.x_Z1hi_Z1hic_Z1hv
HP aC++ A.03.45 PA-RISCh__Fih__Fich__Fv
GNU GCC 2.9xh__Fih__Fich__Fv
Microsoft VC++ v6/v7?h@@YAXH@Z?h@@YAXHD@Z?h@@YAXXZ
Digital Mars C++?h@@YAXH@Z?h@@YAXHD@Z?h@@YAXXZ
Borland C++ v3.1@h$qi@h$qizc@h$qv
OpenVMS C++ V6.5 (ARM mode)H__XIH__XICH__XV
OpenVMS C++ V6.5 (ANSI mode)CXX$__7H__FI0ARG51TCXX$__7H__FIC26CDH77CXX$__7H__FV2CB06E8
OpenVMS C++ X7.1 IA-64CXX$_Z1HI2DSQ26ACXX$_Z1HIC2NP3LI4CXX$_Z1HV0BCA19V
SunPro CC__1cBh6Fi_v___1cBh6Fic_v___1cBh6F_v_
Tru64 C++ V6.5 (ARM mode)h__Xih__Xich__Xv
Tru64 C++ V6.5 (ANSI mode)__7h__Fi__7h__Fic__7h__Fv
Watcom C++ 10.6W?h$n(i)vW?h$n(ia)vW?h$n()v


위와 같이 컴파일러 마다 다른 mangling 규칙을 가지고 있답니다..



자 그럼 C에 대한 이야기도 해야 하는데, C의 경우는 mangled 된 함수 이름이 필요 없습니다.
이유는 C에서는 function overloading을 지원하지 않기 때문에 한 binary안에서는 하나의 function(하나의 symbol이라는 표현이 더 정확함.)만 존재 합니다.
하지만 !!!  실제로 compile을 해보면 각 함수 이름을 살짝 바꿔 놓기는 합니다.
void Add(int a,int b) ---> _Add 라는 형식 으로 앞에 '_'를 붙입니다.  C++로 작성된 함수의 symbol 과는 다릅니다.

C언어의 경우에는 함수 앞에 _를 붙이는 것이 표준인듯 합니다. 이부분에 대해서 찾아본 것이 아니라서 장담은 할 수 없지만 모든 컴파일러들이 공통일 것입니다.)


이런 mangled name 을 확인 해보는 방법은 compile 된 object file(xxx.o) 나 실행 화일 또는 .lib 파일을 hex editor로 열어서 확인 해보면 눈으로 볼 수 있답니다.


2. extern "C" ?
C/C++ 호환 및 binary 호환 과 같은 주제들을 다루고 고민하다보면, abi니 eabi 니 name mangling 이니 compiler 호환이니 하는 단어들이 나오게 됩니다.

그중에 이 extern "C" 도 가끔 보이구요.  그래서 extern "C" 에 대해서 좀 더 자세히 다뤄보고 저의 경험을 토대로 예기 해보고자 이 글을 쓰게 되었습니다.

저도 언어를 처음 배울때에는 막연하게 "extern "C"를 붙이면 함수의 이름이 C 처럼 나오기 때문에 C++로 짜여진 함수도 C에서 사용할 수 있다." 라고만 알고 있었습니다.

이런 저런 개발을 하다보니 정확한 용법이나 메카니즘을 이해하지 않고 막연하게 사용하는 코드들이나 개념들은 결국 부메랑이 되어 저에게 돌아오더군요.!!
무슨 말이냐 하면,C++에서 짠 함수가 C에서도 사용할수 있게 하려면  extern "C" 를 붙이라는데 어디다? 어떻게 ? 라는 의문이 생겨날 것입니다.
근데 extern "C"에 대해 잘 모르는 사람이 위와 같은 조언을 들었으면,, 분명 extern "C"를 남발하게 됩니다.!!  이는 결국 나중에 compile error를 양산하기도 하고, 코드를 지저분하게 만들기도 하고, 아무튼 문제를 많이 일으키게 되죠.!!! 그런적 없다구요? 전 당했습니다.!! 


자 그럼 하나 하나 차근 차근 짚어 보겠습니다.


extern "C"  --> 이 형식은 extern "C" 이후에 오는 내용을 name mangling 하지 않고 C처럼 symbol을 만들 어라 라는 명령어입니다.

즉, abc.cpp 라는 소스코드에서 아래 abc라는 함수와 def라는 함수를 예로 들어보면,


[file : abc.cpp]

int abc(int a,int b) //abcii 라는 mangled 된 이름을 symbol로 가지게 됩니다.
{
return 0;
}

extern "C" int def(int a,int b)  // def 라는 symbol을 가지게 되는 것입니다.
{
return 0;
}

def는 ii 같은 것이 추가되지 않고 그냥 def라는 이름을 갖게 됩니다.

그러면, 모든 함수 구현 루틴에 extern "C" 를 붙이는것이 사실 귀찮고 힘든 일입니다.
그래서 , 연륜이 있는 개발자들은(저처럼 ㅋㅋㅋ)  extern "C" {}를 활용하게 되는 것이죠.

[file : abc.cpp]


extern "C"
{//<-- extern 시작
int abc(int a,int b) //abcii 라는 mangled 된 이름을 symbol로 가지게 됩니다.
{
return 0;
}

int def(int a,int b)  // def 라는 symbol을 가지게 되는 것입니다.
{
return 0;
}
}//extern 끝

이렇게 extern "C" {}를 사용하면 {} 안에 있는 모든 내용은 name을 mangling하지 않는 다는 선언이 됩니다.

이렇게 사용하면 모든 함수들을 따라다니면서 extern "C" 를 붙일 필요가 없어지는 것입니다.


또, 다른 형식으로 사용하는 case가 Header file extern "C"를 사용하는 경우가 있습니다.
(대단히 많이 사용하는 형식입니다. 이유는 관리하기가 편해서? )


[file : abc.h]

#ifndef __ABC_H__
#define __ABC_H__

extern "C"
{//<-- extern 시작

#include "sysconfig.h"
#include "hello.h"
#include "test.h"

//function prototype
int abc(int a,int b); //abcii 라는 mangled 된 이름을 symbol로 가지게 됩니다.
int def(int a,int b);  // def 라는 symbol을 가지게 되는 것입니다.


}//extern 끝

#endif //__ABC_H__

자!! 이제 위와 같은 포멧으로 주로 많이들 사용하는데, 위의 내용을 보면 어떤가요? 문제가 있어보이나요 없어보이나요?

얼핏 보기엔 아무런 문제가 없어 보입니다.
하지만!!!!!

한가지 찾아낸 분이 있군요.... 그렇숩니다. ^^a 위의 해더파일은 C 파일에서는 include 해서 사용할 수 없습니다.

이유는 extern "C" 는 C++ compiler에서만 지원하기 때문입니다. 
a.c 에서 #include "abc.h"를  사용하면 error가 발생합니다. 
그래서 
#ifdef __cplusplus 를 이용해서 extern "C" 를 묶어서 사용합니다. 


[file : abc.h]

#ifndef __ABC_H__
#define __ABC_H__

#ifdef __cplusplus 
extern "C" {//<-- extern 시작
#endif
#include "sysconfig.h"
#include "hello.h"
#include "test.h"

//function prototype
int abc(int a,int b); //abcii 라는 mangled 된 이름을 symbol로 가지게 됩니다.
int def(int a,int b);  // def 라는 symbol을 가지게 되는 것입니다.

#ifdef __cplusplus 
}//extern 끝
#endif
#endif //__ABC_H__

이렇게 사용함으로 해서 C compiler에서는 extern "C"를 사용하지 않고 compile됩니다.
C compiler에서는 c니까 당연히 name mangling이 발생하지 않겠죠.!!!! <-- 요거 중요한 예기...


자 그럼 두번째 문제점은 어디에 있을까요??
못찾겠죠... 흔히들 실수 할 수 있는 부분입니다. ( 찾았다구요?? 이 글 왜 읽고 있습니까?? 자리로 돌아가서 일하세요.. ㅎㅎ 다 아시는 분이.. ~~)

두번째 문제는 사실 편하게 쓰고자 extern "C" {} 를 사용하는데 이게 아래와 같이 사용하면 문제를 만듭니다. 무슨 말이냐 하면.. extern "C" {} 중간에 header file을 포함하고 있죠??

그래서 abc.h 가 sysconfig.h를 include 하고 있고, sysconfig.h는 def.h를 include하고 있다면,
extern "C"{ //<-- abc.h
    extern "C" { //<--sysconfig.h
           extern "C"{//<-- sysconfig.h 내에서 include 하고 있는 def.h
 
이런 형식으로 가다가 결국 extern "C"가 너무 많이 중복 사용되었다는 에러메세지를 받고 당황하게 되실 것입니다. ㅎ

결국 VC에서는 아래와 같은 에러를 내면서 컴파일 에러를 냅니다.
fatal error C1045: compiler limit : linkage specifications nested too deeply
visual Studio 에서는 depth 제한이 10으로 되어있습니다.

그래서 당황하여 여기저기 extern "C"를 찾아서 지우고 옮기고 하다보면, 나중에 name mangling 되어 link error를 메세지를 받고 뒷목을 붙잡고 쓰러질 수도 있습니다.
이래서 어설프게 알고 사용하면 절대 안된다는 예깁니다.
저는 그래서 아래와 같이 header file 선언부 아래에 extern "C"를 사용하기를 권합니다.

[file : abc.h]

#ifndef __ABC_H__
#define __ABC_H__


#include "sysconfig.h"
#include "hello.h"
#include "test.h"

#ifdef __cplusplus 
extern "C" {//<-- extern 시작
#endif 
//function prototype
int abc(int a,int b); //abcii 라는 mangled 된 이름을 symbol로 가지게 됩니다.
int def(int a,int b);  // def 라는 symbol을 가지게 되는 것입니다.

#ifdef __cplusplus 
}//extern 끝
#endif
#endif //__ABC_H__

모든 header file들이 위와 같이 include file 아래서 부터 extern "C"를 사용하면, 아래와 같이 중복되지 않게 되어 depth가 늘어나지 않습니다.  <-- 요거 꽤 중요한 팁이니 자기가 맡고 있는 프로젝트가 있다면 한번 살펴보세요!! ㅎ

extern "C"
{//<-- sysconfig.h 내에서 include 하고 있는 def.h
}
extern "C" 
{ //<--sysconfig.h
}
extern "C"
{ //<-- abc.h
           :
           :
}


자!! 이제 가장 중요하고 핵심이 되는 문제가 남았습니다.

이 문제는 위에 있는 해더파일 내용으로만 봐서는 절대로 찾을 수 없는 내용인데요..

뭐냐하면..

위와 같이 header 파일을 잘 만들었다 하더라도 link error를 당할 수 있는 경우가 있다는 것입니다.!!

어떤 경우일까요? 흠흠.


어떤 경우냐 하면 ,  우리가 만든 
abc 와 def 함수의 몸체는 abc.cpp 에 있죠?
function name 이 mangling 될때가 언제라고 했죠?
link 할때? 아니죠~~ compile 할때.. 즉 compiler가 abc.o를 만들때 name이 mangling됩니다.
즉, name mangling을 막을려면 abc.cpp가 compile될때 막아야 합니다.
즉 그말은 abc.cpp가 compile될때 이미 extern "C"가 함수들에 선언 되어 있어야 name mangling을 막을 수 있다는 예기 입니다.

이미 abc.h에 extern "C"로 잘 감싸 놨는데 무슨 예기냐 ~~ 모르겠다... 하시는 분들 계실 겁니다.

abc.cpp가 아래와 같이 extern "C"가 없다고 합시다. 그리고 main.c에서 아래와 같이 abc를 사용했다고 합시다.


[file : abc.cpp]

int abc(int a,int b) //abcii 라는 mangled 된 이름을 symbol로 가지게 됩니다.
{
return 0;
}

int def(int a,int b)  // defii 라는 symbol을 가지게 되는 것입니다.
{
return 0;
}

[file : main.c]

#include "abc.h"

void main()
{
    abc(10,20);
}

아.. 하시는 분 있을거 같은데 ㅎㅎㅎ. 좀 감이 오시나요? 어쨌든 설명을 이어 가겠습니다.

main 에서 abc를 호출하면 main은 c 파일이기 때문에 mangliing 안된 abc 를 symbol로 link 합니다.

하지만 abc.cpp를 compiler가 컴파일 할때는 abcii, defii 로 mangling 된 이름으로 symbol을 만듭니다.
왜? abc.cpp를 보십시오. abc.cpp안에는 어디에도 extern "C"라고 선언된 부분이 없습니다.
그래서 C++ compiler는 함수 이름을 mangling해버립니다.
그래서 main에서 부른 abc는 symbol만있고 body가 없기 때문에 link 시에 에러가 발생합니다.

이제 아셨죠.?? 이런 정확한 메카니즘을 모르면 왜 링크에러나는지 모르고 이것 저것 삽질하다 수정되면 그냥 넘어가 버리게 됩니다.!!! 코드만 지저분해지게 만들구요..

그러면 abc, def가  mangling 안되게 만들려면 어떻게 할까요? 맨 위에 예제 처럼 cpp 파일 처음부터 끝까지 extern "C"로 감싸면 될까요?
제가 적극 추천하는 방법은  abc.h를 abc.c 에서 include 하는 방법을 추천합니다.


[file : abc.cpp]

#include "abc.h"


int abc(int a,int b) //_abc 라는 mangled 된 이름을 symbol로 가지게 됩니다.
{
return 0;
}

int def(int a,int b)  // _def 라는 symbol을 가지게 되는 것입니다.
{
return 0;
}

이렇게 하면 compiler가 abc.cpp 를 컴파일 할때 abc.h에 있는 extern "C"{} 로 되어있는 영역 내부의 내용에 해당하는 abc,def함수들을 모두 mangling안되게 해준답니다. 


3.마치며!!

항상 강조하지만 100% 이해하지 못하는 code나 함수를 내 프로그램에 추가하게 되면 반드시 그 대가를 치르게 됩니다.!!! 이는 불변의 진리입니다.!!!
그러니 여러분들도 "남들이 이렇게 쓰니 나도 이렇게 써야지 " 이렇게 하지 마시고, 자신이 사용하고자 하는 것에 대한 내용을 최대한 깊게 이해하려고 노력하십시오.

그러면 나중에 돌아올 부메랑을 막을 방법도 갖게 될 것입니다.!!