我对C++中THUNK一种实现技术的分析

    技术2022-05-11  137

    我对C++THUNK一种实现技术的分析

    KEY WORDSC++ THUNK 内存模式

     

    在互联网上看到这样一段代码,有些网友不知其然,我简单的把它分析一下。

     

    #pragma pack(push,1)

    // structure to store the machine code

    struct Thunk

    {

        char    m_jmp;          // op code of jmp instruction

        unsigned long   m_relproc;      // relative jmp

    };

    #pragma pack(pop)

     

    //This type of structure can contain then thunk code, which can be executed on the fly. Let's take a look at the simple case in which we are going to execute our required function by thunk.

     

    //Program 77

    #include <iostream>

    #include <windows.h>

    using namespace std;

    class C;

    C* g_pC = NULL;

    typedef void(*pFUN)();

     

    class C

    {

    public:

        Thunk    m_thunk;

           //virtual void g(){};

        void Init(pFUN pFun, void* pThis)

        {

            // op code of jump instruction

            m_thunk.m_jmp = 0xe9;

            // address of the appripriate function

    m_thunk.m_relproc = (int)pFun - ((int)this+sizeof(Thunk));

            FlushInstructionCache(GetCurrentProcess(),

                                    &m_thunk, sizeof(m_thunk));

        }

        // this is cour call back function

        static void CallBackFun()

        {

            C* pC = g_pC;

            // initilize the thunk

            pC->Init(StaticFun, pC);

            // get the address of thunk code

            pFUN pFun = (pFUN)&(pC->m_thunk);

            // start executing thunk code which will call StaticFun

            pFun();

            cout << "C::CallBackFun" << endl;

        }

        static void StaticFun()

        {

            cout << "C::StaticFun" << endl;

        }

    };

    int main()

    {

        C objC;

        g_pC = &objC;

        C::CallBackFun();

        return 0;

    }

     

    C++在实现多重继承中,要求有一种机制来实现对this指针的动态修改,比较好的一种实现技术就是采用THUNK技术,通常它是由一小段ASM所完成的实现地址转变和函数调用的程式。上面这段代码采用C++语言实现THUNK技术。

     

    大家都知道,在程序调到内存中后:

    由低到高把内存分为:

    ------0

    系统占用区

    代码区

    全程数据区

    堆区

    栈区

    DLL[DLL自己的堆栈等]

    ....

    没有占用区

    -----4GB

     

    当程序运行时,函数

    static void StaticFun()

        {

            cout << "C::StaticFun" << endl;

        }

    在内存的中adress已经确定了,我们假设它为 addr_fun_staticfun

    main函数执行到

    C objC;

     

    时,就为objC在数据区->栈内分配一个地址为 addr_data_objC ,长度为sizeof(C)的内存块

    至少这段块内存在main函数运行其间是固定不变的。因此我们可知全程指针 g_pC ,以及static void CallBackFun()中的C* pC的值都是addr_data_objC[记得它是栈内],现在我们看pC->Init(StaticFun, pC);函数内部:

    void Init(pFUN pFun, void* pThis)

        {

           m_thunk.m_jmp = 0xe9;          //先不管

           m_thunk.m_relproc = (int)pFun - ((int)this+sizeof(Thunk));

           FlushInstructionCache(GetCurrentProcess(),

                                    &m_thunk, sizeof(m_thunk));

        }

     

    C类声明可知,C类对象objC内存布局中只有 Thunk    m_thunk;一个数据成员 。连vptr也没有。

    所以我们得出结果 &objC.m_thunk = addr_data_objC  = (int)this

     

      m_thunk.m_relproc = (int)pFun - ((int)this+sizeof(Thunk));一句

    .m_relproc的值应为addr_fun_staticfun – (addr_data_objC + sizeof(Thunk)) [win32 sizeof(Thunk) = 5]

     

    FlushInstructionCache(GetCurrentProcess(), &m_thunk, sizeof(m_thunk));

    一句的作用,是填指令缓冲区 ,将内存地址为 &objC.m_thunk 处起大小为 sizeof(m_thunk)填充到指令缓冲[我觉得这句函数指令是起到优化的作用,没有什么必要性]

     

    这样,可以理解为在函数Init内部把在内存地址起始为&objC.m_thunk = addr_data_objC [在数据栈内] sizeof(thunk)一段数据设置为

    m_thunk.m_jmp = 0xe9;         

    m_thunk.m_relproc = (int)pFun - ((int)this+sizeof(Thunk));

    而这部分数据的二进制数据从代码角度讲是起跳转到addr_fun_staticfun的作用。

     

    如果在C类中位于m_thunk之前声明一个成员或增加类虚拟成员函数,那会让(int)this <> &m_thunk,所以代码不能正常工作[这是建立在类对象内存布局按用一范围(Private,Public,pro..)成员变量声明ORDER分配的基础上],如果想要代码正常工作,就要在

    m_thunk.m_relproc = (int)pFun - ((int)this+sizeof(Thunk));

    处作出相当的修改:

    m_thunk.m_relproc = (int)pFun - ((int)this+sizeof(Thunk)+SIZEOF(增加的变量));

     

    请大家指正。


    最新回复(0)