ポインタ④（バイト単位の処理） | Programming Place Plus　Ｃ言語編　第３４章

voidポインタ

ここまでに登場したポインタは、指し示す先の型に応じて、int* だとか char* といった型名で表現されていました。たとえば「int*」というポインタは、指し示す先に int型の値があることを期待しているという訳です。

一方で、指し示す先にある値が、どんな型でも構わないという特殊なポインタもあります。これは、void* と表記し、voidポインタ (void pointer) と呼ばれます。

int i = 0;
char c = 'a';

void* p1 = &i;  // int型を指し示せる
void* p2 = &c;  // char型を指し示せる

voidポインタなどというものがあるのなら、いつもそれを使えばいいのではないかと思われるかもしれません。しかし、voidポインタは、指し示す先の型の情報が欠如しているため、間接参照ができません。そのため、何でも指し示せるものの、その先にある値を操作できないのです。役に立つのやら立たないのやらという印象ですが、もちろん適切な使い方があります。

まず、voidポインタは、汎用でないポインタへ暗黙的に型変換できます。そのため、指し示す先の本当の型に合わせて、型変換を行えば、以降は普通に間接参照できます。

【C++ プログラマー】C++ では、voidポインタから通常のポインタ型への暗黙の型変換は行われず、明示的にキャストを行う必要があります（C++編【言語解説】第２章）。

#include <stdio.h>

int main(void)
{
    int i = 0;
    char c = 'a';

    void* p1 = &i;
    void* p2 = &c;

    int* pi = p1;
    char* pc = p2;

    *pi = 100;
    *pc = 'x';
    printf("%d %c\n", *pi, *pc);
}

実行結果：

100 x

このサンプルプログラムは使い方を示しているだけで、何も便利さはありません。voidポインタの代表的な使い道について、この先の項と、次の章とで取り上げます。

メモリ範囲を特定の値で埋める (memset関数)

memset関数を使うと、メモリ上のある範囲内のバイト列を、特定の値で埋められます。memset関数は、<string.h> に以下のように宣言されています。

void* memset(void* s, int c, size_t size);

s が指し示しているメモリ範囲を先頭として、そこから sizeバイト分の範囲の各バイトに、c の値を埋めます。戻り値は、s と同じものが返されます。

バイト単位で値を埋めるのに対して、引数 c が int型であることに注意してください。実際に行われていることは、c の値を unsigned char型にキャストした値を、各バイトに入れていくことです。

s の型が void* であることに注目してください。memset関数は、voidポインタの典型的な使い方の例になっています。つまり、メモリ範囲に置かれる値の型がどうであろうと、memset関数を使えます。たとえば、次のサンプルプログラムを見てください。

#include <stdio.h>
#include <string.h>

int main(void)
{
    struct Point {
        int x, y;
    };

    int a[5];
    struct Point pos;
    int v;

    memset(a, 0, sizeof(a));
    memset(&pos, 0, sizeof(pos));
    memset(&v, 0xff, sizeof(v));

    for (int i = 0; i < 5; ++i) {
        printf("%d ", a[i]);
    }
    printf("\n");

    printf("%d %d\n", pos.x, pos.y);
    printf("%d\n", v);
}

実行結果：

0 0 0 0 0
0 0
-1

int型の配列、構造体変数、int型の変数のそれぞれに memset関数を適用しています。このように、対象物が何であっても使用できるのが、void* の効力です。その代わり、対象物の型に関する情報がないため、どれだけの範囲を埋めればよいのかわからないので、第３引数に大きさを指定してやる必要があるのです。

memset関数は、指定されたメモリの範囲に値を埋めているだけですから、そこに変数があるかどうかは問題ではありません。たとえば、対象が構造体の場合に、パディングがあれば、その部分も埋められます。

また、ポインタ型や、浮動小数点型の変数をクリアする目的で memset関数を使う場合、バイトを 0 で埋めることが、必ずしもヌルポインタや 0.0 でクリアすることと同じではない点に注意してください。

ソースコード上では、0 というヌルポインタ定数によってヌルポインタを表現しますし、0.0 は当然 0.0 を意味していますが、メモリ上のビットの並びとして 0 が並んでいるかどうかとは別の話です。メモリ上での表現は、実行環境ごとの表現形式によって決まることです。memset関数は、実際の表現形式とは無関係に、メモリ上のバイトを埋めるだけです。

memset関数を使って、0 によるクリアを行う場面はよくありますが、そもそも、変数を定義した時点でクリアできるのなら、次の方法を使ったほうがいいです。

int a[5] = {0};
struct Point pos = {0};

効率面でも、安全面においても、この方法が一番優秀です。配列に明示的に与えた要素数よりも、初期値の個数のほうが少ない場合、残りの要素は自動的にデフォルト値で初期化されます（第２５章）。構造体でも同様です（第２６章）。そのため、このサンプルプログラムのように、先頭の要素に与える初期値だけを記述しておけば、配列全体、構造体全体がデフォルト値でクリアされた状態にできます。

なお、すでに作られている構造体変数をクリアしたいときには、複合リテラル（第２６章）を使うという手段もあります。

pos = (struct Point){0};

構造体はそのまま代入可能ですから、メンバすべてが初期化された構造体を複合リテラルで作って代入することによりクリア処理を実現しています。

ところで、次のサンプルプログラムは、恐らく意図した結果になりません。

#include <stdio.h>
#include <string.h>

int main(void)
{
    int a[5];

    // a の各要素に 100 を入れる？
    memset(a, 100, sizeof(a));

    for (int i = 0; i < 5; ++i) {
        printf("%d ", a[i]);
    }
    printf("\n");
}

実行結果：

1684300900 1684300900 1684300900 1684300900 1684300900

int型の配列の各要素に 100 を入れるつもりで memset関数を使っています。しかし、実行結果はまるで違う値を出力しています。

memset関数は、1バイト単位で値を埋めることを思い出してください。つまり、a[0]、a[1]、a[2]、a[3]、a[4] のそれぞれに 100 を入れているのではなく、a が使っている範囲の各バイトに 100 を入れています。(sizeof(int) * 5) が 20バイトだとすれば、100 を 20個入れます。

printf関数のところで、“%x” を使って出力するように変えてみると、状況が見えやすいかもしれません。

    for (int i = 0; i < 5; ++i) {
        printf("%x ", a[i]);
    }
    printf("\n");

実行結果：

64646464 64646464 64646464 64646464 64646464

16進数の「64」は、10進数の「100」ですから、確かに 100 が 20個並んでいるようです。

あるいは、後の項で取り上げる方法を使って、バイト単位で値を確認してみても良いでしょう。

メモリ範囲をコピーする (memcpy関数、memmove関数）

メモリ上のある範囲の内容を、別の範囲へコピーするために、memcpy関数、あるいは memmove関数を使用できます。memmove関数も、名前は「move」ですが、コピーします。

memcpy関数と memmove関数は、<string.h> で以下のように宣言されています。

void* memcpy(void* restrict s1, const void* restrict s2, size_t size);
void* memmove(void* s1, const void* s2, size_t size);

どちらの関数も、s2 で指定したメモリアドレスを起点にして、size で指定したバイト数の分だけ、メモリの内容をコピーします。コピー先の先頭のメモリアドレスを s1 で指定します。戻り値は、s1 がそのまま返されます。

memcpy関数と memmove関数の違いは、コピー元とコピー先とで、領域の一部が重なり合っていたときに現れます。memcpy関数では、そのような状況を未定義の動作としていますが、memmove関数は安全にコピーできます。その代わりに、memmove関数の方が実行効率が劣るかもしれません。

仮引数の restrict が、この仕様の違いを端的に表しています。restrict については、第５７章で取り上げます。

これらの関数は、コピー元とコピー先を指定するために voidポインタを使用しています。文字列をコピーする strcpy関数というものがありましたが、これの汎用版であると考えられます。文字列専用の strcpy関数は、終端文字(‘\0’) を見つけてコピーを打ち切りますが、memcpy関数、memmove関数は終端文字を特別扱いしません。

これらの関数の使い道としては、配列内の複数の要素をまとめてコピーすることが挙げられます。配列から配列へは代入できませんから、memcpy関数や memmove関数が役立ちます。

この用途では、別の配列へコピーすることが確定的ならば、効率的だと思われる memcpy関数を選択すればいいのですが、そうでないのなら安全な memmove関数を選択するのが無難です。

たとえば、a[0]～a[4] を a[3]～a[7] へコピーするだとか、a[0]～a[9] を a[0]～a[9] へ、つまり自分自身へコピーするといったことがあると、memcpy関数は未定義の結果を生んでしまいます。

#include <stdio.h>
#include <string.h>

void print_array(const int* array, size_t size)
{
    for (size_t i = 0; i < size; ++i) {
        printf("%d ", array[i]);
    }
    printf("\n");
}

int main(void)
{
    int a[] = {0, 1, 2, 3, 4, 5};

    memcpy(a, &a[3], sizeof(int) * 3);  // a[3]～a[5] を a[0]～a[2] へコピー
    print_array(a, sizeof(a) / sizeof(a[0]));

    memmove(a, &a[2], sizeof(int) * 4); // a[2]～a[5] を a[0]～a[3] へコピー
    print_array(a, sizeof(a) / sizeof(a[0]));
}

実行結果：

3 4 5 3 4 5
5 3 4 5 4 5

メモリ範囲を比較する (memcmp関数）

memcmp関数は、あるメモリ上の範囲２つの内容を比較できます。memcmp関数は、<string.h> で以下のように宣言されています。

int memcmp(const void* s1, const void* s2, size_t size);

s1 と s2 には、比較したいメモリ範囲の先頭のメモリアドレスを指定します。size は比較する大きさです。

memcmp関数がすることは、文字列に特化した strcmp関数と同じです。違いは、終端文字(‘\0’) を特別扱いせず、比較する範囲を引数 size で指定することだけです。

戻り値についても strcmp関数と同じで、一致か不一致かだけではなく、どちらが大きいかを判断できるように返されますが、memcmp関数では一致か不一致かだけを知りたいことが多いと思われます。

以下は使用例です。

#include <stdio.h>
#include <string.h>

int main(void)
{
    int a1[] = {0, 1, 2, 3, 4};
    int a2[] = {0, 1, 2, 4, 8};

    printf("%d\n", memcmp(a1, a2, sizeof(a1)));

    memcpy(a1, a2, sizeof(a1));
    printf("%d\n", memcmp(a1, a2, sizeof(a1)));
}

実行結果：

-1
0

memcmp関数の使い方で注意が必要なのは、構造体の比較を行うときです。構造体のメンバ間や末尾には、パディングが入ることがありますから、memcmp関数を使って構造体の大きさ分の比較を行うと、パディングの部分も比較対象に含まれます。

memset関数でクリアするなどして、確実に値が入っている状態にしていない限り、パディング部分の状態は不定ですから、正しい比較が行えない可能性があります。

構造体同士の比較が必要なら、メンバ同士を１つ１つ等価演算子（文字列なら strcmp関数）で比較する方法が確実です。比較することがよくあるのなら、比較するための関数を作っておくと良いでしょう。

int equal_data(const struct Data_tag* data1, const struct Data_tag* data2)
{
    return data1->a == data2->a
        && data1->b == data2->b
        && strcmp(data1->s, data2->s) == 0
        ;
}

メモリ範囲を探索する (memchr関数）

memchr関数は、メモリ範囲内から、特定のバイト値を探します。memchr関数は、<string.h> で以下のように宣言されています。

void* memchr(const void* s, int c, size_t n);

s にメモリ範囲の先頭のメモリアドレスを、n に範囲の大きさを指定します。探したい値を c に指定します。

仮引数 c の型は int型ですが、実際には unsigned char型にキャストされたうえで比較を行います。この関数はあくまでも「バイト」を探すことを意図したものなので、10000 のような大きな値を探すことはできません。

メモリ範囲内を先頭から順に探していき、c を unsigned char型にキャストした値と一致するバイトが見つかったら、その位置を指すポインタが返されます。見つからなかった場合は、ヌルポインタを返します。

#include <stdio.h>
#include <string.h>

int main(void)
{
    char s[] = "ab\0cdecde";

    const char* p = memchr(s, 'c', sizeof(s));
    if (p == NULL) {
        puts("not found.");
    }
    else {
        puts(p);
    }
}

実行結果：

cdecde

s の途中には ‘\0’ がありますが、これを無視して探索が行えています。また、探したいものは ‘c’ であり、これは２つ含まれていますが、必ず先頭に近い方のものが見つかります。

memchr関数で注意すべき点は、仮引数 s が constポインタであるのに対し、戻り値は const でないポインタであることです。つまり、s に指定したものが文字列リテラルのような書き換えられないものであっても、戻り値は、それを指し示す const でないポインタを返してきます。うっかりすると、文字列リテラルを書き換えようとするプログラムを書いてしまう恐れがあります。これは、未定義の動作なので要注意です（第３２章）。

char* p = memchr("abcde", 'c', 5);
if (p != NULL) {
    *p = 'x';  // 未定義の動作
}

戻り値を使って書き換えを行うつもりでないのなら、つねに constポインタで受け取るように癖を付けた方が良いと思います。むしろ、いかなる場面であっても、const を付けることを優先して考えるぐらいでいるのが良いでしょう。

const char* p = memchr("abcde", 'c', 5);
if (p != NULL) {
    *p = 'x';  // コンパイルエラー
}

バイト列としての操作

ところで、ここまでに登場した mem*** という名前の関数は、どのように実装できるでしょう。memchr関数を例にとって考えてみます。

mem*** 系の関数の実装を考える上で問題なのは、メモリの範囲を voidポインタ（と大きさ）で表現していることです。この章の冒頭で確認したとおり、voidポインタは間接参照できませんから、何らかの具体的なポインタ型に型変換しなければならないはずです。

また、memchr関数が実現する処理の内容を考えてみると、「メモリの範囲の先頭から順番に１バイトずつ調べる」という処理が必要なはずです。どうすれば、１バイトずつ調べることができるでしょうか。

このような、メモリの範囲を 1バイト単位で扱うという場面では、必ず 1バイトの大きさを持つ char型（および、signed char型、unsigned char型）のポインタを利用します。

memchr関数の場合は、仕様上、バイトの値を unsigned char型とみなすことになっているので、それに合わせて実装してみます。

#include <stdio.h>

void* my_memchr(const void* s, int c, size_t n)
{
    const unsigned char* p = s;  // voidポインタを unsigned char のポインタに。
                                 // const は無暗に外さない。

    for (size_t i = 0; i < n; ++i, ++p) {

        // 比較は unsigned char型として行う (memchr関数の仕様)
        if (*p == (unsigned char)c) {

            // 見つかったバイト位置を const なしの voidポインタとして返す
            return (void*)p;
        }
    }

    return NULL;
}

int main(void)
{
    char s[] = "ab\0cdecde";

    const char* p = my_memchr(s, 'c', sizeof(s));
    if (p == NULL) {
        puts("not found.");
    }
    else {
        puts(p);
    }
}

実行結果：

cdecde

このように、char型（あるいは、signed char、unsigned char）のポインタを使うことで、間接参照もできますし、ポインタの加減算で 1バイトずつ指し示す位置の移動もできます。

このサンプルプログラムでは、対象となっているメモリ範囲は char型の配列が置かれている場所なので、バイト単位での操作を行うために、char型のポインタを使うことに違和感はないと思います。もし対象が構造体であったり、int などの他の型の配列であったりしても、まったく同じ方法が使えることは理解しておくと良いでしょう。

たとえば、memcmp関数で、int型の配列同士を比較できていました。1バイト単位に分解して操作を行うのであれば、元がどんな型でも関係ありません。

ただし、書き換えを行うのであれば注意が必要です。たとえば、4バイトで１つの値を表現している int型の値があるとき、その一部のバイトだけを書き換えたらどういう結果になるのでしょうか。きちんと理解していない限りは避けておいた方が良いでしょう。

練習問題

問題①　次のプログラムの実行結果はどうなるでしょうか？

#include <stdio.h>
#include <string.h>

int main(void)
{
    int a[5];

    memset(a, 0xff, sizeof(a));

    for (int i = 0; i < 5; ++i) {
        printf("%u ", a[i]);
    }
    printf("\n");
}

問題②　memcmp関数を自作してください。

問題③　memcpy関数を自作してください。

解答ページはこちら。

参考リンク

『Ｃ言語ポインタ完全制覇』
- ポインタの基礎から応用まで、徹底的に解説
Programming Place Plus　Ｃ言語編　参考書籍
- 当サイトの参考書籍一覧ページ。Ｃ言語に関する書籍を多数紹介
Programming Place Plus　Ｃ言語編　リンク集
- 当サイトの参考Webサイト集。Ｃ言語の全般的な学習に有益なサイトを紹介

更新履歴

’2023/3/5
- コーディング規約を統一（要素を書き並べるとき { の直後と、} の直前に空白を入れない）
’2023/2/15
- コーディング規約を統一（変数や関数の名前をスネークケースにする）
’2023/2/12
- 初出の重要用語に英語表記を併記
’2023/2/5
- コーディング規約を統一（for、if などの () の前後の空白の空け方）
’2023/2/4
- コーディング規約を統一（実引数がある関数呼び出しの ( の直後、) の直前に空白を入れない）

≪さらに古い更新履歴を展開する≫

’2021/12/11
- main関数から return 0; を削除（Ｃ言語編全体でのコードの統一）
’2021/2/25
- サイト全体で、「暗黙的な型変換」を「暗黙の型変換」に統一
’2019/8/1
- 解説のベースを C99 に上げる対応
  - 標準ライブラリ関数の宣言に restrict を付加
’2019/7/25
- 「メモリ範囲を特定の値で埋める (memset関数)」の項に、ゼロクリアする方法として、変数定義時の初期化と、複合リテラルによる方法を追加
’2019/7/23
- 解説のベースを C99 に上げる対応
  - ローカル変数の宣言を、ブロックの先頭以外の位置でも行う
’2019/7/18
- 解説のベースを C99 に上げる対応
  - コメントを // 形式で統一
’2019/7/15
- 解説のベースを C99 に上げる対応
  - ループ制御変数を for文の初期設定式で宣言するように修正

’2018/6/1　第３８章から練習問題⑬を移動してきて、練習問題③とした。

’2018/5/29　この章にあったものを第３５章へ移動して統合。事実上、この章の内容はほぼ新規のものになった。
章のタイトルを変更（「ポインタ④（動的なメモリ割り当て）」->「ポインタ④（バイト単位の処理）」）

’2018/5/14　章のタイトルを変更（「ポインタ④　動的なメモリ割り当て①」->「ポインタ④　動的なメモリ割り当て」）

’2018/4/20　「NULL」よりも「ヌルポインタ」が適切な箇所について、「ヌルポインタ」に修正。

’2018/3/10　全面的に文章を見直し、修正を行った。
章のタイトルを変更（「動的なメモリ」->「動的なメモリ割り当て」）
「memset関数」の項を追加。

’2018/2/28　「C99 (可変長配列)」の項を、第２５章へ移動。

’2018/2/22　「サイズ」という表記について表現を統一。型のサイズ（バイト数）を表しているところは「大きさ」、要素数を表しているところは「要素数」。

’2018/2/21　文章中の表記を統一（bit、Byte -> ビット、バイト）

’2018/1/5　コンパイラの対応状況について、対応している場合は明記しない方針にした。

’2017/7/30　clang 3.7 (Xcode 7.3) を、Xcode 8.3.3 に置き換え。

’2017/3/25　VisualC++ 2017 に対応。

’2016/10/15　clang の対応バージョンを 3.7 に更新。

’2015/10/12　clang の対応バージョンを 3.4 に更新。

’2015/9/5　VisualC++ 2012 の対応終了。

’2015/8/18　VisualC++ 2010 の対応終了。

’2015/8/15　VisualC++ 2015 に対応。

’2014/10/18　clang 3.2 に対応。

’2014/2/1　VisualC++ 2013 に対応。

’2014/1/14　VisualC++ 2008 の対応終了。

’2014/1/12　clang 3.0 に対応。

’2013/4/21　「C99 (可変長配列)」の項を追加。

’2011/9/3　calloc関数の実引数の順番が逆になっていたのを修正。

’2009/12/11　新規作成。

前の章へ　（第３３章　ポインタ③（引数や戻り値への利用））

次の章へ　（第３５章　ポインタ⑤（動的メモリ割り当て））

Ｃ言語編のトップページへ

Programming Place Plus のトップページへ

はてなブックマークに保存	Pocket に保存	Facebook でシェア
X でポスト／フォロー	LINE で送る	noteで書く
RSS	管理者情報	プライバシーポリシー

このページの概要

voidポインタ

メモリ範囲を特定の値で埋める (memset関数)

メモリ範囲をコピーする (memcpy関数、memmove関数）

メモリ範囲を比較する (memcmp関数）

メモリ範囲を探索する (memchr関数）

バイト列としての操作

練習問題

参考リンク

更新履歴