文字 | Programming Place Plus　新C++編

文字 🔗

文字列の中に含まれている１つの文字に目を向けてみましょう。以前「文字列の入力」のページで、文字列内の１つの文字にアクセス^📘する方法を取り上げています。姓と名を入力してもらい、イニシャルを出力するというプログラムでした。

#include <iostream>
#include <string>

int main()
{
    std::cout << "Please enter the your fullname.\n";
    std::string family_name {};
    std::string first_name {};
    std::cin >> family_name >> first_name;

    std::cout << "Hello, " << family_name[0] << "." << first_name[0] << ".\n";
}

実行結果：

Please enter the your fullname.
Saitou Ken   <-- 入力した文字列
Hello, S.K.

文字列内の文字にアクセスするには、次のようにしました。

文字列[先頭から数えて何文字目かをあらわす整数]

「何文字目か」に関して、文字列の先頭が 0 であることに注意が必要です。また、文字列の実際の文字数を超えてしまわないように注意が必要でした（「文字列の入力」のページを参照）。

このときはまだ代入^📘を説明していなかったので、直通で std::cout に渡していました。そこでまずは、文字列内の文字を変数に取り出す方法を見ていくことにします。

char型 🔗

文字を変数であつかうときには、変数の型を、文字を扱うための型（文字型 (character types)）にします。文字型にも種類がありますが、もっとも基本的なものは char型 (char type) です。

詳しい型の分類については、APPENDIX を参照してください。

char型の変数を宣言する構文は次のとおりです。

char 変数名 {初期値};
char 変数名 {};
char 変数名 = 初期値;

char型は、１文字をあつかうための型です。std::string型とちがって、２文字以上をあつかうことはできませんし、０文字というわけにもいきません。

初期値を明示せず、{} とした場合のデフォルト値^📘は \0 という文字です。この文字の意味は後で取り上げます。

char型は std::string型とちがって、#include <string> の記述は不要です。

char型の変数に文字を代入する構文は次のようになります。「代入」のページで説明した構文と同じです。

char型の変数 = 文字

実際のプログラムで確認してみます。

#include <iostream>
#include <string>

int main()
{
    std::string s {"abcde"};

    // std::string に含まれる文字を使って初期化
    char c {s[0]};
    std::cout << c << "\n";

    // ほかの char型の変数を使って初期化
    char c2 {c};
    std::cout << c2 << "\n";

    // std::string に含まれる文字を代入
    c = s[1];
    std::cout << c << "\n";

    // ほかの char型の変数から代入
    c = c2;    
    std::cout << c << "\n";
}

実行結果：

a
a
b
a

文字列内の文字にアクセスする s[0] という構文さえ理解していれば、特に難しくはないはずです。char型の値を出力するときには、これまでどおり、std::cout に渡してやればいいです。

なお、文字列はたとえ中身が１文字だったとしても、char型の変数に与えることはできません。これは、文字と文字列では型が異なるためです。たとえば、c = "a"; のような代入はできません。

あまり見かけない書き方ですが、文字列の 0番目の文字を代入するという意味の c = "a"[0]; ならできます。

文字の入力を受け取る 🔗

なお、std::cin で文字の入力を受け取る場合も、これまでどおり std::cin >> c; という感じのコードが使えます。しかし、１文字だけの入力を受け取りたい場合でも、std::string型の変数で受け取るのが無難です。^[1]

#include <iostream>
#include <string>

int main()
{
    // これでもできるが・・・
    char c {};
    std::cin >> c;
    std::cout << c << "\n";

    // １文字だけ受け取るつもりでも、std::string を使う
    std::string s {};
    std::cin >> s;
    std::cout << s[0] << "\n";
}

実行結果：

x  <-- 入力した文字
x
x  <-- 入力した文字
x

char型の変数で受け取るときに、xyz のような２文字以上の入力が行われると、yz が取り残され、次回の std::cin の処理に影響を与えてしまいます。std::string型の変数で受け取っておけば xyz がすべて変数に代入されますから、本当に用がある最初の文字 s[0] だけを使い、s[1] や s[2] の部分を無視しておけば済みます。

std::string に文字を代入する 🔗

ここまでは、文字列から文字を取り出す方向でした。その反対に、文字を文字列（std::string）に渡すことも可能です。

#include <iostream>
#include <string>

int main()
{
    std::string s {"abcde"};
    char c {s[0]};

    // 文字を使って std::string を初期化
    std::string s2 {c};
    std::cout << s2 << "\n";

    // 文字を std::string に代入
    s[1] = c;
    std::cout << s << "\n";

    // 文字を std::string に代入
    s[2] = s[1];
    std::cout << s << "\n";
}

実行結果：

a
aacde
aaade

ここで行っている代入は、文字列の変数の一部分だけを書き換えているということです。

「代入」のページで代入を学んだとき、左辺側には変数名を置くように説明しました。今回のサンプルプログラムでは、s[1] = c というように、変数名（s）だけでなく、何番目であるかをあらわす記述（[1]）も加わっています。このように、代入式の左辺に置けるものは、正確にいえば変数名だけではありません。

【上級】char型の変数c があるとして、std::string s {c}; のように、std::string型の変数の初期化に文字を使うことはできますが、これは std::initializer_list を引数にとるコンストラクタ^📘によるものであり、{} を使ったリスト初期化でなければなりません。std::string s (c); とか std::string s = c; はエラーです。

文字リテラル 🔗

まず文字列があって、その中に含まれている文字を扱うことはできるようになりました。しかし、文字列は登場せず、最初から１つの文字だけで登場するケースもありえます。文字だけを使うためには、文字のリテラルを記述する方法を知っておく必要があります。

文字のリテラル（文字リテラル (character literal)）は、'a' のように、１つの文字を ''（シングルクォーテーション）で囲って記述します。

文字リテラルは当然ながら char型です。

char c = 'a';

【Ｃ言語プログラマー】Ｃ言語では文字リテラルの型は int型です。sizeof('a') の結果がＣ言語とは異なることに注意してください。

【上級】文字リテラルには、接頭辞^📘を伴って L'x'、u'x'、U'x' と書くものもあるため、'x' を、通常の文字リテラル (ordinary character literal) といって区別する場合があります。

【上級】実は 'ab' のように、文字リテラルに２文字以上の文字を含めることは可能で、マルチ文字リテラル (multicharactar literal) と呼ばれます。しかしこの場合、int型として扱われるうえ、その値は実装に依存します。避けたほうがいいでしょう。^[2]

#include <iostream>

int main()
{
    char c {'a'};
    std::cout << c << "\n";

    c = 'A';
    std::cout << c << "\n";
}

実行結果：

a
A

文字コード 🔗

コンピュータは、文字のデータを整数にしてあつかっています。これは、文字コード (character code) と呼ばれる仕組みです。

文字コードは、文字の種類ごとに異なる整数を割り当てたものです。たとえば、「a」が 10、「b」が 11、「c」が 12、「d」が 13 ・・・といったように割り当てておけば、文字のデータを整数で表現できます。このルールでは、「11、10、13」という整数の並びは「bad」を意味しています。

文字コードにはさまざまな種類があって、国際規格などで明確にルールが決められています（さきほど挙げた対応関係は架空のものです）。文字と整数の対応関係は文字コードの種類によって異なっています。また、定義されている文字の種類（つまり、どんな文字が使えるのか）にも違いがあります。プログラミングでよく登場する ASCII（American Standard Code for Information Interchange。読み方はアスキー。ASCIIコードとも）では、アルファベットや数字は含まれていますが、ひらがなやカタカナ、漢字といった日本語で使う文字がまったく含まれていません。

C++ のソースファイルで使う文字コードの種類は定められておらず、環境（コンパイラ）によって異なります。そのため、ソースファイル上で使える文字の種類も環境によって異なります。それでは困りそうですが、以下に挙げる 96種類の文字は基本ソース文字セット (basic source character set) と呼ばれ、必ず使用できます。^[5]

a b c d e f g h i j k l m n o p q r s t u v w x y z
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9
_ { } [ ] # ( ) < > % : ; . ? * + - / ^ & | ~ ! = , \ " '

スペース
水平タブ
垂直タブ
フォームフィード
改行

基本ソース文字セットは、ASCII に含まれている文字だけで構成されていますが、ASCII そのものではありません。たとえば、ASCII にはある @ が、基本ソース文字セットにはありません。

このように、基本ソース文字セットには日本語の文字が含まれていません。だからといって C++ では日本語が使えないということではなく、コンパイラが使用を許していれば使えます。日本向けに作られているコンパイラならばまず間違いなく使えるでしょうし、そうでないなら使えない可能性も高いということになります。

ただし、日本語の文字をソースファイル上で使えるからといって、日本語を使ったプログラムが簡単に作れるということでもありません。たとえば、ソースコードには書ける文字が、出力結果には正しく表示されない現象に悩まされることがあります。日本語を正しくあつかうプログラムを作るにはそれなりの難しさがあるので、当面は日本語を扱わないことにします。

コメントとして日本語を使うことは、結局、ソースファイルに日本語の文字を書いていることになりますから、やはりコンパイラが許すかどうかによります。しかし、コメントとして使うだけであれば、あまりトラブルになることはないので、今後もコメントには日本語の文字も使うことにします（滅多に見かけないような漢字や記号を使うと、コンパイルエラーが出るなどの問題が起こるかもしれません）。

文字の正体は整数なので、文字を int型の変数に渡すことは、プログラマーが本当に意図したことかどうかは別にして、問題のない行為です。

#include <iostream>

int main()
{
    int value = 'a';   // OK. だが変数の型が int なのは意図したこと？
    std::cout << value << "\n";

    value = 'x';       // OK. だが代入先の変数の型は int だが意図したこと？
    std::cout << value << "\n";
}

実行結果：

97
120

文字で初期化したり代入したりしていますが、相手方の変数は int型になっています。int型なので、出力すると文字ではなく整数が出力されます。これが意図したことならば問題ありませんが、多くの場合はそうではないでしょう。

ここでは 97、120 という整数が出力されましたが、文字と整数の対応関係は、使われている文字コード次第です（とはいえ、ASCII で表現できる範囲の文字ならば、まず間違いなく同じ結果が得られるはずです）。

「代入」のページで書いたとおり、型が異なっていても代入が許されるケースもありますが、動作を理解していない限りは原則として避けたほうが無難です。代入（や初期化）は型を気にしながらおこなうようにしてください。

また、「代入」のページで、std::string型の変数に整数を代入するコードがコンパイルエラーにならないことを確認しましたが、それも同じ理由です。

#include <iostream>
#include <string>

int main()
{
    std::string message {};

    // std::string型の変数に整数が代入できる
    message = 100;

    std::cout << message << "\n";
}

実行結果：

std::string型の変数に整数を代入できるのは、文字コードの表現を使って、文字を代入していることになるからです。

出力結果は d になりましたが、これはこの環境で使っている文字コードにおいての 100 が ‘d’ に対応しているからです。

このように、文字の正体は整数ですが、文字として扱いたいのならば int型を使わず、char型および文字リテラルを使って表現してください。

エスケープシーケンス 🔗

ここで、特別な意味をもった文字について触れておきます。

\n のように、「\ ＋１文字」で表される特別な文字の並びではじまる記法を、エスケープシーケンス^📘 (escape sequence) といいます。エスケープシーケンスは、そもそも文字として書きようがない機能を表現したり、C++ の文法の都合上、リテラルの中に記述できない文字を記述したりするためにあります。

エスケープシーケンスには、次のものがあります。^[3]

エスケープシーケンス	意味
\n	改行
\t	タブ（水平タブ）^📘
\v	垂直タブ^📘
\b	位置を１文字分戻す
\r	復帰^📘（位置を現在の行の頭にする）
\f	フォームフィード（改ページ）
\a	アラート（ベル）
\\	バックスラッシュ（日本語環境では、円マークで表示されることが多い）
\?	疑問符(?)
\’	シングルクォーテーション(’)
\”	ダブルクォーテーション(“)
\o (o は 8進数の数字)	8進コードによる文字の表現
\xh (h は 16進数の数字)	16進コードによる文字の表現

char型の変数を宣言するとき、初期値を明示せずに {} としたときの値は \0 ですが、これは上の表でいえば \o を使った表現です。要するに、文字コードによる表現で 0 に対応する文字を意味しています。

エスケープシーケンスは、（そうはみえませんが）１文字の扱いです。たとえば、\n はこれで１文字なので、文字リテラルにできますし、char型の変数に入れられます。

char c = '\n';  // OK

現時点で特に知っておくべきなのは、\n、\t、\\、\?、\'、\" といったところでしょう。\r 辺りは、そのうち使う機会が出てきますが、ほかはあまり使う機会がないかもしれません。

\\、\?、\'、\" はそれぞれ、\、?、'、" といった文字を表すものです。なぜこんなものが必要かというと、\、?、'、" にはそれぞれ特別な用途が割り当てられているからです。\ はエスケープシーケンスを表現するために使う必要がありますし、' や " は文字リテラルや文字列リテラルの開始と終わりをあらわすために使われています。そのため普通の文字として \、?、'、" を使いたいときには、エスケープシーケンスを使う必要があります。ただし、' は文字列リテラルの中ではそのまま使え（"'"）、" は文字リテラルの中ではそのまま使えます（‘"’）。

? についてはそのまま使っても問題ない場合が多いですが、\? とした方が安全です。

【上級】? は、使える文字の種類が少ない環境でソースコードを書けるようにするために、３つの記号を並べて代替するトライグラフ (trigraph) という表記方法で使われています。

【C++17】トライグラフの機能は実際にはほとんど使われておらず、C++17 で仕様ごと削除されています。^[4]

次のプログラムでは、文字列リテラルの中で " を使おうとしており、コンパイルエラーになります。

#include <iostream>

int main()
{
    std::cout << "「"」\n";
}

このプログラムの場合、"「" を文字列リテラルとして認識してしまい、」\n" を余分な文字の並びとしてあつかってしまっています。"「"」\n" 全体を１つの文字列リテラルとして認識させるためには、エスケープシーケンスを使って、次のように書きます。

#include <iostream>

int main()
{
    std::cout << "「\"」\n";
}

実行結果：

「"」

まとめ 🔗

１つの文字をあらわす型は char である
文字リテラルは、シングルクォーテーション (’) を使って、'a' のように記述する
文字は、実際には文字コードを使って表現され、つまり整数である。そのため文字を int型でも扱えるが、型の意図に合わない使い方なので注意が必要
特別な意味をもったエスケープシーケンスがいくつか存在する（\n が改行を意味する文字であるように）
- エスケープシーケンスの一覧表はここにある
ソースファイルの文字コードは環境依存なので、使える文字の種類も異なるが、基本ソース文字セットと呼ばれる 96種類の文字は必ず使用できる
- 基本ソース文字セットの一覧表はここにある

新C++編の【本編】の各ページには、末尾に練習問題があります。ページ内で学んだ知識を確認する簡単な問題から、これまでに学んだ知識を組み合わせなければならない問題、あるいは更なる自力での調査や模索が必要になるような高難易度な問題をいくつか掲載しています。

参考リンク 🔗

1. SL.io.1: Use character-level input only when you have to | C++ Core Guidelines
- 文字の入力でも文字列を使うことを勧めるガイドライン
2. C++ standard working draft N4140 §2.14.3 Character literals | 14882: Contents
- マルチ文字リテラルの扱いについて
3. C++ standard working draft N4140 §2.14.3 Character literals | 14882: Contents
- エスケープシーケンスの表
4. トライグラフの削除 | cpprefjp C++日本語リファレンス
5. C++ standard working draft N4140 §2.3 Character sets | 14882: Contents
Programming Place Plus　新C++編　参考書籍
- 当サイトの参考書籍一覧ページ。C++ に関する書籍を多数紹介
Programming Place Plus　新C++編　リンク集
- 当サイトの参考Webサイト集。C++ の全般的な学習に有益なサイトを紹介

練習問題 🔗

問題の難易度について。

(確認★) このページの内容の理解を確認する問題
(基本★～★★) このページの内容を使って解く問題
(応用★★～★★★) このページまでに学んだことを活用して、現実的な問題を解決する問題
(調査★★～★★★) 自力で情報を探したり、模索したりする問題
(発展★★★) プログラムの改善など、より上を目指すような問題

★は、すべての方が取り組める入門レベルの問題です。
★★は、自力でプログラミングができるようなるために、入門者の方であっても取り組んでほしい問題です。
★★★は、本格的にプログラマーを目指す人のための問題です。

問題１　（確認★）

int型、char型、std::string型の用途を説明してください。

⇒解答・解説

問題２　（確認★）

'a' と "a" の違いを説明してください。

⇒解答・解説

問題３　（確認★）

次のプログラムの実行結果はどうなりますか？

#include <iostream>
#include <string>

int main()
{
    std::string s1 {"\\n"};
    std::string s2 {"\"\""};
    std::string s3 {"\'"};

    std::cout << s1 << "\n";
    std::cout << s2 << "\n";
    std::cout << s3 << "\n";
}

⇒解答・解説

問題４　（確認★）

次のプログラムで、変数 c に入る文字は何ですか？

#include <iostream>
#include <string>

int main()
{
    std::string s {"\nHello\n"};
    char c {s[0]};
}

⇒解答・解説

問題５　（基本★★）

文字の入力を受け取り、その文字を整数で表したときの値を出力するプログラムを作成してください。

⇒解答・解説

問題６　（調査★★★）

ASCII の内容について調べてください。

⇒解答・解説

⇒解答・解説ページの先頭

はてなブックマークに保存	Facebook でシェア	X でポスト／フォロー
LINE で送る	noteで書く	RSS
管理者情報	プライバシーポリシー

文字 | Programming Place Plus　新C++編

このページの概要 🔗

文字 🔗

char型 🔗

文字の入力を受け取る 🔗

std::string に文字を代入する 🔗

文字リテラル 🔗

文字コード 🔗

エスケープシーケンス 🔗

まとめ 🔗

参考リンク 🔗

練習問題 🔗

問題１　（確認★）

問題２　（確認★）

問題３　（確認★）

問題４　（確認★）

問題５　（基本★★）

問題６　（調査★★★）

更新履歴 🔗

このページの概要 🔗

文字 🔗

char型 🔗

文字の入力を受け取る 🔗

std::string に文字を代入する 🔗

文字リテラル 🔗

文字コード 🔗

エスケープシーケンス 🔗

まとめ 🔗

参考リンク 🔗

練習問題 🔗

問題１ （確認★）

問題２ （確認★）

問題３ （確認★）

問題４ （確認★）

問題５ （基本★★）

問題６ （調査★★★）

更新履歴 🔗

問題１　（確認★）

問題２　（確認★）

問題３　（確認★）

問題４　（確認★）

問題５　（基本★★）

問題６　（調査★★★）