なお、文字だけで構成されたデータを、テキスト形式(のデータ)といいます。
基本的には、人間が読み書きできる文字だけで構成されますが、一部、特別な制御を行うための文字(制御文字)を含む場合があります。タブ文字や、改行文字が代表例です。
人間が読み書きできるとはいえ、コンピュータが扱うデータであることに変わりはないので、文字は2進数の 0 と 1 からなるビット列で表現されます。データをビット列で表しつつ、人間がそれを文字であると認識するために、文字コードという仕組みがあります。
文字コードは、1つ1つの文字に何らかの数値を割り当てるルールを定めたものです。たとえば、「あ」を「0001」、「い」を「0010」、「う」を「0011」というふうにルールを決めておけば、コンピュータは「0001」や「0002」といったビット列で扱い、人間には「あ」や「い」といった文字として認識させればいいということになります。
人間がテキストファイルを読み書きするために、テキストエディタと呼ばれるソフトウェアを使用します。
文字コードには多くの種類があります。互換性を持った文字コードでない限り、同じ文字を異なるビット列で表現するので、あるテキストファイルを正しく扱うには、どの文字コードが使われているのかを判断しなければなりません。ほとんどのテキストエディタは、テキストファイルの文字コードを自動的に判別し、人間が認識できるように表示しますが、稀に判断を誤ることもあります(原理上、判断できないこともあります)。
文字コードの判断を誤ると、正しい文字データが表示されず、まるで暗号文のような表示になることがあります。この現象を文字化けと呼びます。
テキストファイルには、人間にとって意味のある情報だけで構成されたものと、コンピュータへの指示を書き連ねたものとがあります。前者のようなテキストファイルを特に、プレーンテキストと呼ぶことがあります。後者の好例は、プログラミング言語で記述されたソースファイルです。
テキストファイルに対して、文字以外のデータを含んだファイルをバイナリファイルといいます。たとえば、画像や音声、動画を表現したファイルは通常、バイナリファイルになっています。
Programming Place Plus のトップページへ
はてなブックマーク に保存 | Pocket に保存 | Facebook でシェア |
X で ポスト/フォロー | LINE で送る | noteで書く |
RSS | 管理者情報 | プライバシーポリシー |