נעזוב לעת עתה את הקידודים הקנייניים הישנים, שמספרם היה רב כמספר יצרני המחשבים בימים ההם. שיתוף פעולה אמיתי בין מחשבים שונים החל כשחובר קידוד תקני לכל המחשבים - קידוד אַסְקִי, ASCII, ראשי תיבות של American Standard Code for Information Interchange. שוב, לפי המילה American אנו מבינים שעברית לא באה כאן בחשבון, אך יש לזכור שהתקן חובר בשנת 1968. הקידוד כלל מקום ל-7 ספרות, כלומר 128 תווים. למעשה, מחשבים עובדים בדרך-כלל בחזקות של 2, ולכן היה צריך לכלול מקום ל-8 ספרות (256 תווים), אך הספרה הבינארית האחרונה נשמרה לצורכי תקשורת שונים, כגון בדיקת תקינות העברת המידע. את העובדה הזו יש לזכור בהקשר של עבודה עם עברית, שכן מגבלה זו הקשתה מאוד על העבודה בעברית (ובשפות אחרות בכלל), ועדיין יש כמה שרתי דואר מיושנים אשר מאפשרים 7 ספרות בינאריות בלבד ומשבשים את הנתונים העוברים בהם.
קידוד ASCII האמריקאי המקורי נראה כך:
| # | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F |
| 0 | ||||||||||||||||
| 1 | ||||||||||||||||
| 2 | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / | |
| 3 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
| 4 | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
| 5 | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
| 6 | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
| 7 | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ |
המספרים הנתונים בטבלה הם מספרים הקסדצימאליים, כלומר על בסיס 16 (להבדיל מהשיטה העשרונית אצלנו והשיטה הבינארית אצל מחשבים). ניתן לחשב אותם באמצעות המחשבון של Windows בתצוגה המדעית. למשל התו "A" הוא 41 בהקסדצימאלית, שזה 65 בעשרונית.
את 32 המקומות הראשונים (המספרים 00 עד 20 בהקסדצימאלית) תופסים תווי בקרה שונים שיש להם תפקידים מיוחדים (רובם מימי הטלפרינטרים המכאניים ואינם פועלים כיום). מכאן ואילך מוקצים מקומות לסימני פיסוק, מספרים ואותיות לטיניות גדולות וקטנות. מפת התווים הזו מוכרת לכל מחשב היום (פרט למחשבים של יבמ שעדיין נותרו עם קידוד קנייני קודם). כל קובץ כזה שנוצר משנות ה-70 והלאה אפשר לקרוא במחשב כיום, בדרך-כלל ללא בעיות מיוחדות.
היה טוב לעשות שימוש בעוד 128 מקומות פנויים (הספרה השמינית של הקידוד) בשביל שפה נוספת, אך ASCII הוא קידוד של 7 ספרות בלבד, ובכל-אופן הספרה השמינית שימשה למטרות מיוחדות. על-כן, כדי לכלול תווים נוספים באותה תקופה היה צריך לוותר על חלק מהתווים הקיימים של ASCII ולהקצות במקומם תווים אחרים. בגרמניה, למשל, היו משתמשים במקום של סימנים פחות נפוצים כגון { כדי לקודד את התנועות עם שתי הנקודות מעליהן (Umlaut). כך נוצרו וריאנטים של ASCII ששוב לא היו תואמים ביניהם.
כשהופיע המחשב האישי של יבמ, עם מערכת ההפעלה DOS של מיקרוסופט, היה כבר אפשר לוותר על אילוץ הספרה הבינארית השמינית. המחשבים הללו לא שימשו תחילה לתקשורת, והצורך לטפל בשפות שונות היה נחוץ יותר. אז חוברו מפות תווים או "דפי קוד" (Code Pages) עבור השפות השונות. דפי הקוד היו סדרות של 256 תווים כל אחד; המחצית הראשונה הייתה זהה אצל כולם - 128 תווים של ASCII תקני. המחצית השניה הכילה תווים של שפות אחרות. כל דף קוד צוין על-ידי מספר שרירותי. דף הקוד האמריקאי הוא 437, זה של מערב אירופה הוא 850, והעברי הוא 862.
מפות התווים של המחשב האישי (הנקראות גם OEM Code Pages, כלומר דפי הקוד של יצרני החומרה) חוברו בתקופה שלכל יצרן הייתה יד חופשית בתקינת תקנים. לאחר מכן, במהלך שנות ה-80, חיבר גוף התקינה ISO תקנים בין-לאומיים חדשים למיפוי תווים. חוברה סדרה של דפי קוד בשם ISO-8859, שבה מפת תווים לכל שפה. למעשה לא היה בכך משום שינוי מהותי מדפי הקוד של המחשב האישי, אלא שהתווים שמחוץ ל-ASCII מוקמו עתה במקומות אחרים מאשר בדפי הקוד של יבמ. משמע, האות "א" בקובץ שנכתב לפי מיפוי המחשב האישי לא תופיע כאות "א" תחת תוכנה שקוראת לפי התקן של ISO! ואכן, כשמיקרוסופט פיתחה את מערכת Windows היא בחרה על-פי רוב את מיפוי ISO כתקן לשפות הזרות. מכאן נובע חוסר התאימות בין קבצים שנכתבו ב-DOS לבין כאלה שנכתבו ב-Windows. קובץ שנכתב בעברית של DOS צריך המרה כדי שיהיה קריא תחת Windows, ולהפך, כמובן.
למען האמת, מבחינת הקידוד אין קשיים כל-כך גדולים בעברית. יש לה רק שני קידודים סטנדרטיים בתוכנות של מיקרוסופט: דף הקוד 862 של DOS, ודף הקוד 1255 של Windows. ברוסית, למשל, יש חמישה דפי קוד שאינם תואמים זה לזה (שניים של DOS, תקן ישן אחד מהממשל הסובייטי, ותקן של ISO ותקן של Windows שאינם תואמים זה לזה...). מאז בוא המחשב האישי יש אחידות רבה בקידוד העברית. את הבעיות היחידות יוצרים קובצי DOS הישנים שעוד נותרו מהעבר. מערכת Windows, מחשבי מקינטוש של Apple, מערכות Unix ודפדפני האינטרנט השונים כולם מקודדים עברית לפי המיפוי של ISO. את הבעיות הגדולות ביישום עברית במחשבים יוצר היבט מיוחד של השפה העברית (והערבית): הכיווניות, או איך לאחסן תווים שכיוונם השימושי הוא מימין לשמאל.
[הקודם] [תוכן העניינים] [הבא]